] [ADsP] 핵심 포인트를 정리한 합격마법노트
본문 바로가기

카테고리 없음

[ADsP] 핵심 포인트를 정리한 합격마법노트

1과목 데이터 이해

데이터의 이해

1.데이터

1) 데이터 정의

- 존재적 특성 : 객관적 사실

- 당위적 특성 : 추론, 예측, 전망, 추정을 위한 근거

2) 데이터 특징

-정성적 데이터 : 언어 문자(예 : 회사 매출이 증가)

-정량적 데이터 : 수치, 도형, 기호(예 : 나이, 몸무게, 주가 등)

3) 지식

- 암묵지 : 학습과 경험을 통해 개인에 체화된 지식(예 : 김치 담그기, 자전거 타기), 공유와 전달이 어려움, 내면화 --> 공통화 필요

- 형식지 : 문서나 매뉴얼처럼 형식화된 지식(예 : 교과서, 비디오 DB), 공유와 전달이 용이 표준화 --> 연결화

 

2. 데이터와 정보

1) 데이터 : 개별 데이터 자체로 의미가 중요하지 않은 객관적 사실

2) 정보 : 데이터의 가공, 처리와 데이터 간 연관관게 속에서 의미가 도출

3) 지식 : 정보를 구조화하여 유의미한 정보를 분류하고 개인적 경험을 결합하여 내재화한 것.

4) 지혜 : 지식의 축적과 아이디어가 결합된 창의적 산물.

 

3. 데이터베이스

1) 용어

- 1950년대 미국의 군대 데이터의 기지라는 뜻 데이터베이스 탄생

- 1963년 미국 SC가 개최한 심포지엄에서 공식 용어로 사용

- 1970년대 초반 유럽에서 데이터베이스라는 단일어로 일반화 됨

- 1975년 국내에서 미국의 CAC가 KORSTIC을 통해 처음으로 서비스 됨

2) 정의

-EU : 체계적이거나 조직적으로 정리되고 전자식 또는 기타 수단으로 개별적으로 접근할 수 있는 독립된 저작물, 데이터 또는 기타 소재의 수집물

-국내 저작권법 : 소재를 체계적으로 배열 또는 구성한 편집물로 개별적으로 그 소재에 접근하거나 그 소재를 검색할 수 있도록 한 것.

-국내 컴퓨터 용어사전 : 동시에 복수 적용 업무를 지원할 수 있도록 복수 이용자의 요구에 대응해서 데이터를 받아들이고 저장, 공급하기 위하여 일정한 구조에 따라서 편성된 데이터의 집합.

3)특징

- 통합된 데이터(integrated data) : 동일한 내용의 데이터가 중복되어 있지 않다는 것을 의미함. 데이터 중복은 관리상의 복잡한 부작용을 초래함.

- 저장된 데이터(stored data) : 자기 디스크나 자기 테이프 등과 같이 컴퓨터가 접근할 수 있는 저장 매체에 저장되는 것을 의미 함. 데이터베이스는 기본적으로 컴퓨터 기술을 바탕으로 한 것.

- 공용 데이터(shared data) : 여러 사용자가 서로 다른 목적으로 데이터를 공동으로 이용한다는 것을 의미함. 대용량화되고 구조가 복잡한 것이 보통.

 

 

데이터의 가치와 미래

1. 빅데이터 

1) 빅데이터의 정의 

- Mckinsey,(2011) - 일반적인 데이터베이스 소프트웨어로 저장,관리,분석할 수 있는 범위를 초과하는 규모의 데이터

- IDC(2011) - 다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고 데이터의 초고속 수집,발굴,분석을 지원하도록 고안된 차세대 기술 및 아키텍처.

- 가트너 그룹(Gartner Group)의 러그 래니(Doug Laney)의 3V-volume, variety, velocity)

2) 빅데이터 정의의 범주 및 효과

- 데이터 변화(규모, 형태, 속도)

- 기술변화(새로운 데이터 처리, 저장 분석 기술, 클라우드 컴퓨팅 활용)

- 인재, 조직 변화(data scientist, 데이터 중심 조직)

3) 빅데이터에 거는 기대의 비유적 표현

- 산업혁명의 석탄과 철, 21세기의 원유, 렌즈, 플랫폼

4) 빅데이터가 만들어 내는 본질적인 변화

-사전처리--> 사후처리,  표본조사-->전수조사, 질-->양,  인과관계-->상관관계

 

 

2. 빅데이터의 가치와 영향

1) 빅데이터의 활용 기본 테크닉 7가지

- 연관 규칙 학습, 휴형분석, 유전 알고리즘, 기계학습, 회귀분석, 감정분석, 소셜 네트워크 분석

 

3.위기요인과 통제 방안

1) 빅데이터 시대의 위기 요인

- 사생활 침해 --> 동의에서 책임으로 

- 책임 원칙 훼손 --> 결과기반 책임 원칙 고수

- 데이터 오용 --> 알고리즘 접근 허용

 

4. 미래의 빅데이터 

1) 데이터 : 모든 것의 데이터화(datafication)

2) 기술 : 진화하는 알고리즘, 인공지능

3) 인력 : 데이터 사이언티스트, 알고리즈미스트

 

 

가치창조를 위한 데이터 사이언스와 전략 인사이트

1. 빅데이터 분석과 전략 인사이트

1) 빅데이터 회의론 원인

- 부정적 학습효과 - 과거의 고객관계관리(CRM) : 공포 마케팅, 투자대비 효과 미흡

- 부적절한 성공사례 - 빅데이터가 필요없는 분석사례, 기존 CRM 분석 성과

 

2) 싸이월드의 퇴보 원인

- OLAP와 같은 분석 인프라로 존재했으나 중요한 의사결정에 데이터 분석 활용 못함

- 웹로그 분석을 통한 일차원적 분석만 집중

- 소셜 네트워킹 활동 특성과 관련된 분석을 위한 프레임 워크나 평가가지표도 없었음

- 트렌드 변화가 사업모델에 미치는 영향에 대한 전략적 통찰(inisight)를 가지지 못함

 

3) 전략적 통찰이 없는 분석의 함정

- 단순히 일차원적인 분석의 반복은 해당부서의 업무 영역에는 효과적이지만 기업의 환경 변화와 고객 변화에 전략적으로 대처하기 힘듬

- 전략적 통찰력의 창출에 초점을 맞춰 분석을 활용하면 사업의 중요한 기회를 발굴할 수 있음

- 최고가 되기 위해서는 일차원적 분석을 통해 분석 경험을 늘리고 작은 성공을 토해 분석 활용 범위를 넓혀 사업성과를 견인할 수 있는 전략적 인사이트를 주는 가치 기반 분석 단계로 발전해야 함.

 

2. 데이터사이언스와 사이언티스트

1) 데이터사이언스

- 데이터로부터 의미 있는 정보를 추출해내는 학문으로 분석 뿐 아니라 이를 효과적으로 구현하고 전달하는 과정까지 포괄한 개념

- 데이터 사이언스는 정형 또는 비정형을 막론하고 인터넷, 휴대전화, 감시용 카메라 등에서 생성되는 숫자와 문자 영상 등 다양한 유형의 데이터를 대상으로 함

- 데이터 사이언스는 데이터 공학, 수학, 통계학, 컴퓨터공학, 시각화, 해커의 사고방식, 해당분야의 전문 지식을 종합한 학문

- 데이터 사이언스의 영역은 3개로 분석 분야, IT분야, 비즈니스 분석 분야로 구성된다. 

2) 데이터사이언티스트

- 데이터 사이언티스트는 데이터의 홍수 속에서 헤엄을 치고, 데이터 소스를 찾고, 복잡한 대용량 데이터를 구조화, 불완전한 데이터를 서로 연결해야 함

- 데이터 사이언티스트가 갖춰야 할 역량 중 한 가지는 강력한 호기심이며, 호기심이란 문제의 이면을 파고들고, 질문들을 찾고, 검증 가능한 가설을 세우는 능력을 의미

- 데이터 사이언티스트는 빅데이터에 대한 이론과 지식과 분석 기술에 대한 숙련 기술인 하드 스킬을 가짐.

- 데이터 사이언티스트는 창의적사고, 호기심, 논리적 비판을 통한 통찰력 있느 분석, 설득력 있는 전달력, 그리고 다 분야간 협력을 위한 커뮤니케이션 능력과 같은 소프트 스킬을 가져야 함.

 

3. 빅데이터와 데이터 사이언스의 미래

 

 

 

 

2 과목 데이터 분석 기획.

데이터 분석 기획의 이해1

1. 분석 기획 방향성 도출

1) 분석 기획 : 실제 분석을 수행하기 전에 분석과제를 정의하고 의도했던 결과를 도출할 수 있도록 적절하게 관리할 수 있는 방안을 사전에 계획하는 일련의 작업

2) 목표 시점 별 분석 기획 방안의 차이

3) 분석 기획 시 고려사항

1. 분석의 기본이 되는 데이터에 대한 고려 - 데이터 확보, 데이터 유형에 따른 선행 분석

 - 데이터 유형 :정형 데이터 (DB), 비정형 데이터(보고서, 이메일, 소셜데이터), 반정형데이터(센서를 통한 스트리밍되는 머신데이터)

2. 분석을 통해 가치 창출되는 적절한 활용방안과 유즈케이스 탐색

3. 분석 수행시 발생 가능한 장애요소와 대책에 대한 사전 계획 수립.

 

2. 분석 방법론

1) KDD 분석 방법론

- 데이터셋 선택(selction)

- 데이터 전처레(preprocessing)

- 데이터 변환(transformation)

- 데이터 마이닝(datamining)

- 결과 평가(Interpretation/evaluation)

 

2) CRISP-DM 방법론

- 업무 이해(business understanding)

- 데이터 이해(data understanding)

- 데이터 준비(data preparation)

- 모델링(modeling)

- 평가(evaluation)

- 전개(Deployment)

 

3)빅데이터 분석 방법론

분석기획, 데이터 준비, 데이터 분석 시스템 구현, 평가 및 전개.

 

1. 분석 과제 발굴

1) 하향식 접근 방식(Top Down Approach)

 : 문제가 주어지고 이에 대한 해법을 찾기 위하여 각 과정이 체계적으로 단계화 되어 수행하는 방식

2) 상향식 접근 방식(Bottom Up Approach)

: 문제의 정의 자체가 어려운 경우 데이터를 기반으로 문제의 재정 및 

 

2. 하향식 접근 방식

1) 문제 탐색(problem discovery)

(1) 비즈니스 모델 기반 문제 탐색 : 업무(operation), 제품(product), 고객(customer), 규제와 감사(regulation & audit), 지원 인프라 (IT & human resource)등 5가지 영역으로 기업의 비즈니스를 분석

- 거시적 관점의 메가 트랜드에서 해당 산업에 폭넓게 영향을 미치는 사회, 경제적 요인을 STEEP으로 요약하여 사회(social) 기술(technological) 경제(economic), 환경(environmental), 정치(political)영역으로 폭넓게 분석 기회 도출

- 경쟁자 확대 관점에서 사업 영역의 직접 경쟁자 및 제품, 서비스 뿐만 아니라 대체재와 신규 진입자 등으로 확대하여 분석 기회 도출

- 시장의 니즈 탐색 관점에서는 사업에서의 고객 영역, 채널 영역, 영향자들 영역으로 분석 기회를 도출

-역량의 재해석 관점에서는 내부 역량(competency)영역, 파트너와 네트워크(partners& Network)영역에서 분석 기회를 도출

(2) 외부 참조 모델 기반의 문제 탐색 : 유사 동종 사례를 벤치마ㅣㅇ을 통해 분석 기회를 발굴

(3) 분석 유즈 케이스 정의 

2) 문제 정의(Problem Definition) 단계 : 비즈니스 문제를 데이터와 분석 문제로 변환하여 정의하는 단계

3) 해결방안 탐색(Solution Search) 단계 : 분석역량(Who), 분석기법 및 시스템(How)로 해결 방안 탐색

4) 타당성 검토(Feasibility Study) : 경제적 타당성, 데이터 및 기술적 타당성.

 

3. 상향식 접근법(Bottom up Approach)

- 기업이 보유하고 있는 다양한 원천 데이터로부터 분석을 통하여 통찰력과 지식을 얻는 접근방법

- 다양한 원천 데이터를 대상으로 분석을 수행하여 가치 있는 모든 문제를 도출하는 일련의 과정

- 기존의 하향식 접근법은 논리적 단계별 접근법으로 최근의 복잡하고 다양한 환경에서 발생하는 문제를 해결하기 어려워 디자인적 사고(Design Thinking)접근법을 통해 WHY 관점을 강조했지만 객관적으로 존재하는 이터 그 자체를 관찰하여 문제를 해결하려는 WHAT 관점으로의 접근

- 비지도 학습 방법으로 수행되며, 데이터 자체의 결합, 연관성, 유사성을 중심으로 접근

- 시행착오를 통한 문제 해결 : 프로토타이핑 접근법

- 빅데이터 분석 환경에서 프로토타이핑 접근법의 필요성 대두.

 

4. 분석과제 

- 분석 과제 정의서를 통해 분석별 필요 소스 데이터, 분석 방법, 데이터 입수 및 분석의 난이도, 분석 수행주기, 검증 오너십, 상세 분석 과정 등을 정의

 

1. 마스터 플랜 수집

1) 비즈니스 관점에서 도출된 다양한 분석과제들을 기업에 적용시키기 위해서는 적용 우선순위를 평가해야 한다. 

2) 빅데이터의 특징인 4V를 고려한 우선순위 평가기준을 적용할 수 있어야 한다. 

3) 현재 기업이 당면해 있는 데이터 분석 적용 수준을 고려하여 시급성과 난이도 평가기준에 따라 분석 적용 우선순위를 조정 할 수 있다. 

4) 마지막으로 분석을 조직의 문화로 정착시키기 위한 변화관리 노력이 필요하다. 

 

분석 커버넌스 체계

1) 빅데이터 시대에 진입하면서 기업의 분석 수준 및 목적에 맞게 데이터를 분석하여 적용하는 것이 궁극적으로 기업의 경쟁력이 될 수 있기 때문에 기업 데이터의 체계적인 관리가 필수적이다. 

2) 조직 내에 분석을 효율적이고 안정적으로 적용하기 위해서는 기업에 적합한 형태의 데이터 분석 전문조직을 구성하0고, 분석 전문 인력을 양성하는 것이 매우 중요하다. 

3) 분석 전문 인력을 양성하기 위해 조직 구성원을 대상으로 분석 교육을 실시한다. 

4) 마지막으로 분석을 조직의 문화로 정착시키기 위한 변화관리 노력이 필요하다.

 

데이터 분석 기법 이해

1. 데이터 처리 과정

1) 데이터 분석을 위해서는 DW나 DM를 통해 분석데이터를 구성

2) 신규데이터나 DW에 없는 데이터는 기준 운영시스템(legacy)에서 가져오기보다는 운영시스템에서 임시로 데이터를 저장하는 스테이징영역(staging area)에서 데이터를 전처리해서 운영데이터저장소(ODS)에 저장된 DW와 DM을 결합하여 데이터를 구성.

 

2. 시각화 기법

1) 가장 낮은 수준의 분석이지만 복잡한 분석을 보다 더 효율적으로 해석할 수 있어 빅데이터 분석에서 필수적인 분석방법 임.

2) 여러 차트형식의 시각화와 트리구조, 다이어그램 맵, 워드클라우드 등

 

3. 공간분석

1) 공간적 차원과 관련된 속성들을 시각화하는 분석으로 지도위에 관련된 속성들을 생성하고 크기, 모양, 선 굵기 등을 구분하여 인사이트를 얻음.

 

4. 탐색적 자료분석(EDA)

1) 다양한 차원과 값을 조합해 가며 특이점이나 의미있는 사실을 도출하고 분석의 최종목적을 달성해가는 과정

2) 여러 차트형식의 시각화와 트리구조, 다이어그램 맵, 워드클라우드 등.

 

5. 데이터마이닝

1) 대용량의 자료로부터 정보를 요약하고 미래에 대한 예측을 목표로 자료에 존재하는 관계, 패턴, 규칙, 등을 탐색하고 이를 모형화함으로써 이전에 알지 못한 유용한 지식을 추출하는 분석 방법

2) 기계학습(인공신경망, 의사결정나무, 클러스터링, SVM), 패턴인식(연관규칙, 장바구니 분석)

 

6. 시뮬레이션

1) 복잡한 실제상황을 단순화해 컴퓨터상의 모델로 만들어 재현하거나 변경함으로써 현상을 보다 잘 이해하고 미래의 변화에 따른 결과를 예측하는데 사용하는 고급분석 기법

 

7. 최적화

1) 목적함수 값을 최대화 도는 최소화하는 것을 목표로 하는 방법으로 제약조건 하에서 목표값을 개선하는 방식으로 목적함수와 제약조건을 정의해 문제를 해결

 

3과목 2장

R프로그래밍 기초 빅데이터 분석도구 R

1. R 프로그래밍 언어

1) R은 통계 계산과 그래픽을 위한 프로그래밍 언어이지 소프트웨어 환경

2) 뉴질랜드 오클랜드 대학의 로스 이하카와 로버트 젠틀맨에 의해 시작되어 현재는 R 코어 팀이 개발하고 있음

3) R은 GPS(General Public License)하에 배포되는 S프로그래밍 언어로 구현되어 GNU S라고 함.

2. R의 특징

1) 표준 플랫폼(S 언어 기반)

2) 모든 운영체제에서 사용 가능(맥, 리눅스, 윈도우)

3) 메모리 저장방식

4) 객체지향언어이며 함수형 언어

5) 오픈소스 프로그램으로 무료

 

1절 데이터 마트

1. 요약번수 

1) 정의 수집된 정보를 분석에 맞게 종합하는 변수, 데이터 마트에서 가장 기본적인 변수로 총구매 금액, 횟수, 구매여부 등이 있으며 많은 모델이 공통으로 사용될 수 있어 재활용성이 높음

2) 기간별 구매 금액, 횟수, 여부/ 위클리 쇼퍼/ 상품별 구매 금액, 횟수, 여부/ 상품별 구매 순서/ 유통 채널별 구매 금액 / 단어 빈도/ 초기 행동변수/ 트랜드 변수/ 결측값과 이상값 처리/ 연속형 변수의 구간화

2. 파생변수

1) 정의 : 사용자가 특정 조건을 만족하거나 특정 함수에 의해 값을 만들어 의미를 부여하는 변수로 매우 주관적일 수 있으므로 논리적 타당성을 갖출 필요가 있음

2) 근무시간 구매지수/ 주 구매 매장 변수/ 주 활동 지역 변수/ 주 구매 상품 변수 /구매상품 다양성 변수/ 선호하는 가격대 변수/ 시즌 선호 고객 변수/ 라이프 스테이지 변수/ 라이프스타일 변수/ 행사민감 변수/ 휴면가망 변수/ 최대가치 변수/ 최적 통화시간 등.

3.reshape 패키지

1) 2개의 핵심 함수로 구성 

- melt() : 데이터를 DB구조로 녹이는 함수 

- cast() : 새로운 구조로 데이터를 만드는 함수

4. sqlaf패키지

1) R에서 sql 명령어를 사용가능하게 해주는 패키지로 SAS의 proc sql과 같은 기능

2) head([df])