] [ADsP](1과목)3장_1절,2절,3절,4절,5절3
본문 바로가기

카테고리 없음

[ADsP](1과목)3장_1절,2절,3절,4절,5절3

빅데이터 열풍, 회의론

crm의 부정적 학습효과

 

Big 이 핵심이 아니다. 

어떤 시각과 통찰을 얻을 수 있느냐의 문제.

 

비즈니스의 핵심에 객관적이고 종합정인 총찰을 줄 수 있는 데이터를 차즌ㄴ것이 중요하다. 

 

직관에 기초한 의사결정보다는 데이터에 기초한 의사결정!

 

2절. 전략 인사이트 도축을 위한 필요 역량

1. 데이터 사이언스의 의미와 역할

 

3절 빅데이터 그리고 데이터 사이언스의 미래 

 

DBMS란 무엇인가?(Data Base Managment System)

관계형 DBMS

객체지향 DBMS

네트워크 DBMS

계층형 DBMS

 

SQL(Structured Query Language)

데이터 베이스에 접근할 수 있는 하부 언어, 데이터 정의 조작 기능

 

테이블 단위로 연산 수행, 영어 문장과 비슷한 구문으로 초보자들도 쉽게 사용.

 

Data에 관련한 기술.

가. 개인정보 비식별 기술.

비식별 기술이란 데이터 셋에서 개인을 식별할 수있는 요소를 전부 또는 일부를삭제하거나 대체하여 알아볼수 없게 하는 기술

데이터 마스킹, 가명처리, 총계처리, 삭제, 데이터 범주화

 

무결성과 레이크 

 

데이터 무결성 : 데이터베이스 내의 데이터에 대한 정확한 일관성, 유효성 신뢰성을 보장하기 위해 데이터 변경/ 수정시 여러가지 제한을 두어 데이터의 정확성을 보증하는 것을 말한다. 무결성제한의 유형은 개체 무결성(Entity integrity), 참조 무결성(Refernetial integrity), 번위 무결성(Domain integrity)이 있다. 

 

데이터 레이크 : 수 많은 정보 속에서 의미있는 내용을 찾기 위해 방식에 상관없이 데이터를 저장하는 시스템으로, 대용량의 정형 및 비정형 데이터를 저장할 뿐만 아니라 접근도 쉽게 할 수 있는 대규모의 저장소를 의미한다. Apache Haddop, Teradata integrated Big Data Platform 1700 등과 같은 플랫폼으로 구성된 솔루션을 제공하고 있다.

 

빅데이터 분석 기술 

가. 하둡

하둡은 여러 개의 컴퓨터를 하나인 것처럼 묶어 대용량 데이터를 처리하는 기술이다 분산파일시스템(HDFS)를 통해 수 천대의 장비에 대용량 파일을 저장할 수 있는 기능을 제공하고 맵리듀스(Map Reduce)로 HDFS에 저장된 대용량의 데이터들을 대상으로 SQL을 이용해 사용자의 질의를 실시간으로 처리하는 기술로 이루어져 있다. 

 

나. Apache Spark

실시간 분산형 컴퓨팅 플랫폼으로써 스칼라로 작성이 되어 있지만 스칼라, 자바,R,파이썬 API를 지원한다. IN-Memory방식으로 처리를 하기 때문에 하둡에 비해 처리속도가 빠른 것이 특징이다. 

 

다. Smart Factory

공장 내 설비와 기계에 사물인터넷(IoT)이 설치되어, 공정 데이터가 실시간으로 수집되고 데이터에 기반한 의사결정이 이뤄집으로써 생산성을 극대화 할 수 있는 기술이다. 

 

라. 머신러닝 & 딥러닝

 

데이터의 유형

유형 내용 예시
정형데이터

형태(고정된 필드)가 있으며 연산이 가능함 주로관계형 데이터베이스에 저자됨

데이터 수집 난이도가 낮고 형식이 정해져 있어 처리가 쉬운 편

관계형 데이터베이스 스프레드시트,csv등
반정형 데이터 

형태(스키마,메타데이터)가 있으며 연산이 불가능, 주로 파일로 저장됨. 

데이터 수집 난이도가 중간, 보통 API 형태로 제공되기 때문에 데이터처리 기술(파싱) 이 요구됨.

XML HTML JSON 로그형태(웹로그,센서데이터)등
비정형 데이터 

형태가 없으며, 연산이 불가능 주로 NoSQL에 저장됨.

데이터 수집 난이도가 높으며 텍스트 마이닝 혹은 파일일 경우 파일을 데이터 형태로 파싱해야 하기 때문에 수집 데이터 처리가 어려움

수셜데이터(트위터, 페이스북),영상,이미지,음성,텍스트(word, PDF)등

 

1과목 연습문제

      1. 3
      2. 4
      3. 2
      4. 2
      5. 3
      6. 3
      7. 3
      8. 4 --> 2 , 지식은 의사결정과 관련 .
      9. 4 --> 2 , Cinematch 넷플릭스에서 개발한 알고리즘.
      10. 4
      11. 2
      12. 4
      13. 3
      14. 4
      15. 4
      16. 4
      17. 3 --> 4 , 2000년대 초반의 EAI, ERP, e-CRM 등과 같은 데이터베이스 간의 정보 공유 통합이나 고객 정보의 전략적 활용을 주된 테마로 분야는 금융분야이다.
      18. 2
      19. 4
      20. 3
      21. 1
      22. 4
      23. 1 --> 2, 빅데이터가 만들어내는 본질적인 변화는 사전처리에서 사후처리, 표본조사에서 전수조사, 질보다 , 인과관계에서 상관관계로 변화했다.
      24. 2
      25. 2
      26. 4
      27. 3
      28. 4
      29. 3
      30. 4 --> 2, 신용평가는 투자자 보호를 위하여 금유상품 신용공여 등에 대하여 원리금이 상환될 가능성과 기업 법인 간접투자기구 등의 신용도를 평가하는 행위이며 핀테크 분야에서 빅데이터 활용이 활발하게 이루어지고 있다.
      31. 3
      32. 1 --> 3, caffe 딥러닝 소프트웨어
      33. 1
      34. 3
      35. 4
      1. 1
      2. 3
      3. 1
      4. 4 --> 1, 데이터 사이언스의 핵심 구성요소는 Analytics, IT, 비즈니스 분석.
      5. 3
      6. 1
      7. Between
      8. : 엔지니어링 IT,프로그래밍 --> 하드

: 인문학적, 분석,통계학 --> 소프트

    1. 비정형데이터? --> 정보
    2. 모르겠다 --> 데이터 웨어하우스
    3. 데이터 웨어하우스 --> 데이터 레이크
    4. 비정형데이터 --> 정성적 데이터
    5. 페타바이트(PB)
    6. IOT 사물인터넷 --> 스마트 팩토리
    7. 지혜(Wisdom) -- 지혜