] Big Data Analysis: Hive, Spark SQL, DataFrames and GraphFrames 1주차
본문 바로가기

카테고리 없음

Big Data Analysis: Hive, Spark SQL, DataFrames and GraphFrames 1주차

Computations Optimization

빅 데이터 분석을 위한 프레임 워크 

Apache::Test 를 통해 Hive쿼리 속도를 높일 수 있다. 

Apache Spark

Spark에 대한 확실한 이해를 통해 파티셔닝 및 직렬화를 배울 수 있다. 

Natalia가 제공하는 PageRank의 최적의 구현에서 더 나아간다. 

Spark SQL을 마스터하고 Catalyst를 사용하여 계산을 최적화하는 방법을 알게된다.

Spark앱의 리소스를 관리스는 방법을 배운다. 

페타바이트급의 데이터를 빠르게 처리하는 방법이다 수백달러 월급의 가치가 있다. 

 

What is BigData Anaysis?

데이터에서 배턴을 찾는기술

방대한 양의 데이터를 논리 그룹으로 나누고 숨겨진 구성 요소를 찾는 기능

데이터 분석 방법, 기술을 이용하여 서비스 로그에서 웹 사이트 사용자 수를 쉽게 계산가능.

대상 사용자를 분석하고 데이터를 기반으로 의사 결정을 수행할 수 있는 사용자 프로필을 작성가능.

고객과의 통신을 분석하여 가장 일반적인 서비스 문제를 해결 가능

Haddop MapReduce 및 Apache Spark를 사용하는 방법을 알고 있을 수 있다. 

그러나 MapReduce는 더 이상 높은 수준의 도구가 아니다. 

구조화된 쿼리 언어 또는 SQL을 간단히 사용할 수도 있다. 자체 MapReduce 어플을 작성하는것보다 효율적이다. 

 

Tools For BigData Analysis

빠르게 품질좋은 분석을 수행하려면 적합한 툴을 사용해야한다. 

이 툴의 소스코드는 맵리듀스나. 심지어 스파크보다 더 간단하다. 

페이스북을 가능하게 하는것은 '하이브(Hive)'다. 

두번째로 중요한 엔진은 'sparkScale' 인데 이는 SQL 쿼리를 사용한다. 하이브와 마찬가지로 간단한 문법.

스파크보다 성능 뛰어나다.  고객이 처리할 모든 데이터 소스와 통합된다. 텍스트 파일 데이터 프레임 SQL 테이블 및 기타 여러 소스의 데이터를 함께 배치가능하다. 

Hive와 Spark를 쓰지 않는 것은 인터넷 시대에서 비둘기를 쓰는것과 같다. 

 

Graph Data Analysis

MapReduce Spark를 사용하는 대용량 데이터 볼륨과 Hive 및  Spark SQL과 같은 고급 도구를 사용하는 방법을 알고 있다. 

빅데이터 분석하기 위해서는 실용적 instrument의 사용법 숙달 and 수학도 써야함. 

데이터를 그래프로 나타낼 수 있다.(대중 교통 체계, 은행 거래, 여러분이 좋아하는 소셜 네트워크에 있는 친구들)

그래프 데이터를 RAM에 저장하는 방법, 스파크와 스파크SQL을 사용하여 그래프 데이터를 집계하는 방법, 그래프 프레임 패키지와 함께 상위 수준의 도구를 사용하는 방법 검토 

스팸메일 감별법 알려준다. 

쿼리를 보호하는 동안 구글이 사용하는 개념 및 그래프가 어떻게 연결되어 있는지 살펴봄

소셜 네트워크에서 가장 영향력 있는 사용자를 찾아서 그중 하나가 되는 방법?