빅데이터 소개
(파이썬은 내일부터 한댜)
데이터
비정형: text, 동영상, 음성, 센서 GPS, SNS etc.
-> 고정된 필드에 저장되어 있지 않은 데이터
정형: 고객 데이터, 거래 데이터, RDBS, 스프레드시트 etc.
-> 고정된 필드에 저장된 데이터
반정형: 고정된 필드에 저장되어있지는 않지만, 메타데이터나 스키마 등을 포함하는 데이터 ex. XML, HTML text
===> 빅데이터에서는 비정형 데이터의 비중이 매우 큼
처리과정
데이터 소스 생성-수집-저장-처리-분석-표현
ETL, 스토리지, NoSQL(도구 카산드라?이런거 얘기하심), 맵리듀스(신기술 스파크가 대체하고 있다고 하네) -> 스파크: 하둡에 저장된 데이터를 분석한다고 함. scala, ptyhon, java 사용
NOSQL 스키마 없이 데이터 저장함
-
2장 수집
flume: 로그데이터를 효율적으로 수집하고 집계하는 로그수집기
HDFS에 분산 저장 (하둡)
하둡에 분산저장된 로그데이터를(HDFS) 맵리듀스(지금은 스파크 주로 씀)로 분석함 (사람이.. 스파크를 이용해서 분석)
수집 기술
flume(젤 많이 쓰나봄), chukwa, scribe ---> 얘네 주로 쓴댜
sqoop: 기존 rdbms에서 하둡으로 데이터 이전하려는 목적으로 사용 --> RDMS와 NoSQL 사이 데이터 연동에 많이 사용
-3장 저장
하둡 HDFS (많이 강조하심)
데이터를 모으는게 젤 어려움
아무튼 맵리듀스를 스파크가 대체한다고 계속 강조하심 -> 테스트에 나오나?
'수업 > 정리' 카테고리의 다른 글
220413 파이썬 설치, 기본문법1 (0) | 2022.04.13 |
---|---|
220412 파이썬 개요 (0) | 2022.04.12 |
220405 깃허브 (0) | 2022.04.05 |
220404 프로젝트 사전작업_aws 환경 (0) | 2022.04.04 |
220401 Model2_답글2, 수정, 삭제 (0) | 2022.04.01 |