빅데이터 소개
(파이썬은 내일부터 한댜)

데이터
비정형: text, 동영상, 음성, 센서 GPS, SNS etc.
   -> 고정된 필드에 저장되어 있지 않은 데이터
정형: 고객 데이터, 거래 데이터, RDBS, 스프레드시트 etc.
   -> 고정된 필드에 저장된 데이터
반정형: 고정된 필드에 저장되어있지는 않지만, 메타데이터나 스키마 등을 포함하는 데이터   ex. XML, HTML text

===> 빅데이터에서는 비정형 데이터의 비중이 매우 큼


처리과정
데이터 소스 생성-수집-저장-처리-분석-표현
ETL, 스토리지, NoSQL(도구 카산드라?이런거 얘기하심), 맵리듀스(신기술 스파크가 대체하고 있다고 하네) -> 스파크: 하둡에 저장된 데이터를 분석한다고 함. scala, ptyhon, java 사용

NOSQL 스키마 없이 데이터 저장함 


-
2장 수집
flume: 로그데이터를 효율적으로 수집하고 집계하는 로그수집기
HDFS에 분산 저장 (하둡)

하둡에 분산저장된 로그데이터를(HDFS) 맵리듀스(지금은 스파크 주로 씀)로 분석함 (사람이.. 스파크를 이용해서 분석)
수집 기술
flume(젤 많이 쓰나봄), chukwa, scribe ---> 얘네 주로 쓴댜
sqoop: 기존 rdbms에서 하둡으로 데이터 이전하려는 목적으로 사용 --> RDMS와 NoSQL 사이 데이터 연동에 많이 사용

-3장 저장
하둡 HDFS (많이 강조하심)

하둡은 아파치 진영에서 분산 환경 컴퓨팅을 목표로 시작한 프로젝트임
파일 시스템은 분산 처리 환경에서 필수 조건으로 하둡은 HDFS를 제공함
하둡은 마스터Master 하나와 슬레이브Slave 여러 개로 클러스터를 구성함
HDFS에서는 마스터 노드를  NameNode라고 하며, 슬레이브 노드를 DataNode 라고 함
HDFS는 대용량 파일을 클러스터에 여러 블록으로 분산하여 저장함, 이때 블록들은 마지막 블록을 제외 하고 모두 크기가 동일, 기본 크기는 64MB.
HDFS는 데이터 복제 기법을 지원함



데이터를 모으는게 젤 어려움

아무튼 맵리듀스를 스파크가 대체한다고 계속 강조하심 -> 테스트에 나오나?


'수업 > 정리' 카테고리의 다른 글

220413 파이썬 설치, 기본문법1  (0) 2022.04.13
220412 파이썬 개요  (0) 2022.04.12
220405 깃허브  (0) 2022.04.05
220404 프로젝트 사전작업_aws 환경  (0) 2022.04.04
220401 Model2_답글2, 수정, 삭제  (0) 2022.04.01

+ Recent posts