🛷 2020년 3월 31일 진행된 "Cloud onBoard Online"을 정리하였습니다.

빅데이터와 머신러닝

기본 개념

🤫

데이터 분석하는데에 중요한 것(disk, memory, cpu)은?
memory!
→ 메모리 사이즈가 크면? 더 많은 데이터를 올릴 수 있기 때문

데이터 사이즈가 클 때,

sharding - map - reduce
1. sharding ; 데이터를 잘게 쪼갬
1. map ; 여러대의 각각의 컴퓨터(worker)에 할당 후
1. reduce ; 합침
- 데이터를 분석해주는 친구 → 워커 노드
- 각각을 관리해주는 친구 → master
- map-reduce 알고리즘
  → 이 아이디어를 기반으로 해서 만든 것 : 하둡, 스파크, 피그, 하이브 등
  
  → 하드웨어 관점에서 봤을 때 : master-worker 아키텍처라고 이야기함

🤫

데이터의 크기로 빅데이터를 정의하기가 까다롭지만,
- 컴퓨터 한대로 처리가 가능하다? in memory 분석 → 빅데이터라 부르기 어려움
- 여러대의 컴퓨터가 필요하다? bigdata

온 프레미스에서 빅데이터 플랫폼 구축 소요 시간 = 2~3달
→ 느무 오래걸림 + 관리 귀찮음

→ Dataproc 사용 시 90초 만에 해결!

🤫

Pub/Sub이란?
실시간으로 데이터가 왔을 때 받고 뿌려주는 친구

🤫

Batch 파일이란?
처음과 끝이 정해져 있는 데이터 (ex. CSV)

아파치 bing API 사용
- 실시간 데이터와 batch 데이터를 동시에 처리하는 것을 굉장히 잘함!
- 오픈소스
- 자동화된 확장 → 오토스케일링과 비슷하게 작동

(혹은 Cloud Storage사용)

장점
1. 속도 : 페타바이트(PB) 수준의 데이터가 날아와도 처리해줄 수 있음
1. SQL 구문 사용
1. 서버리스 : 하드를 관리할 필요가 없음

빅쿼리는 왜 빠른가?

원래라면 행별로 저장/읽어오지만, 빅쿼리는 컬럼 별로 읽어옴 → 읽는 속도 엄청 빠름..! 대신 쓸 때는 느림...!

→ Transactional DB로는 부적합. Analysis DB로는 적합!

[Cloud onBoard Online] 스토리지, 컨테이너 (0)	2020.05.13
[Cloud onBoard Online] 가상 머신 (0)	2020.05.13
[Cloud onBoard Online] GCP 소개 (0)	2020.05.12

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`