[SAA] EMR

Elastic MapReduce로 MapReduce는 빅데이터 용어이므로 EMR은 빅데이터에 사용되는 Hadoop 클러스터를 생성
그러므로 EMR은 Hadoop 프레임워크를 제공하며 클러스터를 생성하고 데이터를 업로드할 수 있음
+) S3에서도 업로드됨
빅데이터는 많은 양의 데이터인 페타바이트, 테라바이트 정도를 분석 및 처리하는데 사용
EMR에서 생성하는 클러스터는 수백 개의 EC2 인스턴스로 구성될 수 있음
EMR은 인스턴스들이 동시에 작동할 수 있게 조정하고 구성할 수 있음
EMR을 통해 Hadoop 클러스터 구성을 한 후,
우리는 단지 Spart, HBase, Presto, Flink 등의 엔진을 사용해 데이터를 분석하고 처리만 함
EMR은 모든 것을 프로비저닝하고 모든 것을 구성
EMR과 작동하는 오토 스케일링이 존재하며 스팟 인스턴스로 통합되어 있으므로
빅데이터 분석 비용을 절감하고 싶다면 스팟 인스턴스를 사용
클러스터 상태를 모니터링할 수 있으며 처리 진행 상황 또한 볼 수 있으며 S3에서 처리 결과를 볼 수 있음
데이터 처리, 머신 러닝, 웹 인덱싱, 빅데이터 등에 사용

EMR 클러스터 생성
EMR은 Hadoop 프레임워크를 제공하며 클러스터를 생성하고 데이터를 업로드할 수 있으며 S3에서도 업로드할 수 있음
이후 입력한 모든 정보를 생성하고 클러스터 상태를 모니터링할 수 있으며 처리 진행 상황을 볼 수 있음
또한 S3에서도 처리 결과를 볼 수 있음

클러스터를 생성하려면 클러스터의 이름과 로깅을 원하는 위치를 지정해야 함

실행 모드를 고를 수 있는데 장기적으로 실행되는 클러스터 모드와 단계 실행 모드가 존재하며
단계 실행 모드는 분석만 실행한 후 클러스터가 종료할 때 사용되는 모드

이후 EMBR의 릴리스를 선택해야 함
릴리스에는 여러 가지가 있도 모두 포함하고 있는 기술이 다름

그리고 EMR 클러스터의 인스턴스 유형과 개수를 지정할 수 있어 100개까지 지정할 수 있음

또한 키 페어와 일부 권한 등을 제공하는 SSH 액세스를 설정하여 클러스터를 생성할 수 있음

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

티스토리툴바