[SAA] 빅 데이터 수집 파이프라인

애플리케이션 수집 파이프라인이 완전히 서버리스이면서 AWS가 100% 관리해주길 원함
또한 실시간으로 데이터를 수집하기 원하며 데이터를 변형하고 변형된 데이터를 SQL을 통해 요청하며
이러한 쿼리를 사용해 생성된 보고서가 S3에 저장되도록 함
이후 데이터를 데이터 웨어하우스에 등재해 대시보드를 생성하고자 함
대체로 수집이나 회수, 변형, 혹은 쿼리 및 분석 과정에서 흔히 발생하는 빅 데이터 문제를 어떻게 처리할까

IoT Core는 장치에서 실시간으로 전송받은 데이터를 Kinesis Data Steam으로 직접 전달
즉, 데이터 생산자가 IoT 장치일 때, 이를 위해 IoT 장치의 관리를 돕는 IoT Core 기능
Kinesis의 데이터 스트림은 빅 데이터가 실시간으로 Kinesis 서비스에 전송되도록 허용
Kinesis Data Firehose는 Kinesis와 통신해서 1분마다 S3 버킷에 데이터를 입력하고 오프로드하며 이를 수집 버킷이라고 함
이를 이용해 아래처럼 여러 장치에서 많은 데이터를 실시간으로 얻을 수 있는 파이프라인 마련
람다 함수를 이용해 S3 버킷에 데이터를 매분 입력해줄 뿐만 아니라 빠른 속도로 데이터를 정리하거나 변형하도록 함
람다 함수는 Kinesis Data Firehose와 직접 연결된 상태
데이터 수집 버킷은 SQS 대기열을 작동할 수 있으며 SQS 대기열은 람다 함수를 실행하고
람다는 SQL 쿼리를 실행해 Ahtena 쿼리는 수집 버킷에서 데이터를 가져와 SQL 쿼리를 생성하고 출력값은 보고 버킷으로 이동
이 때 보고 버킷은 수집 버킷이 아닌 S3에 있는 다른 버킷
이 과정을 통해 데이터를 보고하고 정리, 분석 가능
이 후 QuickSight를 통해 직접 시각화하거나
RedShift 같은 데이터 웨어하우스에 데이터를 입력해 분석할 수 있음
RedShift 데이터 웨어하우스는 QuickSight의 엔드 포인트로 작용

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

티스토리툴바