AWS Glue
- 추출, 변형, 로드를 하는 ETL 서비스로 분석을 위해 데이터를 준비하고 변환하는데 매우 유용
- 완전 서버리스 서비스이며 완전 관리형
- 예) 데이터가 있고 S3 또는 RDS에서 데이터를 추출한 후 Glue에 들어가면 데이터가 변환됨
변환 후에 Glue를 사용해서 Redshift 데이터 웨어하우스에 데이터를 불러옴
즉, 데이터에 대해 직접적으로 더 분석적인 쿼리를 할 수 있음
Glue Data Catalog
- Glue 데이터 카탈로그는 AWS 전체 데이터셋의 카탈로그인 메타데이터이며
메타데이터란 데이터에 관한 정보를 뜻함 - Glue 데이터 카탈로그가 있고 Glue 데이터 크롤러가 있으며 크롤러는 다양한 유형의 소스를 연결할 수 있음
예) S3, RDS, DynamoDB, JDBC와 호환되는 다른 데이터베이스와 연결
크롤러는 데이터베이스를 탐색하고 데이터를 크롤링하며, 크롤러 실행 후에는 Glue 데이터 카탈로그에 메타데이터를 씀
그리하여 Glue 데이터는 데이터베이스의 메타데이터로 채워지게 되고 테이블과 데이터 유형, 열 이름 등을 가짐
Glue 데이터 카탈로그는 Glue 작업을 통해 ETL을 수행하여 모든 것이 올바르게 되었는지 확인
또한 Glue 데이터 카탈로그는 Athena에 의해 데이터 검색에 활용되고 Redshift Spectrum과 EMR을 통해 데이터 분석에 이용
'Cloud > AWS' 카테고리의 다른 글
[SAA] ElastiSearch / 오픈서치 (0) | 2022.04.16 |
---|---|
[SAA] Neptune (0) | 2022.04.15 |
[SAA] Redshift (0) | 2022.04.15 |
[SAA] Athena (0) | 2022.04.15 |
[SAA] S3 (0) | 2022.04.15 |