< Programming Data Processing Pipelines with Data Fusion >
Cloud Data Fusion is s fully managed, cloud-native enterprise data integration service
for quickly building and managing data pipelines
Cloud Data Fusion은 데이터 파이프라인을 신속하게 구축 및 관리하기 위한
완전 관리형 클라우드 네이티브 엔터프라이즈 데이터 통합 서비스
- 클라우드 데이터 융합은 데이터 파이프라인을 신속하게 구출 및 관리하기 위한
완전 관리형 클라우드 네이티브 엔터프라이즈 데이터 통합 서비스 - 매치, 중복 제거, 혼합, 변환을 정리하는데 사용 가능하며 파티션 데이터 작업 실행을 자동화하고 진행 사항을 모니터링
- 시각적 인터페이스를 사용할 수 있어 파이프라인을 배포할 때 데이터의 작은 하위 집합으로
파이프라인을 빠르게 테스트 및 디버그할 수 있음 - 데이터 융합은 Google 클라우드 인프라를 자동으로 프로비저닝하여 실제로 작업을 실행
- 대규모 데이터 처리 작업을 실행할 수 있도록 하는 Google 클라우드 데이터 융합과 Google 클라우드의 통합은
데이터 보안을 단순환하고 데이터 프로세스의 클라우드 스토리지로 데이터 레이크를 관리하는지 여부에 관계없이
데이터를 즉시 분석에 사용할 수 있도록 보장 - 데이터 웨어하우징 또는 데이터 변환을 통해 데이터를 클라우드 스패너와 같은 관계형 저장소로 내보내기도 하여
클라우드 데이터 융합의 통합으로 빠르고 쉽게 개발 및 반복이 가능
Build data pipelines with a friendly UI
친숙한 UI로 데이터 파이프라인 구축
- 풍부한 그래픽 인터페이스를 통해 파이프라인을 드래그앤드롭 방식으로 시각화할 수 있음
- 100개 이상의 내장 플러그인 커넥터가 작업을 변환하고
많은 레거시 데이터 소스에 대한 지원 UI를 통해 코딩 없이 파이프라인을 작성 가능 - 파이프라인을 테스트 및 디버그할 수 있으며 미리 빌드된 이미지를 사용하여 코드를 작성
- 중요한 사용자 정의가 필요한 경우에는 개발자 SDK를 이용
Cloud Data Fusion instances are managed environments for building pipelines
Cloud Data Fusion 인스턴스는 파이프라인 구축을 위한 관리형 환경
- 클라우드 데이터 퓨전 인스턴스는 Google 클라우드에서 실행되는 파이프라인을 구축하기 위한 완전히 관리되는 환경
- 데이터 흐름 환경을 생성할 때 선택할 수 있는 두 가지 추가 사항이 있음
- 기본 에디션은 개발에 권장되고 비용은 시간단 80센트
- 엔터프라이즈 에디션은 프로덕션과 스트리밍 파이프라인애 권장되고 비용은 시간당 4달러 20센트
- 추가 파이프라인은 Dataproc 클러스터에서 실행
Cloud Data Fusion is based on the open source CDAP data analytics platform
Cloud Data Fusion은 오픈 소스 CDAP 데이터 분석 플랫폼을 기반
- 데이터 융합이 CDAP라는 오픈 소스 프로젝트를 기반으로 비용 청구
- 클라우드 데이터 융합 학습에 대한 투자는 Googel 클라우드에서 뿐만이 아니라 온프레미스 및 하이브리드 환경에서도 유용
- 파이프라인은 ETL 작업을 빌드하기 위한 인터페이스를 제공
- 먼저 소스를 연결한 다음 소스 데이터를 변환하고 마지막으로 싱크에 작성
- Wrangler는 특정 작업을 위한 시각화 인터페이스를 제공하며 데이터 변환은 내장된 드래그앤드롭 개체를 사용
Cloud Data Fusion Hub provides access to drivers, plugins, and pr-configured pipelines
Cloud Data Fusion Hub는 드라이버, 플러그인, 사전 구성된 파이프라인에 대한 액세스를 제공
- 이는 Google 클라우드 프로젝트에서 시작할 때 클라우드 데이터 퓨전 인스턴스에서 사용 가능
Pipelines represent a series of stages arranged in a directed acyclic graph (DAG)
파이프라인은 방향성 비순환 그래프(DAG)에 배열된 일련의 단계를 나타냄
- 파이프라인은 방향성 비순환 그래프 또는 DAG 단계로 배열된 일련의 단계를 나타냄
- 파이프라인 그래프의 노드는 다양한 유형일 수 있으며 비선형 파이프라인이 지원됨
- 노드는 노드의 출력이 두 개 이상의 단계로 전송될 수 있는 분기할 수 있고
두 개 이상의 분기 노드가 변환 또는 동기화 노드에서 병합될 수 있음
You can schedule batch pipelines
일괄 파이프라인을 예약할 수 있음
- 적절한 간격으로 반복되는 배치 작업을 설정할 수 있는 스케줄러가 존재
Data analysts can explore datasets in Wrangler
데이터 분석가는 Wrangler에서 데이터 세트를 탐색할 수 있음
- 데이터 분석가는 Wrangler에서 데이터 세트를 탐색하고 변환 결과를 미리 볼 수 있음
- 코드가 없는 시각적 환경이므로 프로그래밍에 익숙하지 않은 데이터 분석가에게 특히 유용