728x90
반응형
AWS Glue: 서버리스 ETL 서비스로 데이터 분석 준비하기
AWS Glue는 **추출(Extract), 변환(Transform), 로드(Load)**를 위한 완전 관리형 ETL 서비스입니다. 데이터를 분석 목적으로 준비하고 변환하는 데 최적화되어 있으며, 서버리스 서비스로 코드를 작성하고 작업을 실행하면 Glue가 모든 처리를 자동으로 수행합니다.
1. AWS Glue의 주요 역할
AWS Glue는 다음과 같은 데이터를 처리하는 데 유용합니다:
- Amazon S3, RDS 등 다양한 소스에서 데이터를 추출.
- 데이터를 변환(필터링, 컬럼 추가 등)하여 필요에 맞게 가공.
- Amazon Redshift 등 대상 데이터 웨어하우스로 데이터를 로드.
2. 사용 사례
사용 사례 1: S3와 RDS 데이터를 Redshift로 로드
- 데이터 추출: S3 또는 RDS 데이터베이스에서 데이터를 가져옵니다.
- 데이터 변환: 데이터를 필터링하거나 새로운 컬럼을 추가하여 가공합니다.
- 데이터 로드: 최종 데이터를 Amazon Redshift로 저장.
사용 사례 2: Parquet 형식으로 데이터 변환
- S3에 저장된 CSV 데이터를 Glue로 가져옵니다.
- 이를 Parquet 형식(열 기반 데이터 형식)으로 변환합니다.
- 변환된 데이터를 S3에 저장한 뒤 Amazon Athena로 분석합니다.
Athena는 Parquet 형식 데이터를 더 빠르고 효율적으로 처리합니다.
자동화를 위해 S3 이벤트 알림과 Lambda 함수 또는 EventBridge를 활용해 Glue 작업을 트리거할 수 있습니다.
3. Glue Data Catalog로 데이터 카탈로그화
Glue Data Catalog는 데이터 세트를 카탈로그화하여 메타데이터를 관리하는 데 사용됩니다.
- Glue Data Crawler가 Amazon S3, RDS, DynamoDB 등 데이터 소스를 스캔합니다.
- 데이터베이스, 테이블, 컬럼의 메타데이터를 자동으로 수집하여 Glue Data Catalog에 저장합니다.
- Amazon Athena, Redshift Spectrum, Amazon EMR에서 이 카탈로그를 활용해 데이터 처리를 수행할 수 있습니다.
4. AWS Glue의 확장 기능
AWS Glue는 다양한 기능을 통해 ETL 작업을 지원합니다:
- Glue Job Bookmarks: 새로운 ETL 작업 실행 시 이전에 처리된 데이터를 중복 처리하지 않도록 방지.
- Glue Elastic Views: SQL로 여러 데이터 스토어(RDS, Aurora, S3 등)의 데이터를 통합하고 복제.
- Glue DataBrew: 사전 빌드된 변환 작업으로 데이터를 정리하고 정규화.
- Glue Studio: GUI를 통해 ETL 작업을 생성, 실행 및 모니터링.
- Glue Streaming ETL: 실시간 데이터 스트리밍 작업을 처리(예: Kinesis, Kafka).
5. AWS Glue를 선택해야 하는 이유
- 서버리스: 인프라를 관리할 필요 없이 ETL 작업을 손쉽게 실행 가능.
- 확장성: 다양한 데이터 소스 및 형식 지원.
- 자동화: 이벤트 기반 작업 트리거 및 데이터 카탈로그화를 통한 자동화.
- 통합성: Amazon Athena, Redshift, EMR 등과의 긴밀한 통합.
AWS Glue는 데이터를 준비하고 분석하기 위한 강력한 도구로, 데이터 엔지니어링 작업을 간소화하고 자동화합니다.
728x90
반응형
'자격증 > AWS Certified Security - Specialty' 카테고리의 다른 글
[AWS SCS] Workspaces 보안 (0) | 2024.12.26 |
---|---|
[AWS SCS] AWS Glue 보안 (0) | 2024.12.26 |
[AWS SCS] AWS Verified Access (0) | 2024.12.26 |
[AWS SCS] AWS Signer (0) | 2024.12.26 |
[AWS SCS] Lambda in VPC (0) | 2024.12.26 |