[AWS SCS] AWS Glue

728x90

AWS Glue: 서버리스 ETL 서비스로 데이터 분석 준비하기

AWS Glue는 **추출(Extract), 변환(Transform), 로드(Load)**를 위한 완전 관리형 ETL 서비스입니다. 데이터를 분석 목적으로 준비하고 변환하는 데 최적화되어 있으며, 서버리스 서비스로 코드를 작성하고 작업을 실행하면 Glue가 모든 처리를 자동으로 수행합니다.

1. AWS Glue의 주요 역할

AWS Glue는 다음과 같은 데이터를 처리하는 데 유용합니다:

Amazon S3, RDS 등 다양한 소스에서 데이터를 추출.
데이터를 변환(필터링, 컬럼 추가 등)하여 필요에 맞게 가공.
Amazon Redshift 등 대상 데이터 웨어하우스로 데이터를 로드.

2. 사용 사례

사용 사례 1: S3와 RDS 데이터를 Redshift로 로드

데이터 추출: S3 또는 RDS 데이터베이스에서 데이터를 가져옵니다.
데이터 변환: 데이터를 필터링하거나 새로운 컬럼을 추가하여 가공합니다.
데이터 로드: 최종 데이터를 Amazon Redshift로 저장.

사용 사례 2: Parquet 형식으로 데이터 변환

S3에 저장된 CSV 데이터를 Glue로 가져옵니다.
이를 Parquet 형식(열 기반 데이터 형식)으로 변환합니다.
변환된 데이터를 S3에 저장한 뒤 Amazon Athena로 분석합니다.
Athena는 Parquet 형식 데이터를 더 빠르고 효율적으로 처리합니다.

자동화를 위해 S3 이벤트 알림과 Lambda 함수 또는 EventBridge를 활용해 Glue 작업을 트리거할 수 있습니다.

3. Glue Data Catalog로 데이터 카탈로그화

Glue Data Catalog는 데이터 세트를 카탈로그화하여 메타데이터를 관리하는 데 사용됩니다.

Glue Data Crawler가 Amazon S3, RDS, DynamoDB 등 데이터 소스를 스캔합니다.
데이터베이스, 테이블, 컬럼의 메타데이터를 자동으로 수집하여 Glue Data Catalog에 저장합니다.
Amazon Athena, Redshift Spectrum, Amazon EMR에서 이 카탈로그를 활용해 데이터 처리를 수행할 수 있습니다.

4. AWS Glue의 확장 기능

AWS Glue는 다양한 기능을 통해 ETL 작업을 지원합니다:

Glue Job Bookmarks: 새로운 ETL 작업 실행 시 이전에 처리된 데이터를 중복 처리하지 않도록 방지.
Glue Elastic Views: SQL로 여러 데이터 스토어(RDS, Aurora, S3 등)의 데이터를 통합하고 복제.
Glue DataBrew: 사전 빌드된 변환 작업으로 데이터를 정리하고 정규화.
Glue Studio: GUI를 통해 ETL 작업을 생성, 실행 및 모니터링.
Glue Streaming ETL: 실시간 데이터 스트리밍 작업을 처리(예: Kinesis, Kafka).

5. AWS Glue를 선택해야 하는 이유

서버리스: 인프라를 관리할 필요 없이 ETL 작업을 손쉽게 실행 가능.
확장성: 다양한 데이터 소스 및 형식 지원.
자동화: 이벤트 기반 작업 트리거 및 데이터 카탈로그화를 통한 자동화.
통합성: Amazon Athena, Redshift, EMR 등과의 긴밀한 통합.

AWS Glue는 데이터를 준비하고 분석하기 위한 강력한 도구로, 데이터 엔지니어링 작업을 간소화하고 자동화합니다.

728x90

저작자표시

'자격증 > AWS Certified Security - Specialty' 카테고리의 다른 글

[AWS SCS] Workspaces 보안 (0)	2024.12.26
[AWS SCS] AWS Glue 보안 (0)	2024.12.26
[AWS SCS] AWS Verified Access (0)	2024.12.26
[AWS SCS] AWS Signer (0)	2024.12.26
[AWS SCS] Lambda in VPC (0)	2024.12.26

S0NG의 정보보안 블로그

[AWS SCS] AWS Glue

AWS Glue: 서버리스 ETL 서비스로 데이터 분석 준비하기

1. AWS Glue의 주요 역할

2. 사용 사례

3. Glue Data Catalog로 데이터 카탈로그화

4. AWS Glue의 확장 기능

5. AWS Glue를 선택해야 하는 이유

'자격증 > AWS Certified Security - Specialty' 카테고리의 다른 글

티스토리툴바

[AWS SCS] AWS Glue

AWS Glue: 서버리스 ETL 서비스로 데이터 분석 준비하기

1. AWS Glue의 주요 역할

2. 사용 사례

3. Glue Data Catalog로 데이터 카탈로그화

4. AWS Glue의 확장 기능

5. AWS Glue를 선택해야 하는 이유

'자격증 > AWS Certified Security - Specialty' 카테고리의 다른 글

'자격증/AWS Certified Security - Specialty' Related Articles

티스토리툴바