본문 바로가기

자격증/AWS Certified Security - Specialty

[AWS SCS] AWS Glue

728x90
반응형

AWS Glue: 서버리스 ETL 서비스로 데이터 분석 준비하기

AWS Glue는 **추출(Extract), 변환(Transform), 로드(Load)**를 위한 완전 관리형 ETL 서비스입니다. 데이터를 분석 목적으로 준비하고 변환하는 데 최적화되어 있으며, 서버리스 서비스로 코드를 작성하고 작업을 실행하면 Glue가 모든 처리를 자동으로 수행합니다.


1. AWS Glue의 주요 역할

AWS Glue는 다음과 같은 데이터를 처리하는 데 유용합니다:

  • Amazon S3, RDS 등 다양한 소스에서 데이터를 추출.
  • 데이터를 변환(필터링, 컬럼 추가 등)하여 필요에 맞게 가공.
  • Amazon Redshift 등 대상 데이터 웨어하우스로 데이터를 로드.

2. 사용 사례

사용 사례 1: S3와 RDS 데이터를 Redshift로 로드

  1. 데이터 추출: S3 또는 RDS 데이터베이스에서 데이터를 가져옵니다.
  2. 데이터 변환: 데이터를 필터링하거나 새로운 컬럼을 추가하여 가공합니다.
  3. 데이터 로드: 최종 데이터를 Amazon Redshift로 저장.

사용 사례 2: Parquet 형식으로 데이터 변환

  1. S3에 저장된 CSV 데이터를 Glue로 가져옵니다.
  2. 이를 Parquet 형식(열 기반 데이터 형식)으로 변환합니다.
  3. 변환된 데이터를 S3에 저장한 뒤 Amazon Athena로 분석합니다.
    Athena는 Parquet 형식 데이터를 더 빠르고 효율적으로 처리합니다.

자동화를 위해 S3 이벤트 알림과 Lambda 함수 또는 EventBridge를 활용해 Glue 작업을 트리거할 수 있습니다.


3. Glue Data Catalog로 데이터 카탈로그화

Glue Data Catalog는 데이터 세트를 카탈로그화하여 메타데이터를 관리하는 데 사용됩니다.

  • Glue Data Crawler가 Amazon S3, RDS, DynamoDB 등 데이터 소스를 스캔합니다.
  • 데이터베이스, 테이블, 컬럼의 메타데이터를 자동으로 수집하여 Glue Data Catalog에 저장합니다.
  • Amazon Athena, Redshift Spectrum, Amazon EMR에서 이 카탈로그를 활용해 데이터 처리를 수행할 수 있습니다.

4. AWS Glue의 확장 기능

AWS Glue는 다양한 기능을 통해 ETL 작업을 지원합니다:

  • Glue Job Bookmarks: 새로운 ETL 작업 실행 시 이전에 처리된 데이터를 중복 처리하지 않도록 방지.
  • Glue Elastic Views: SQL로 여러 데이터 스토어(RDS, Aurora, S3 등)의 데이터를 통합하고 복제.
  • Glue DataBrew: 사전 빌드된 변환 작업으로 데이터를 정리하고 정규화.
  • Glue Studio: GUI를 통해 ETL 작업을 생성, 실행 및 모니터링.
  • Glue Streaming ETL: 실시간 데이터 스트리밍 작업을 처리(예: Kinesis, Kafka).

5. AWS Glue를 선택해야 하는 이유

  1. 서버리스: 인프라를 관리할 필요 없이 ETL 작업을 손쉽게 실행 가능.
  2. 확장성: 다양한 데이터 소스 및 형식 지원.
  3. 자동화: 이벤트 기반 작업 트리거 및 데이터 카탈로그화를 통한 자동화.
  4. 통합성: Amazon Athena, Redshift, EMR 등과의 긴밀한 통합.

AWS Glue는 데이터를 준비하고 분석하기 위한 강력한 도구로, 데이터 엔지니어링 작업을 간소화하고 자동화합니다.

728x90
반응형

'자격증 > AWS Certified Security - Specialty' 카테고리의 다른 글

[AWS SCS] Workspaces 보안  (0) 2024.12.26
[AWS SCS] AWS Glue 보안  (0) 2024.12.26
[AWS SCS] AWS Verified Access  (0) 2024.12.26
[AWS SCS] AWS Signer  (0) 2024.12.26
[AWS SCS] Lambda in VPC  (0) 2024.12.26