📄

파이프라인에서 수집된 데이터 ETL

python spark
[주요 업무]
데이터 파이프라인에서 수집된 원본 데이터 중 특정 데이터가 구조상 중복되어 AWS Glue를 이용한 ETL Job으로 이를 처리
원본 데이터 저장소에서 Apache Spark을 이용해 데이터를 로드하고 중복을 제거한 후 이를 다른 데이터 저장소에 적재
Spark SQL과 DataFrames 사용
이전 페이지로