박상열 Jimmy
/
파이프라인에서 수집된 데이터 ETL
Share
📄
파이프라인에서 수집된 데이터 ETL
python
spark
[주요 업무]
•
데이터 파이프라인에서 수집된 원본 데이터 중 특정 데이터가 구조상 중복되어
AWS Glue
를 이용한 ETL Job으로 이를 처리
•
원본 데이터 저장소에서 Apache Spark을 이용해 데이터를 로드하고 중복을 제거한 후 이를 다른 데이터 저장소에 적재
•
Spark SQL과 DataFrames 사용
이전 페이지로