📄

SSD 테스트 과정에서 생산된 데이터 파이프라인 구축

aws fluentd parquet pandas apache arrow
[주요 업무]
SSD 테스트 과정에서 생산되는 로그 데이터와 센서 데이터를 수집하기 위해 fluentd 구성
fluentd로 수집한 데이터를 AWS Kinesis로 데이터 스트림 처리
pandas를 이용해 중첩된 json을 flatten 하게 하거나 결측치를 데이터 프레임에서 제거하는 등의 데이터 전처리
전처리된 데이터 프레임을 Apache Arrow 테이블로 변환해 AWS S3에 Parquet 포맷으로 적재
적재된 데이터는 AWS Athena (Presto)을 이용해 SQL로 질의할 수 있도록 구성하여 SSD product engineer들에게 제공
질의 시 Presto가 읽어들이는 Parquet 파일 오브젝트를 줄이기 위해 Hive Conventions으로 데이터를 파티셔닝
[파이프라인 구조]
이전 페이지로