📄

SSD 테스트 과정에서 생산된 데이터 파이프라인 구축

aws fluentd parquet pandas apache arrow

[주요 업무]

•

SSD 테스트 과정에서 생산되는 로그 데이터와 센서 데이터를 수집하기 위해 fluentd 구성

•

fluentd로 수집한 데이터를 AWS Kinesis로 데이터 스트림 처리

•

pandas를 이용해 중첩된 json을 flatten 하게 하거나 결측치를 데이터 프레임에서 제거하는 등의 데이터 전처리

•

전처리된 데이터 프레임을 Apache Arrow 테이블로 변환해 AWS S3에 Parquet 포맷으로 적재

•

적재된 데이터는 AWS Athena (Presto)을 이용해 SQL로 질의할 수 있도록 구성하여 SSD product engineer들에게 제공

•

질의 시 Presto가 읽어들이는 Parquet 파일 오브젝트를 줄이기 위해 Hive Conventions으로 데이터를 파티셔닝

[파이프라인 구조]