박상열 Jimmy
/
SSD 테스트 과정에서 생산된 데이터 파이프라인 구축
Share
📄
SSD 테스트 과정에서 생산된 데이터 파이프라인 구축
aws
fluentd
parquet
pandas
apache arrow
[주요 업무]
•
SSD 테스트 과정에서 생산되는 로그 데이터와 센서 데이터를 수집하기 위해
fluentd
구성
•
fluentd로 수집한 데이터를
AWS Kinesis
로 데이터 스트림 처리
•
pandas를 이용해 중첩된 json을 flatten 하게 하거나 결측치를 데이터 프레임에서 제거하는 등의 데이터 전처리
•
전처리된 데이터 프레임을 Apache Arrow 테이블로 변환해
AWS S3
에 Parquet 포맷으로 적재
•
적재된 데이터는
AWS Athena
(Presto)을 이용해 SQL로 질의할 수 있도록 구성하여 SSD product engineer들에게 제공
•
질의 시 Presto가 읽어들이는 Parquet 파일 오브젝트를 줄이기 위해
Hive Conventions
으로 데이터를 파티셔닝
[파이프라인 구조]
이전 페이지로