データパイプラインとは?
読み方: データパイプライン
30秒まとめ
データの収集・変換・格納・配信を自動化する一連の処理フロー。AI・ML運用の基盤。
データパイプラインの意味・定義
データパイプラインは、データの収集元(ソース)から最終的な保存先・利用先(デスティネーション)まで、データを自動的に処理・変換・移動させる一連のワークフローです。ETL(Extract, Transform, Load)やELTのプロセスを自動化し、生データから分析やAIモデルの学習に使えるクリーンなデータセットを作成します。AIシステムにおいては、学習データの前処理、特徴量の計算、リアルタイムデータの取り込み、モデルの推論結果の配信などに活用されます。Apache Airflow、dbt、Fivetran、n8n、Makeなどのツールが利用されており、データの品質と鮮度を保つために重要な基盤技術です。