【データ基盤】データレイク、データウェアハウス、データマートとは?

データレイク、データウェアハウス、データマートとは?

データレイク、データウェアハウス、データマート

データレイクとは

データレイク(data lake)とは、ローデータ(raw data)を主に保存する役割を担います。
ローデータは、何も手を加えていない状態のデータを意味し、生データとも呼ばれます。

そのため、データレイクには、CSVデータやJSONやExcelなどのデータから、PDFファイルや動画データなどのデータを保存します。

データレイクは、データがたまる湖という意味でデータレイクと呼ばれます。

ローデータを保存するためのサービスとして、
「Google Cloud Storage」や「Amazon S3」などが挙げられます。

データウェアハウスとは

データウェアハウス(data warehouse)とは、構造化されたデータを保存する役割を担います。データの倉庫という意味があります。
データウェアハウスには、データをすぐに取り出して扱えるようにするために、一箇所に蓄積されています。
RDBなどのデータは構造化されているため、データウェアハウスに分類されます。
「BigQuery」などを利用します。

データマートとは

データマート(data mart)とは、データが加工されている状態を指します。
データを商品と見立て、そのデータが加工され、市場(マート)に売り出されているイメージです。
データマートは、データの小売店を意味します。
データマートでは、分析に必要なデータを素早くアクセスできるように抽出されたデータが保存されます。

データ分析基盤を効率よく学ぶには?

データ分析基盤に関して効率よく学びたい方は、普段から分析業務をしている現役のデータサイエンティストやデータエンジニアに質問できる環境で学ぶことです。
質問し放題かつ、体系的に学べる動画コンテンツでデータ分析技術を学びたい方は、オンラインで好きな時間に勉強できるAI Academy Bootcampがオススメです。受講料も業界最安値の35,000円(6ヶ月間質問し放題+オリジナルの動画コンテンツ、テキストコンテンツの利用可能)なので、是非ご活用ください。