データレイク、データウェアハウス、データマートとは?
データレイクとは
データレイク(data lake)とは、ローデータ(raw data)を主に保存する役割を担います。
ローデータは、何も手を加えていない状態のデータを意味し、生データとも呼ばれます。
そのため、データレイクには、CSVデータやJSONやExcelなどのデータから、PDFファイルや動画データなどのデータを保存します。
データレイクは、データがたまる湖という意味でデータレイクと呼ばれます。
ローデータを保存するためのサービスとして、
「Google Cloud Storage」や「Amazon S3」などが挙げられます。
データウェアハウスとは
データウェアハウス(data warehouse)とは、構造化されたデータを保存する役割を担います。データの倉庫という意味があります。
データウェアハウスには、データをすぐに取り出して扱えるようにするために、一箇所に蓄積されています。
RDBなどのデータは構造化されているため、データウェアハウスに分類されます。
「BigQuery」などを利用します。
データマートとは
データマート(data mart)とは、データが加工されている状態を指します。
データを商品と見立て、そのデータが加工され、市場(マート)に売り出されているイメージです。
データマートは、データの小売店を意味します。
データマートでは、分析に必要なデータを素早くアクセスできるように抽出されたデータが保存されます。
データ分析基盤を効率よく学ぶには?
データ分析基盤に関して効率よく学びたい方は、普段から分析業務をしている現役のデータサイエンティストやデータエンジニアに質問できる環境で学ぶことです。
質問し放題かつ、体系的に学べる動画コンテンツでデータ分析技術を学びたい方は、オンラインで好きな時間に勉強できるAI Academy Bootcampがオススメです。受講料も業界最安値の35,000円(6ヶ月間質問し放題+オリジナルの動画コンテンツ、テキストコンテンツの利用可能)なので、是非ご活用ください。