【初心者向け】BigQueryとは?わかりやすく解説!

BigQueryとは

BigQuery(ビッグクエリ)は、Googleのクラウド側データベースで、Google Cloud Platform(GCP)にて提供されています。 数テラバイトや数ペタバイトというビッグデータ出会っても、超高速で解析することができるのが特徴です。

※1テラバイト(TB):1,000 ギガバイト(GB)
※1ペタバイト:1,024TB

BigQueryでできること

BigQueryではデータ分析やPythonとAPIの連携などが出来ます。

データ分析では、様々なログ情報のデータ解析などの膨大なデータを解析するのに向いています。 また、実行処理速度が高速なため、リアルタイムでデータ解析も可能です。

またデータの蓄積場所としても利用可能です。様々なログデータなどの保存場所として利用可能です。

他にも、API連携が可能です。

PythonでBiqQueryを実行可能です。

まずは以下のライブラリをインストールします。

pip install google-cloud-bigquery

インストールが完了すると以下のようにクエリを書くことが出来ます。

事前にBigquery上にデータをアップロードする必要があります。

from google.cloud import bigquery

# GCPのProjectIDを指定
GCP_PROJECT_ID = "GCPのProjectIDを指定"
client = bigquery.Client(project=GCP_PROJECT_ID

# 実行したいクエリを記述
sample_query = """
    SELECT * FROM `project_id.dataset.table`
    WHERE time > "2022-01-10 00:00:00"
"""

# クエリを実行
query_job = client.query(sample_query)

BigQueryを利用するには

BigQueryを利用するにはこちらから利用できます。

Google Cloud Platformに登録が完了し何からの「プロジェクト」が作成されていると、以下のようなページが表示されます。

プロジェクトは以下のように新規に作成することも可能です。

上記の「作成」ボタンから作成すればプロジェクト作成可能です。

BigQueryの料金は?

BigQueryの料金体系は大きく、「データを保存するための料金」と「SQLを実行し結果を取得するための料金」の2つに大別できます。

ストレージ料金(つまりデータを保存するための料金)には、GBあたり$0.02/月(長期保存の場合$0.01/月)が発生します。

ストリーミング挿入には、200 MB あたり $0.01発生します。

クエリ実行用には、大きくオンデマンド料金と定額料金があります。 この記事では前者のオンデマンド料金のみ紹介します。

オンデマンド料金モデルでは、各クエリによって処理されたバイト数に基づいて課金が発生します。クエリは毎月1TBまで無料となっています。より詳しく知りたい方は公式をご確認ください。

SQLを学ぶには?

SQLをある程度自由に扱い、必要なデータを抽出するためにはSQLの基本文法(SELECT,WHERE・・・)や、集約関数、テーブルの結合(内部結合、外部結合)、サブクエリ、VIEWなどなどを使いこなす必要があります。

またデータサイエンティストを目指す上でSQLは必須ツールです。その他にも統計学や数学、機械学習、Pythonプログラミングなど身につける必要があります。これらを身につけるには、相当な時間がかかりますし、わからないことがあった場合に質問できなかったり、一人だとモチベーションが保てないことが往往にしてあります。

そのため、データサイエンティストを目指すには、データサイエンティストから直接質問できる環境で、アドバイスや学習進捗リマインドがもらえる挫折しない環境で学ぶのがオススメです。

AI Academy Bootcampでは6ヶ月データサイエンティストや機械学習エンジニアに質問し放題かつ、体系的に学べる動画コンテンツや450種類以上のテキストコンテンツで学べて35,000(税込)で受講出来ます。

上記のオンラインプログラムでは、「データサイエンススキル」と「データエンジニアリングスキル」を効率よく身につけられるプランです。質問し放題の環境かつ動画コンテンツもあり35,000円というコスパで受講できます。是非本気でデータサイエンティストを目指されている方はご受講検討ください。

今すぐ受講する

Leave a Reply