【初心者向け】データ分析で必須のツール Jupyter Notebook を入門しよう!

Jupyter Notebookとは

Jupyter Notebookは、PythonのコードをWebブラウザ上のNotebookからプログラムを実行できたり、ドキュメントを作成できるツールです。
近年ではデータ分析で欠かせないデータ分析用ツールです。
これまでPythonのプログラムはテキストエディタに書いて、ファイルに保存したプログラムをターミナルなどから実行してきましたが、近年データ分析界隈の方々はJupyter Notebookを使ってデータ解析や機械学習を行っていることがほとんどです。
またTry Jupyter / Jupyter Notebook tryという、ブラウザ上で手軽にプログラミングする無料サービスもあります。
ここでは、データ解析でよく使われるJupyter Notebookをインストールし、実際に使い方を説明していきます。

Jupyter Notebookのインストール

pipコマンドでjupyterをインストールします。
pipコマンドは、cdやlsなどといったターミナルから利用するコマンドです。
ターミナルを開き、下記を入力しエンターキーを押し実行してください。
公式ドキュメンテーション
インストールが完了したら、ターミナル/コマンドプロンプトを開いていただいて下記コマンドをターミナル/コマンドプロンプトで実行してください。これでしばらくすると、Webブラウザ上にJupyter Notebookが立ち上がります。

pip install jupyter
jupyter notebook

Notebookの作成と実行

起動すると次のような画面が表示されているかと思います。

右側に「New▼」というボタンがありますので、そちらを押していただき、Python3を選択してください。
すると次のような画面が表示されます。

Jupyter NotebookはCellという枠の中にプログラムなどを書き実行することができます。
では早速Pythonのプログラムを書いて実行してみましょう。
In []:の横にカーソルを当て、そこにプログラムを入力することができます。
下記プログラムを入力してください。

print("AI Academy")

さてそれでは実行しましょう。
上にヘッダーがあり、FileやEdit、View、Insert、Cellなどが並ばれているところがあります。
そのヘッダーのCellと書かれた部分をクリックすると次のような画面が表示されます。

ここの「Run All」をクリックすると実行されます。
また、Cellタブの下に▶︎ボタンがありますので、そちらを押していただいても実行可能です。

Jupyter 各種アイコンの説明

Jupyter Notebookには幾つかの機能がありますが、ここでは一部だけ説明いたします。まずは一番左のアイコンから見ていきましょう。このアイコンはファイルを保存する時に使用します。保存されるファイル名は、デフォルトで「Untitled.ipynb」です。Jupyterロゴの右側の「Untitled」をクリックすることでファイル名を変更可能です。

次に+アイコンですが、これはCellを追加します。ちなみに、Insertタブ > Insert Cell Above及びInsert Cell BelowでCellを追加できます。

はさみアイコンはCellを削除します。先ほどの+アイコンで追加して削除してみてください。

矢印アイコンは、フォーカスが当たっているCellの位置の移動を上下に可能です。

また、Codeのプルタブメニューをクリックすると下記のようにCodeの他にもMarkdownなどが出てきます。Codeの状態ですと、Pythonプログラムが記述&実行可能ですが、例えばMarkdownにすることで、ドキュメントを作ることも可能です。さらに、数式もMathjaxで記載が可能です。

 

画像を表示する

Jupyter Notebookで画像を表示する方法はいくつかありますが、ここでは2通りの方法を紹介します。
1つ目は、Ipython.displayモジュールのdisplay_png関数を使う方法です。
もう1つが、matplotlibを使って、Jupyter Notebookのモジュール読み込みの際に、%matplotlib inlineと記述する方法です。
参考 IPython 公式

# 1つ目の方法
from IPython.display import Image, display_png
display_png(Image("sample.png")) # このプログラムの実行場所にsample.pngがないとエラーになります。

"""
matplotlibで扱えるファイル形式は、
emf, eps, jpeg, jpg, pdf, png, ps, raw, rgba, svg, svgz, tif, tiffになります。

またmatplotlibバージョン2.0.0の保存可能な形式は、
import matplotlib.pyplot as plt
fig = plt.figure()
print(fig.canvas.get_supported_filetypes())
で調べることが出来ます。
"""

# 2つ目の方法
%matplotlib inline

機械学習ライブラリのインストール

さてここまでJupyterのインストールなどを行ってきました。
最後に、機械学習ライブラリ関連をインストールしていきましょう。
ターミナル及びコマンドプロンプトを開いていただき、次のコマンドを実行してください。
万が一、Jupyter notebookが起動中の場合は一旦コントロールキー + Cなどで終了させてから行ってください。
全てインストールできましたら、一旦完了です。
お疲れ様でした。

pip install numpy        # 線形代数など数学処理周りのライブラリ
pip install matplotlib   # グラフ描画ライブラリ
pip install pandas       # データ処理ライブラリ
pip install scikit-learn # 機械学習ライブラリ

覚えておくと便利なショートカット

Shift + tabキーを押すと、セルの中に定義された関数の概要を調べることが出来ます。
また、プログラムを入力時に、tabキーを押すと、入力補完が出来ます。

まとめ

この章ではJupyter Notebookの基本的な使い方と機械学習を扱う上で必要なpythonのライブラリをインストールしました。
Jupyter Notebookはデータ解析を行う上で便利なツールですので、是非使いこなしていきましょう。