scikit-learnとは
scikit-learn(サイキット・ラーン)はPython用の機械学習ライブラリです。scikit-learnはオープンソースで公開されており、個人・商用問わず、誰でも無料で利用することが出来ます。また、教師あり学習、教師なし学習に関するアルゴリズム(サポートベクターマシン、ランダムフォレスト、回帰、クラスタリングなど)が一通り利用出来る上、サンプルのデータセット(トイデータセットと呼びます)が豊富に揃っています。
そのためscikit-learnを用いるとすぐさま機械学習プログラミングを試すことが可能です。※より詳しい内容に関しては、公式サイト(英語)に記載されておりますので、scikit-learnに実装されている関数が出てきた際には、リファレンスとして読む事をオススメ致します。
書籍で学びたい方はこちらの書籍がおすすめです。
なぜscikit-learnを学ぶのか
なぜPythonを用いて機械学習を活用する際に、scikit-learnを学ぶのでしょうか。それはscikit-learnは、Pythonで(統計的)機械学習プログラミングを行う場合、世界的にもデファクトスタンダードになっているからです。scikit-learnは無料で利用する事が出来ますので、機械学習を扱うのであればしっかりと使いこなせるようにしましょう。
scikit-learnをインストールする
scikit-learnを利用するには「Anaconda」を用いるか、「Anaconda」を使っていない環境ではpipコマンドなどでインストールが可能です。Anaconda経由でダウンロードした場合は、最初からscikit-learnがインストールされています。
例)pipコマンドを用いた実行例
pip install scikit-learn
Mac OSの方は「ターミナル」から実行し、Windowsの方はPowerShellなどから実行してください。
※pipコマンドが利用できる前提です
scikit-learn 付属のデータセットに関して
scikit-learnには、インストールすることであらかじめ使えるトイデータセット(Toy dataset)が付属しています。
トイデータセットというのは、scikit-learnに同梱されているサンプル数の少ないデータセットになります。
データ数が少ないため、学習しても良い精度が出たモデルであっても、実際のところ現実の社会にサービスとして組み込んだ際になかなか良い精度を出せないことがあるので注意です。scikit-learnを使って機械学習を行う際に、データセットが手元にない場合便利です。
機械学習アルゴリズムマップ
scikit-learnでは分類、回帰、クラスタリング、次元削減などの主要な機械学習の手法が最初から実装されています。
しかし、これから機械学習プログラミングを学んでいく際に、必ず頭を悩ませる問題の1つに、「どのアルゴリズムを使えば良いのだろう。。」です。そのような時は、公式チュートリアルが出している「アルゴリズムチートシート」をご確認ください。
画像引用元:https://scikit-learn.org/stable/tutorial/machine_learning_map/
上記は公式が出しているもので、英語表記なので、オリジナルのもを作成しました。
下記も参考にしてみてください。
【初心者向け】機械学習ライブラリ scikit-learn(sklearn)とは? 機械学習プログラミングを体験してみよう!
機械学習を効率的に学ぶには
機械学習を独学で学ぶのは大変ですよね…。
そのように感じられた方は、まずはオンラインプログラムを利用するのが良いです。
AI Academy Bootcampでは6ヶ月データサイエンティストや機械学習エンジニアに質問し放題かつ、体系的に学べる動画コンテンツや440種類以上のテキストコンテンツで学べて35,000(税込)で受講出来ます。
是非サービスを活用し、効率よく、統計学や機械学習を身につけてみてください。
[…] scikit-learnには、BernoulliNB、MultinomialNB、GaussianNBなどの様々な種類のナイーブベイズが提供されています。2クラス分類や多クラス分類、用途によってそれぞれ使い分けたりします。 […]