Pythonで画像データを手軽に収集したい方必読! icrawler入門

icrawlerとは

icrawlerとはウェブクローラのミニフレームワークです。

It supports media data like images and videos very well, and can also be applied to texts and other type of files.

と公式に記載があるように、画像や動画などのメディアデータをサポートしており、
テキストやその他の種類のファイルにも適用可能です。

公式マニュアル

インストール

Macならターミナル、Windowsならコマンドプロンプトを開き、次のコマンドを実行してください。

Jpyter Notebookのセルや、Colabのセルの中では次のように実行します。

犬と猫の画像をダウンロードする

今回はGoogle検索エンジンから、犬と猫の画像をそれぞれ10枚ずつダウンロードしてきましょう。

次のプログラムを実行してみましょう。

実行した場所に、dogsというフォルダが作成され、犬の画像が10枚ダウンロードされているかと思います。

次に猫の画像もダウンロードしてみましょう。

keywordに、取得したい画像の名前を渡してあげます。
max_numにはダウンロードしたい画像の枚数を渡してあげます。
(最大1000枚まで指定可能です。)

今回は、ダウンロード先のサイトをBingから取得しましたが、
他にもBaiduからも取得できます。

まとめ

この章では、icrawlerを使い画像データを収集するサンプルプログラムを記述しました。
実際、機械学習ではデータを収集することは大変な作業ですが、
icrawlerを使うことで画像データを簡単にクローリングできます。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です