Vision Transformerとは
Vision Transformer(ViT)とは、画像認識にTransfomerを利用したモデルです。
論文より引用
2020年にGoogleから発表されました。
Vision Transformerでは、Transformerのみを利用しているモデルで、
特徴として畳み込みを用いずにSOTA(State-of-the-Art)を達成(現時点での最先端レベル)したことで注目されました。
大枠の処理として、入力画像をベクトルに変換した後に、Transformer Encoderにより処理し、MLPヘッドで処理するといった流れになります。
アーキテクチャの詳細は論文や書籍を参考にしたり、もしくはKerasでViTのモデルを参考に実装しながら理解を深めてみてください。
まとめ
Vision Transformerの特徴として、CNNを用いずTransfomerのみを利用した画像認識モデルであることを紹介しました。
画像認識を効率よく身につけるには
画像認識を学ぶ上でおすすめなのは、画像認識分野を専門とする機械学習エンジニアからいつでも質問できる環境で学ぶことが大切です。
AI Academy Bootcampなら、6ヶ月35,000円にてチャットで質問し放題の環境で、機械学習やデータ分析が学べるサービスを提供しております。
数十名在籍しているデータサイエンティストや機械学習エンジニアに質問し放題の環境でデータ分析、統計、機械学習、SQL等が学べます。
物体検出やセグメンテーションに必要なスキルを効率よく体系的に身に付けたい方は是非ご検討ください。