メニュー

第3次AIブーム(画像認識とディープラーニング):AIの基礎知識4

AIの基礎知識

更新日:2020年9月23日(初回投稿)
著者:慶応義塾大学 理工学部 管理工学科 教授 山口 高平

前回は、線ではなく帯で分離するサポートベクターマシン(SVM)、複数の決定木学習の多数決により学習能力を高めるランダムフォレスト、多層パーセプトロンについて紹介しました。今回は、第3次AIブームの起点となった、画像認識とディープラーニングを解説します。

今すぐ、技術資料をダウンロードする!(ログイン)

1. 画像認識とディープラーニング

ニューラルネットワーク研究の歴史を振り返って説明します(図1)。単純パーセプトロンと呼ばれる1960年代の第1次ニューラルネットワークは、入力層と出力層が直結し、性能は線形分離問題(直線で分離できる問題)に限定されていたため、1970年代以降には衰退しました。

1980年代に登場した第2次ニューラルネットワークは、多層パーセプトロンと呼ばれ、入力層と出力層の間に隠れ層(中間層)を持ち、非線形分離問題(曲線で分離する問題)も扱えるようになったため、注目されました。しかしながら、過学習問題(訓練データに過度に適合し、未知データの判別性能が低下する)と、長い学習時間(構造が複雑になると性能は向上するが、学習時間が急に長くなる)という新たな課題が明らかになり、また1990年代~2000年代に、前回説明したサポートベクターマシン(SVM)の性能が多層パーセプトロンより良いことが判明すると、やはり衰退していきました。

その後、画像処理専用装置のGPU(Graphic Processing Unit)がディープラーニング(深層学習)専用装置として転用可能になり、さらにビッグデータが普及してきた結果、第3次ニューラルネットワークとしてのディープラーニングの実行環境が整います。ディープラーニングの高い性能が示されると、多くの人が注目して第3次AIブームが起こりました。現在、多様化しているディープラーニングの用途のうち、今回は、画像認識向けディープラーニングである、畳み込みニューラルネットワークについて説明します。

図1:ニューラルネットワークにおける変遷

図1:ニューラルネットワークにおける変遷

2. 畳み込みニューラルネットワーク(CNN)

1979年、日本の情報工学者である福島邦彦(ファジィシステム研究所)は、猫の視覚野の研究を参考にし、ネオコグニトロン (Neocognitron)を提案しました。ネオコグニトロンでは、図形の特徴を抽出する単純型細胞(simple cell)と、位置ずれを吸収する複雑型細胞(complex cell)を複数回適用し、局所的特徴を大局的特徴に変換する仕組みが考案されました。

さらに1989年、ルカン(Yann André LeCun、ニューヨーク大学、Facebook社)が、単純型細胞と複雑型細胞のモデルを、バックプロパゲーション(誤差逆伝播法)と連携させたニューラルネットワークを提案しました。これは、畳み込みニューラルネットワーク(CNN:Convolutional Neural Network)と呼ばれ、さらに多くの改良研究が続いた結果、画像認識精度が格段に向上し、多くの分野で利用されるに至っています。

3. 畳み込みとプーリング

CNNは、入力層、複数回の畳み込み層とプーリング層のペア、全結合層、出力層から構成されます。図2は、車種を認識するCNNの例です。一番左の入力層が車画像で、その隣の2画像は、中間層を表します。この中間層のうち、左の図は線レベルの特徴(縦横斜め)を、右の図は中間層で図形レベルの特徴(タイヤ、窓など)を抽出しています。そして、一番右の図が、出力層が認識された車種になっています(実際の出力は、Audi 0.9、BMW 0.2のように、全ての車種に対して識別確率が付与された、確率ベクトルになります)。

図2:車種を認識するCNN

図2:車種を認識するCNN

続きは、保管用PDFに掲載中。ぜひ、下記よりダウンロードして、ご覧ください。

4. フィルタの学習

保管用PDFに掲載中。ぜひ、下記よりダウンロードして、ご覧ください。

5. CNNの発展

保管用PDFに掲載中。ぜひ、下記よりダウンロードして、ご覧ください。

  • 基礎知識を社内で利用したい方

ピックアップ記事

tags