メニュー

第2次AIブーム(機械学習):AIの基礎知識2

AIの基礎知識

更新日:2020年7月2日(初回投稿)
著者:慶応義塾大学 理工学部 管理工学科 教授 山口 高平

前回は、AIの誕生から、第2次AIブームの知識推論型AIまでを紹介しました。今回は、第2次AIブームを牽引した代表的な機械学習である、決定木学習、ナイーブベイズ、相関ルールを解説します。

今すぐ、技術資料をダウンロードする!(ログイン)

1. 機械学習

機械学習は、コンピュータが、データ群に内在するパターン(知識)を自動的に発見します。機械学習の手法には、人が観測データと答え(判断結果)を与える教師あり学習と、観測データだけを与える教師なし学習があります。教師あり学習の手法の一つである決定木学習は、人が学習結果を理解しやすく、説明容易性が高いことから、今なお利用されています。一方、教師なし学習の手法には、K-means法があります。K-means法とは、あらかじめ決められた基準によって、データ群を自動的に分割するクラスタリングを実行する方法です。

教師あり学習は、分化して発展を遂げています。今回は、まず、基本的な機械学習である、決定木学習、ナイーブベイズ、相関ルールについて紹介します。

2. 決定木学習

決定木学習は、木のルートノード(構造における枝分かれの始まりになっている要素)からリーフノード(構造における枝分かれの最後になっている要素)までに記述されている全ての条件を実行することにより、所与データを分類する木を学習するものです。ここでは、エントロピーによる決定木学習について説明します。

エントロピーは、-Σpilog2pibitによって計算される平均情報量であり、情報の不確からしさを示します(piは、i番目の事象の生起確率)。従って、決定木学習とは、エントロピーがより小さい(より確かである=特定クラスに属するデータに偏っている)下位ノードを構築するプロセスであり、最小エントロピーとなる属性を順次選択して、決定木を学習します。ここでは、気象条件とゴルフプレイ可否の関係を記したデータを用い、エントロピーに基づく決定木学習プロセスを説明します(表1)。

表1:気象条件とゴルフプレイのデータ

表1:気象条件とゴルフプレイのデータ

本データセットは、天気(晴、曇、雨の3値を取る)、温度(暑、暖、涼の3値を取る)、湿度(高、普通の2値を取る)、風(有、無の2値を取る)の4種類の属性、およびゴルフプレイ可(○)と不可(×)の2クラスから構成されます。これらの組み合わせにより、14個のデータから構成されます。

まず、各属性でデータセットを分割した様子を示します。最初の分割属性として天気を選択し、下位ノードの○と×の数を、[〇の数,×の数]のように表記すると、晴の場合[2,3]、曇の場合[4,0]、雨の場合[3,2]となります。すなわち、これらのノードの情報量は、以下のようになります。

info([2,3]) = 0.971

info([4,0]) = 0.0

info([3,2]) = 0.971

エントロピーは、これらの平均情報量なので、各ノードのデータ数を考慮し、以下のように求められます。

info([2,3],[4,0],[3,2]) = (5/14) * 0.971 + (4/14) * 0 + (5/14) * 0.971 = 0.693

同様に、他の属性である温度、湿度、風を選択した場合のエントロピーを求めても、天気よりは小さくならないため、ルートノードで天気属性によりデータを分割します。この後、天気が曇の場合は、ゴルフプレイ○と確定できるものの、晴と雨の場合は○と×が依然混在します。そのため、前述と同様のプロセスで決定木を成長させ、晴れの場合は湿度、雨の場合は風を選択し、最終的に図1のような決定木を学習できます。人にとって決定木は分かりやすく、次回説明するランダムフォレストの枠組みの中で決定木学習を使うと学習性能も高く、現在、なお、現場で利用されている代表的な機械学習です。

図1:気象条件からゴルフプレイ可否の決定木

図1:気象条件からゴルフプレイ可否の決定木

図1は、全てのリーフノードが単一クラスになっています。しかし、現実データでは、このような理想的な状況にはならないため、データをこれ以上分割できなくなった時点で、決定木学習を停止させます。

3. ナイーブベイズ

保管用PDFに掲載中。ぜひ、下記よりダウンロードして、ご覧ください。

4. 相関ルール学習

保管用PDFに掲載中。ぜひ、下記よりダウンロードして、ご覧ください。

    ピックアップ記事

    tags