メニュー

第3次AIブーム(オントロジーとナレッジグラフ):AIの基礎知識6

AIの基礎知識

更新日:2020年11月19日(初回投稿)
著者:慶応義塾大学 理工学部 管理工学科 教授 山口 高平

前回は、自然言語処理向けのディープラーニングについて説明しました。単語の意味を記号で表現するのではなく、分散表現、自己分散表現(Self-Attention)により表現された単語間の統計的関連性を利用することで、文脈処理、同音異義語処理などが可能となり、AIの長年の課題であった常識推論が実現され始めたのです。しかしながら、単語間の統計的関連性のみでは、意味をフォローしながら深い議論をすることが現状では不可能であり、知識の記号表現を利用する必要があります。最終回となる今回は、この観点からオントロジーとナレッジグラフを解説していきます。

今すぐ、技術資料をダウンロードする!(ログイン)

1. オントロジーによる高次対話

オントロジーとは、哲学では「存在論」と訳され、情報科学の世界では、「概念化の明示的な仕様」と定義されています。AIにおける高次対話では重要な分野です。対話AIは、ディープラーニングによって膨大な対話例から高頻度対話パターンを抽出することで開発できます。しかし、表層的な対話にとどまってしまい、言葉の意味を考えながら進める深いレベルの対話は実現が困難です。

例えば、対話AIに「お父さんが入院した」と話しかけ、対話AIが「それは心配ですね」と答えたとします。一見、対話は成立しているように思えます。ところが、実際は大量の対話データから、入院という言葉と相関関係の高い言葉・セリフを選び、発話しているだけなのです。「入院は、心配事の1つである」という上位下位関係、「入院すると、お金が必要になる」「その人の世話をするために、身近な人が忙しくなる」といった因果関係を理解していないので、続けて「これで当分、旅行には行けないなぁ」と発言されても、対話AIにとっては「はぁー?」となってしまいます。

オントロジーとは、概念(クラス)間の上位下位関係や、プロパティ(property)と呼ばれる、関係の意味定義などを指します。プロパティを関数として捉え、プロパティの定義域と値域を定義し、プロパティの使い方を制限します。図1のように、いたずらっ子が人型ロボットNAOに「昨日、スマートフォンを食べて、おいしかったよ」とからかったとしましょう。ここで、NAOがこのからかいを返すために、「オントロジー」を利用することができます。

図1:人型ロボットNAOといたずらっ子

図1:人型ロボットNAOといたずらっ子

この「食べる」というプロパティは、動物(主語)から食べ物(目的語)への意味関係と定義されます。「昨日、(僕は)スマートフォンを食べて、おいしかったよ」の「食べる」の主語(僕)は人間で、目的語はスマートフォンになります。人間は動物の下位概念で動物に含まれるため、主語の使い方は正しいものの、スマートフォンの上位関係は人工物であり食べ物には含まれず、目的語の使い方が正しくありません。従って「スマートフォンは人工物で、食べ物ではないから、食べることはできないよ!」とロボットがいたずらっ子のからかいを返すことができます。オントロジーを利用したこのような高次レベルの対話は、現在、広く普及してきたAIスピーカでも、残念ながらまだ実現されていません。

オントロジーでは、クラス間の意味関係記述を行います。また、クラスのインスタンス(実体)である具体的な人・もの・ことの間のさまざまな意味関係を、RDF(Resource Description Framework)というデータ形式で表現します。RDFでは、オントロジーで意味定義されたプロパティとインスタンスを使い、「主語」のプロパティは「目的語」である、という3つ組であるトリプル(triple)を記述します。

2. ナレッジグラフによる高次対話

ナレッジグラフとは、Web上にあるさまざまな情報源から収集した情報を用いて、検索エンジンの検索結果を拡張するために使用されるデータベースのことをいいます。オントロジーのRDFを利用してWeb上のデータを連携したものを、Linked Dataまたは Linked Open Data(LOD)と呼びます。近年では、Googleが検索エンジンで利用するLODを「ナレッジグラフ(knowledge Graph)」と呼んだことから、LODをナレッジグラフと呼ぶことが多くなってきています。

続きは、保管用PDFに掲載中。ぜひ、下記よりダウンロードして、ご覧ください。

3. IBM Project Debater

保管用PDFに掲載中。ぜひ、下記よりダウンロードして、ご覧ください。

    ピックアップ記事

    tags