ニューロシンボリックAI(またはニューラルシンボリックAI、シンボリックニューラルなど、英語ではNeSyとも略される)は、深層機械学習として知られるニューラルネットワーク、および記号推論という二つの独立した機械学習方法を統合したものだ。ニューロシンボリックAIの理解を深めるためには、まずこれら二つの異なる方法論を把握することが必要である。
深層機械学習手法(またはディープラーニング)とは、主に勾配降下法という最適化手法を用いて損失関数を最小化するモデルの重みを見つける手法だ。近年、世の中を席巻しているいわゆるAI技術は、ほぼ例外なく深層機械学習技術だ。
一方で、記号推論をベースとしてAI技術は、主に第二世代AIブームで用いられたAI技術を指す。例として、エキスパートシステムや論理プログラミングなどが代表例として挙げられる。
これら二つの手法、すなわち深層機械学習と記号推論は、それぞれ利点と欠点を有しており、ほぼ相補的な関係にある。深層機械学習はデータ駆動で、複雑な表現をデータから抽出できる強みがある。この強みを活かし、実世界で幅広く応用されている。対照的に、記号推論は明示的なルールを学び、既存知識の導入や、誤ったルールの修正も可能である。しかし、深層機械学習で得られるモデルは大量の浮動小数点から成り、その内部を解釈するのは非常に困難である。
このような相補的な関係から、両手法の「いいどころどり」であるニューロシンボリックAI手法が注目されている。深層機械学習の強みであるデータ駆動と、記号推論の明示的なルールを組み合わせることで完璧なAI技術の実現が期待されている。
なぜ?
深層機械学習が超人的な成果を発揮できるのであれば、なぜシンボリックAIを導入する必要があるのかと、疑問を持つ人もいるだろう。確かに、深層機械学習モデルは驚異的な性能を発揮するが、一方で、人間ではあり得ない間違いを犯す場合がある。特に有名な例として、パンダの画像に人間が認識できない微量のノイズを加えただけで、深層機械学習モデルがまったく異なる動物だと判断してしまう事例がある。
最近話題になっている大規模言語モデル、特にChatGPTにも問題点が存在している。ChatGPTは人間らしいやりとりをし、インターネット全体の知識に基づいて超人的な知能を発揮する一方、間違った答えを堂々と出す「幻覚」と呼ばれる問題が浮き彫りになっている。また、推論を要する問題や段階的な推理が必要な問題に対しても、まだ未解決の課題が残っている。
シンボリックAIでは、知識を明確に表現することで、根拠のない事実を回答することを防ぐことが可能だ。また、推論や段階的な解決が必要な問題は、この手法が特に得意としている。いわば、ChatGPTの課題を見事に補完する部分が、シンボリックAIを導入する魅力となっている。
課題はどこにあるのか?
ニューラルネットワークと記号推論を融合するという考え方は直感的に思い浮かぶが、具体的にどんなニューラルネットワークをどのように学習させ、どの記号推論手法を使うのかが肝心な問題だ。
ニューラルネットワークに畳み込みネットワークやトランスフォーマーなどの種類があるのと同じように、記号推論にもさまざまな手法が存在する。
記号推論においては、まず知識の表現方法を考えることが重要だ。記号を用いて明示的に知識を表現することにより、人間が確認や修正を行ったり、既存の知識を直接導入したりすることが可能となる。具体的な手法として、最小限の事実を列挙し、それ以外の事実を論理的に導出できるようなルールを記述する方式がある。また、知識をグラフとして表現し、各種関係性をエッジ(辺)で示すナレッジグラフ方式も存在する。
しかし、このような記号で知識を表現することは、データ駆動で新たな知識を学習する上での難点ともなり得る。一般的に最適な知識表現形式は一概には定められず、問題ごとに適した形式を選択する必要がある。たとえば、自動車と動物を区別する問題では、車輪やエンジンの有無、表面的な特性などを記述すればよい。しかし、自動車の車種を識別する問題になると、ヘッドライトの形状やロゴ、車体の特性などをより詳細に記述しなければならない。過度に詳細な記述をすると計算量が増え、一方で詳細が足りないとそもそも問題の解決につながらない状況を生じさせる。
そして、記号推論においてもう一つ重要なのは推論(またはリーズニング)そのものだ。これは主に論理学で研究されている論理推論を用いる。論理推論には大きく分けて、演繹、帰納、アブダクションの三つがあり、それぞれ特定の記号操作を行うことで実現する。多くのアルゴリズムが開発されているが、根本的に計算量の問題が存在する。特に関与する記号が増えると計算量が急激に増え、大規模な問題に対して応用するのが難しい。
深層機械学習、特にニューラルネットワークでは、逆伝播の過程で起こる勾配消失または爆発問題が存在する。このため、長いステップを要するアルゴリズムやバックトラック(間違った道を逆戻りして、別の道を選ぶ戦略)が必要な問題に対して特に弱い。例えば、二桁や四桁の足し算をニューラルネットワークに学習させたとしても、学習していない六桁や八桁の足し算を正確に行うことができないといった問題がある。このような理由から、ニューラルネットワークに直接論理推論を学習させることは極めて困難である。
現在どのような研究がある?
まず、直観的にニューラルネットワークと記号推論を組み合わせた、いわゆるハイブリッドシステムの研究を紹介する。これは、ニューラルネットワークを用いて画像や自然言語などの連続データを扱い、その上で論理推論システムを用いて予測を行う手法で、NeurASPやNLPrologなどがその例として挙げられる。この手法の特徴は、ニューラルネットワークで入力された連続データから直接記号を予測し、その結果を活用するところにある。記号を取得した後には、論理推論を用いて最終的な回答を得る。ただし、このアプローチでもニューラルネットワークの弱点は依然として存在する。応用可能な問題の一例としては、画像から数独や数式を解くことや、文章から数学問題を解くといったものがある。
次に、記号や知識を数学的な空間に埋め込み、その空間上で論理推論を行う研究について紹介する。ナレッジグラフを基盤とした手法としては、TransEやUltraEなどが存在する。また、論理プログラミングを基にした手法も開発されている。このアプローチの目的は、大規模並列計算を活用し、計算量が大きい論理推論アルゴリズムを高速化することにある。論理推論に適合した数学的空間を定義し、記号の埋め込みを定義することで、行列やベクトルの数学演算により論理推論を実行する。この手法は論理推論の高速化と大規模問題への応用を可能にする一方で、推論の源となる記号やルールをどのように取得するかという課題への解決にはつながらない。
続いて、ニューラルネットワークに問題解決を学習させ、その結果として得られたニューラルネットワークの重みから記号ルールを抽出する手法を紹介する。このアプローチでは入力と出力ともに記号であり、通常の論理推論システムで解ける問題をニューラルネットワークを用いる。具体的な手法としてはC-IL2P、NN-LFITやd-LFITがあり、ニューラルネットワークの重みを論理計算と見立て、ゼロとなった重みを除き、残りから論理ルールを生成する。ただし、この手法はニューラルネットワークの構造に制約を設けるため、複雑な構造を持つ場合には計算コストが大幅に増える。また、最新の深層学習手法を取り入れるのも困難である。
さらに、勾配降下法を用いて論理推論を行う研究も紹介する。微分可能プログラミングとも呼ばれ、問題を損失関数として定義し、損失が最小になるパラメータが解答となるというアプローチである。代表的な手法としては、∂ILPがある。先ほど述べた抽出ベースの手法と異なり、微分に基づいて作動するため、画像などの連続データも入力として取り扱うことが可能だ。ただし、学習可能なルールの形式(式の長さなど)を事前に指定する必要があり、そうした制限から実世界での応用範囲が限られる。
最後に、私の研究である∂LFITおよび∂LFIT++について紹介する。∂LFITは前述の手法と異なり、問題の解答を直接出力するのではなく、解答が導出できるルール自体を出力する。∂LFITは時系列データを入力とし、そのデータを裏付ける根拠となるルールを学習する対象としている。具体的には、NN-LFITはあるひとつの動的システムから得られる時系列データを学習し、その後最適化された重みからルールを抽出している。対して、∂LFITは複数の動的システムから得られる時系列データとそのルールの関連性を深層機械学習手法を用いて学習する。学習が終了したあとは(制限はあるが)任意の動的システムを対象とすることが可能だ。つまり、ルールが持つ意味合いを深層機械学習モデルに学習させている。ニューロシンボリックAIにおける新たなアプローチであるが、出力の対象がルールという点で、モデルの大きさに組合せ爆発問題が課題となっている。
ニューロシンボリックAIの今後
深層機械学習手法のみでは、その限界が明らかである。例えば、ChatGPTでも専用のインタープリターにコードを実行させ、その結果を用いて残りの解答を完成させるという、ニューロシンボリックAIのハイブリッドシステムに似たようなアプローチが見られる。人工知能技術をさらに幅広い領域で適用するためには、一貫性のある論理的、数学的な演算が不可欠だ。
さらに、人間が意思決定プロセスに関わっている限り、深層機械学習モデルの出力結果や推論過程を理解可能にすることも重要だ。ニューラルネットワークのような「ブラックボックス」モデルでは、バイアスや予期せぬ失敗パターンが潜んでいる可能性があり、その修正も大変困難だ。
深層機械学習手法と記号推論の統合については、さまざまなアプローチで研究が進められているが、まだ絶対的な解決策が見つかっていない。深層機械学習と記号推論の根本的な違いや、その違いから生じる学習方法の差異についても、まだ完全に解明されていない。
深層機械学習は神経構造に基づき発展してきたのに対し、論理推論は人間の思考過程、いわば神経活動から発展した。ニューロシンボリックAIはこの二つを統合するもので、一歩引いて考えると、人間の脳の完全再現を試みる手法とも言える。ただし、課題はまだ山積みだ。最終的に、汎用人工知能(AGI)がニューロシンボリックAI手法から生まれるかどうかはまだ明確ではないが、いずれにせよ、ニューロシンボリックAIは今後も大事な分野であり続けることは間違いないだろう。