EN | 日本語

ダイナミックシステムから論理プログラムの学習

時系列データから論理プログラムを分類
時系列データから論理規則を学習

私は,これまでに深層機械学習と記号的論理機械学習手法の融合による時系列データからの遷移規則の学習手法を確立する研究を行なってきた.まず,ニューラルネットワークは異なるシステムより得られる時系列データを学習し,さらに次の状態を予測できることを確認した(Phua, et al. 27th International Conference on Inductive Logic Programming, 2017).時系列データと論理プログラムをLSTM (Long-Short Term Memory)でベクトル空間の表現を学習し,その表現を用いて次の状態を予測した.そして,同一システムからの異なる時系列データを識別できることも確認し,さらに背景知識を用いて予測を改善する手法を提案した(Phua, et al. IfCoLog Journal of Applied Logics, 2019).LSTMで学習した行列表現を分析し,同一システムから学習した行列表現が近似していることを示した.また,同一システムからの異なる時系列データを保持し繰り返し入力して学習することで,次の状態の予測精度が上がることも確認した.

上記の結果を利用し,ニューラルネットワークのパターン認識の強みを生かした,時系列データからその遷移を裏付ける論理プログラムの学習手法を提案した(Phua, et al. 29th International Conference on Inductive Logic Programming, 2019).時系列データ内に存在する規則を分類することで,論理プログラムを出力する.論理規則に制約を設け,あるあらゆる論理規則を列挙し分類クラスとして学習する.この手法を図3に示す.ニューラルネットワークの構造を解析せず,論理規則を学習することで,ノイズへの頑健性を示した.この研究成果が評価され,最優秀学生論文賞を受賞した.次に,記号論理および深層機械学習を融合したことで起こる組合せ爆発問題を,記号論理に存在する不変性を利用して抑えることができた(Phua, et al. 1st International Joint Conference on Learning & Reasoning, 2021).特に入力される状態遷移の順序の不変性に注目し,深層機械学習でも順序が不変となるような手法を提案した.その上,ニューラルネットワークの出力を論理規則ごとに対応するのではなく,同一出力で複数の論理規則に対応させることでメモリーの消費量を減らした.これによって,より大きいシステムに対応することができ,実世界での応用に一歩近づいた.また,記号論理で学習したものをより理解しやすくする研究を提案し2021年度の特別研究員奨励費で推進してきた.

それに加え,学習データに欠落がある時の性能を従来手法と比較し,提案手法は実世界データでより性能がよいことを確認した.そして,これまでの同期システムの遷移状態のみ対応しているモデルを改良し,非同期システムの遷移にも対応する手法に取り組んだ.さらに,遅延の存在するシステムに対応するために手法を拡張した.

生成モデルによるクラス増分学習

Levaraging generative models like Stable Diffusion to perform class-incremental learning

ニューラルネットワークなどの統計的機械学習手法には,破滅的忘却の問題がある.すでにタスクAを学習済みのモデルに,タスクBの学習を行うと,タスクAに関する知識がすべて忘却されるという問題が知られている.このような現象を研究し,解決を探る分野を継続学習と呼ぶ.その中で,クラス分類に注目し,各ステップにおいて学習させるクラスを限定することをクラス増分という.従来の手法でモデルをこのように段階的に学習させると,最初に学習したクラスの分類が全くできなくなる.この問題を解決するには,様々な手法が提案されている.本研究では,蒸留および再生メモリに注目する.蒸留とは,学習したモデルの知識を新たなモデルに移転する手法である.そして,再生メモリは,各ステップにおいて前のステップでの学習データを一部保有する手法.しかし,メモリは有限であるため,保有できるのは限られた学習データのみ.従来では,過去の学習データに入っているデータをそのまま保有し学習を行なっている.しかし,保有できるデータが限られていることから,精度があがらない.本研究では,その再生メモリを生成モデルによって生成されたデータで置き換える手法を提案する.これによって,既存手法を1~3%の間で精度をあげることができた.また,生成モデルで生成するデータ量が多ければ多いほどいいということではなく,一定量に収まることで精度が一番あがったことがわかった.

本研究の成果は,国際学会にて発表し(Jodelet, et al. 1st Workshop on Visual Continual Learning, 2023),最優秀論文賞を受賞した.

細胞配列データから安定的に重要な遺伝子を識別する

resVAEアンサンブル:細胞配列データから重要な遺伝子を識別する手法

ドイツの国立病院の研究グループとの共同研究において,細胞の種類を分別するための遺伝子を自動的に認識する手法を提案した(Ten, et al. Frontiers in Cell and Developmental Biology 11, 2023).深層機械学習モデルから人間の求めている知識を抽出する手法を開発し,それを生物学の分野で応用することに成功した.この手法を図4に示す.生物学者は,遺伝子の表現レベルで細胞を分類し,分類した細胞を研究対象とし薬などを開発している.しかし,ひとつの細胞から得られる遺伝子表現レベルのデータは莫大であり,すべてを手動で分析するのは不可能である.既存の深層機械学習手法では,モデルの重みの初期化で乱数が含まれているため,学習結果が毎回異なる.細胞の種類を分別する重要な遺伝子の識別もそれによって左右され,どの遺伝子が真に重要かが不明である.そのため,複数のモデルを同時に学習させるアンサンブル手法を提案し,学習結果を安定させた.また,選択した活性化関数により学習した遺伝子の重要性が不安定であることを解明し,より安定した活性化関数に置き換える手法を提案した.


質問がある場合,あるいは私の研究についてもっと知りたい場合は,メールで連絡ください.

« 戻る