機械学習では、コンピュータがデータからパターンを検出できるようなアルゴリズムを開発することが必要となります。機械学習アルゴリズムは標準的には表形式のデータを扱うように設計されていますが、多くの科学的データが表形式ではありません。例えば、ゲノム配列は系列データであり、化合物の化学構造式はネットワーク状のグラフ構造データです。一つの研究テーマとして、このような非数値データを扱う機械学習アルゴリズムの開発を研究しています。
化学実験やシミュレーションによって得られたさまざまなデータの解析は、化学反応を合理的に設計するために欠かせません。そのため、最先端の機械学習手法を用いてデータと理論を最大限に活用し、非常に複雑な化学反応の性質を明らかにできるようにしたいと考えています。それが、不確定要素のモデリングや、ターゲットとなる生成物や反応条件の予測、決定因子に関する新しい知識の抽出、更には理論駆動型、知識駆動型、およびデータ駆動型の予測の統合につながると考えています