マテリアルズインフォマティクス(Materials Informatics; MI)では、材料特性の予測や新規材料の探索に、様々な機械学習手法が活用されています。2024年のノーベル物理学賞・化学賞の受賞テーマとなったニューラルネットワークも、MIで広く使われる手法の一つです。
ニューラルネットワークは膨大なデータからパターンを学習し、特に複雑な材料挙動を予測する場面で力を発揮します。MIでは、ニューラルネットワーク以外にも活躍する機械学習手法が数多く存在します。中でもガウス過程回帰(Gaussian Process Regression; GPR) は、材料特性の予測や新規材料の探索において特に有用な手法として知られています。本記事ではGPRの特徴である、1.不確実性の定量化、2. 非線形な現象の予測について解説します。まず、GPRの理論的な背景を数式を交えながら説明し、その特徴を明らかにします。そして、3. GPRを用いた具体的な材料設計の事例を紹介します。
ガウス過程による不確実性の定量化
材料開発における予測の課題と信頼性の重要性
機械学習による予測というと、数万点以上の大規模データを用いた予測をイメージされる方もいるかもしれません。しかし材料開発の現場では、実験コストや時間の制約からデータ量が限られているケースが少なくありません。このような状況下では、限られた少数データを有効活用して未知の実験結果を予測することが求められます。その際、予測の信頼性を定量化することは、予測結果の解釈や実験計画の意思決定などの幅広い場面において重要な役割を果たします。
GPR(ガウス過程回帰)と区間推定
未知の量を推定する方法には、点推定と区間推定の2種類があります。点推定は、単一の値を推定する方法であり、不確実性を考慮しない推定値を提供します(図1)。一方、区間推定は、推定値に幅を持たせることで予測の不確実性を考慮した推定方法です。
図1. 点推定と区間推定
GPRは、区間推定を可能にする確率論的な手法であり、限られたデータを有効に活用するための強力なアプローチです。
ガウス分布
GPRがどのように区間推定を行うのかを説明するために、まずガウス分布 (正規分布) について説明します。ガウス分布は、自然現象や社会現象においてよく観測される確率分布であり、次の式(1)で表されます。この分布は、平均μと標準偏差σをパラメータとしたxの関数です。特にμ=0とσ=1のガウス分布N(0, 1)は、標準正規分布と呼ばれます。
GPRがどのように不確実性を定量化するのかを理解するために、まずベースとなるガウス分布 (正規分布) について説明します。ガウス分布は自然現象においてよく観測される確率分布であり、確率密度関数は式(1)で表されます。ここで、$$ p(x \mid \mu, \sigma^2) $$ は「$$ x $$ がこの値を取る確率密度」を表し、平均$$ \mu $$と標準偏差$$ \sigma $$が分布の形状を決定します。特に$$ \mu=0 $$と$$ \sigma=1 $$のガウス分布 $$ \mathcal{N}(0, 1) $$ は、標準正規分布と呼ばれます。
$$ p(x \mid \mu, \sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}}\exp\!\left(-\frac{(x-\mu)^2}{2\sigma^2}\right) \quad \text{--- (1)} $$
$$ \mathcal{N}(0, 1) $$ のガウス分布を図2に示します。横軸がxで縦軸が確率密度を表しています。図2のようにガウス分布は釣り鐘型で、左右対称の形状をしており、平均値 $$ \mu $$ の値が最も現れる確率が高く、平均値 $$ \mu $$ から離れる程その確率が低くなります。
図2. ガウス分布
ガウス分布は、特定の範囲に値が含まれる確率を数学的に計算することができます。例えば、確率変数が平均値 $$ \mu $$ を中心として、
- $$ \mu \pm 1\sigma $$ の範囲に含まれる確率は約68.3%
- $$ \mu \pm 2\sigma $$ の範囲に含まれる確率は約95.4%
- $$ \mu \pm 3\sigma $$ の範囲に含まれる確率は約99.7%
となる性質があります。図3にこれらの範囲を示します。各色の領域が、それぞれ対応する確率範囲を表しています。
図3. ガウス分布における範囲とその確率
GPRにおける予測分布
GPRの大きな特徴は、個々のデータ点の値だけでなく、未知の関数全体に対して確率分布を仮定している点にあります。数学的には、任意の有限個の入力点における関数値が多変量正規分布に従うような確率過程として定義されます。
GPRでは、未知のデータ点に対する予測は単一の値ではなく、予測分布として与えられます。この予測分布はガウス分布となるため、平均値 $$ \mu $$ と標準偏差 $$ \sigma $$ によってその不確実性を表現することができます。ガウス分布の性質により、$$ \mu \pm 1.96\sigma $$ の範囲に約95%の確率で値が含まれます。
各予測点において得られるこの予測分布に基づき、95%予測区間を $$ \mu \pm 1.96\sigma $$ として定義することができます。
なお、GPRの予測対象には、ノイズを含まない真の「関数値 $$ f(x) $$」と、観測ノイズを含む「観測値 $$ y(x) $$」の2種類があります。実務的には、次に実験したときに得られる値を予測することが多いため、本記事では後者の観測値に対する予測分布を前提とします。ここでの標準偏差 $$ \sigma $$ は、観測ノイズを含む予測分布の分散に基づくものです。
つまり上記の式は、「観測データを条件としたときの予測分布に基づき、未知の入力点における新たな観測値がこの範囲に入る確率が約95%である」ことを意味します。
GPRが捉える不確実性
次にGPRにおいて、不確実性をどのように考慮するかを、例を用いて説明します。例として、目的変数を$$ y $$、説明変数を$$ x $$、真の関数を$$ y=x\sin(2x) $$ とします。また、データ点が7点得られていると仮定します。この状況を可視化したものが図4になります。横軸が$$ x $$、縦軸が $$ y $$ であり、真の関数が黒の実線、データ点が赤の点です。
図4. 真の関数とデータ点
この状況でGPRモデルを構築し、併せて可視化すると図5になります。予測平均値が青の実線、95%予測区間が青の領域です。
図5. GPRモデル
図6に、ある $$ x $$ が0.5付近における新たな観測値の予測分布をオレンジ色のガウス分布で詳細に示します。
図6. xが0.5付近のyの出力の詳細
モデルの仮定(後述するカーネルの選択やノイズ設定)が対象の現象に対して適切であるという前提のもとで、GPRの予測区間には一般に以下のような特徴があります。図5をベースに95%予測区間の広さを分類した図7を用いて説明します。
図7. 予測区間の分類
- 95%予測区間が狭い領域(図7の①):すでに観測データが豊富にある領域です。データによって関数の形が制限されるため、不確実性が低く、予測のブレが小さくなります。真の関数と予測平均値の乖離も小さくなる傾向があります。
- 95%予測区間が広い領域(図7の②):観測データが存在しない、あるいは少ない領域です。不確実性が高く、真の関数と予測平均値の乖離が大きくなりやすいです。
GPRが提示する不確実性は測定機器のエラーだけではなく、「データが不足しているために、真の関数がどのような形状をしているか特定しきれない」という「関数の構造的な不確実性」を表現しています。未知の領域では様々な関数の形が想定しうるため予測区間が広がり、データが得られると関数の形が絞り込まれて予測区間が狭くなります。
非線形な現象の予測
材料開発において、熱伝導率や誘電特性など、目的となる特性が入力パラメータに対して非線形な性質を示すことがよくあります。そのため、これらの複雑な現象を柔軟に表現できる回帰モデルが求められます。
本章では、GPRがどのような非線形な回帰モデルかについて概要を説明します。
GPRでは、入力空間上の関数に対してガウス過程という確率分布を仮定し、その共分散構造をカーネル関数によって定義します。カーネル関数は、2つの入力点の「類似度」を表す関数であり、この類似度に基づいて関数の滑らかさや変動の特徴が決まります。そのため、対象のデータ構造に対して適切なカーネルを選択することで、複雑な非線形な関係を自然かつ高精度に表現することができます。
一方で、GPRは学習時に共分散行列の逆行列計算を必要とするため、計算量は一般にデータ数 $$ n $$ に対して $$ \mathcal{O}(n^3) $$ と大きくなり、数万点規模の大規模データに適用する際には注意や工夫が必要です。
本章の説明のために用いる目的変数を式(2)の $$ \boldsymbol{y} $$、説明変数を式(3)の $$ \boldsymbol{x} $$ とします。式(2)と式(3)より、データ点数は $$ n $$ 点、説明変数の種類は $$ m $$ 次元です。
$$ \boldsymbol{y} = \begin{pmatrix} y_1 \\ y_2 \\ \vdots \\ y_n \end{pmatrix} \quad \text{--- (2)} $$
$$ \boldsymbol{x} = \begin{pmatrix} \boldsymbol{x_1} \\ \boldsymbol{x_2} \\ \vdots \\ \boldsymbol{x_n} \end{pmatrix} = \begin{pmatrix} x_{11} & x_{12} & \cdots & x_{1m} \\ x_{21} & x_{22} & \cdots & x_{2m} \\ \vdots & \vdots & \ddots & \vdots \\ x_{n1} & x_{n2} & \cdots & x_{nm} \end{pmatrix} \quad \text{--- (3)} $$
GPRでは、背後にある潜在関数の値が多変量ガウス分布に従うと仮定し、観測値にはさらに独立なガウスノイズが加わると考えます。この仮定に基づき、観測値 $$ \boldsymbol{y} $$ の分布は式(4)で表されます。ここで $$ \boldsymbol{\mu} $$ は平均ベクトル、$$ \boldsymbol{K} $$はデータ点間の類似度を表す共分散行列、$$ \sigma_n^2 $$は観測ノイズの分散、$$ \boldsymbol{I} $$は単位行列です。
$$ \boldsymbol{y} \sim \mathcal{N}(\boldsymbol{\mu},\, \boldsymbol{K} + \sigma_n^2 \boldsymbol{I}) \quad \text{--- (4)} $$
式(4)の共分散行列 $$ \boldsymbol{K} $$ は式(5)で構成されます。$$ \boldsymbol{K} $$ は $$ n \times n $$行列で、各要素が各データ間のカーネル関数$$ k $$で計算される値で表されます。
$$ \boldsymbol{K}_{i,j} = k(\boldsymbol{x_i},\boldsymbol{x_j}) \quad \text{--- (5)} $$
カーネル関数には様々な種類がありますが、非線形な関係を滑らかに捉えるためによく用いられるのが Radial Basis Function (RBF) カーネルであり、式(6)で表されます。
$$ k(\boldsymbol{x_i}, \boldsymbol{x_j}) = \sigma_f^2 \exp\!\left(-\frac{\|\boldsymbol{x_i} - \boldsymbol{x_j}\|^2}{2l^2}\right) \quad \text{--- (6)} $$
ここで、$$ \|\boldsymbol{x_i} - \boldsymbol{x_j}\|^2 $$はデータ点間のユークリッド距離の二乗を表し、$$ l $$は影響の及ぶ範囲を決める length scale(長さスケール)パラメータ、$$ \sigma_f^2 $$は出力のばらつきの大きさを表す信号分散パラメータです。
このようにGPRは、カーネル関数を用いてデータの共分散構造を定義することにより、非線形な現象に対しても高い表現力を持つ回帰モデルを構築します。
GPRを活用した材料設計の事例
最後に、酸化タンニン酸コロイド粒子の設計にGPRを活用した例を示します。本事例では、粒子の形態を表す量を目的変数、コロイド懸濁液の処理条件 (pHやpKa) を説明変数としました。GPRを用いてこれらの関係をモデル化し、約20点の実験で有用な予測モデルを構築しました。
図8は、pHとpKaに対する予測平均値(y)を可視化した結果を示しています。(a)はデータが10点の場合、(b)は、(a)の予測結果を基に新たに実験データを7点追加した、データ数が17個の場合の結果です。紫色の丸は実験点を表します。一方、図9は予測標準偏差(Δy)を可視化したものです。
図8. pHとpKaに対する予測平均値(y)の可視化
(Credit:S. A. Jin, T. Kämäräinen, P. Rinke, O. J. Rojas, and M. Todorović, MRS BULLETIN, 47 (2022). https://link.springer.com/article/10.1557/s43577-021-00183-4 (CC BY 4.0))
図9. pHとpKaに対する予測標準偏差(Δy)の可視化
(Credit:S. A. Jin, T. Kämäräinen, P. Rinke, O. J. Rojas, and M. Todorović, MRS BULLETIN, 47 (2022). https://link.springer.com/article/10.1557/s43577-021-00183-4 (CC BY 4.0))
文献中の図が示す通り、初期の10点のデータを用いた予測である図8(a)および図9(a)では、データが存在しない未探索領域(7<pH<9および9<pKa<10)で予測標準偏差が大きく、不確実性が高いことが確認できます。そこから不確実性が高い領域を中心に新たに実験データを7点追加すると、図8(b)および図9(b)のように対象領域の標準偏差が小さくなり、予測の精度が向上する様子が示されています。
このように、データが存在しない領域は標準偏差が大きくなりやすく、逆にデータが追加されることで関数の不確実性が軽減されることが視覚的にも確認できます。本事例では、GPRを活用することで不確実性を推定しながら未探索領域を明確化でき、少ない実験数で効率的に実験空間を探索し、所望の粒子形態を得るための最適条件を特定する方法を提案しています(これはベイズ最適化の基礎となる考え方です)。
まとめ
本記事では、ガウス過程回帰(GPR)の特徴と具体的な応用事例について解説しました。GPRは、観測データを条件として未知の関数全体にガウス分布を仮定することで、関数の構造的な不確実性を考慮した予測区間の算出が可能です。また、カーネル関数によって共分散構造を定義することで、材料の非線形な現象を自然かつ柔軟に表現できる回帰手法です。
酸化タンニン酸コロイド粒子の設計にGPRを活用する事例を通じて、対象とする系において、少ないデータ数でも有用な予測モデルを構築し、効率的に未探索領域を明確化できることが示されました。
この記事が、皆様の日々のMI解析や効率的な材料探索において少しでもお役に立てれば幸いです。
参考文献
- Rasmussen, C. E., & Williams, C. K. I. (2006). Gaussian Processes for Machine Learning. MIT Press. (http://www.gaussianprocess.org/gpml/)
- https://scikit-learn.org/1.5/modules/generated/sklearn.gaussian_process.kernels.RBF.html#sklearn.gaussian_process.kernels.RBF
- S. A. Jin, T. Kämäräinen, P. Rinke, O. J. Rojas, and M. Todorović, MRS BULLETIN, 47 (2022). https://link.springer.com/article/10.1557/s43577-021-00183-4


















