2026.04.13

マテリアルズインフォマティクスで用いられるガウス過程回帰入門

本記事では、マテリアルズインフォマティクス（MI）において重要な役割を果たすガウス過程回帰（GPR）について解説します。特に、少量データ下での予測において鍵となる「不確実性の定量化」と「非線形現象の表現力」に焦点を当てます。GPRは未知の関数に確率分布を与えることで、予測値とその信頼性を同時に扱う枠組みです。本記事ではその理論的背景とともに、材料設計への応用事例を通じて、MIにおける実践的な価値を示します。

大学にて有機合成の研究、大学院にて量子化学計算と機械学習を用いた有機合成の実験条件最適化の研究を行う。その後、数値シミュレーションの会社にて、ソフトウェア開発に従事。MI-6では主に、実験条件最適化ソフトウェアであるmiHub®を通じて、材料に関する幅広いテーマでユーザーの解析をサポートしている。

ガウス過程による不確実性の定量化
非線形な現象の予測
GPRを活用した材料設計の事例
まとめ
参考文献

マテリアルズインフォマティクス（Materials Informatics; MI）では、材料特性の予測や新規材料の探索に、様々な機械学習手法が活用されています。2024年のノーベル物理学賞・化学賞の受賞テーマとなったニューラルネットワークも、MIで広く使われる手法の一つです。

ニューラルネットワークは膨大なデータからパターンを学習し、特に複雑な材料挙動を予測する場面で力を発揮します。MIでは、ニューラルネットワーク以外にも活躍する機械学習手法が数多く存在します。中でもガウス過程回帰（Gaussian Process Regression; GPR）は、材料特性の予測や新規材料の探索において特に有用な手法として知られています。本記事ではGPRの特徴である、1.不確実性の定量化、2. 非線形な現象の予測について解説します。まず、GPRの理論的な背景を数式を交えながら説明し、その特徴を明らかにします。そして、3. GPRを用いた具体的な材料設計の事例を紹介します。

ガウス過程による不確実性の定量化

材料開発における予測の課題と信頼性の重要性

機械学習による予測というと、数万点以上の大規模データを用いた予測をイメージされる方もいるかもしれません。しかし材料開発の現場では、実験コストや時間の制約からデータ量が限られているケースが少なくありません。このような状況下では、限られた少数データを有効活用して未知の実験結果を予測することが求められます。その際、予測の信頼性を定量化することは、予測結果の解釈や実験計画の意思決定などの幅広い場面において重要な役割を果たします。

GPR（ガウス過程回帰）と区間推定

未知の量を推定する方法には、点推定と区間推定の2種類があります。点推定は、単一の値を推定する方法であり、不確実性を考慮しない推定値を提供します（図1）。一方、区間推定は、推定値に幅を持たせることで予測の不確実性を考慮した推定方法です。

点推定と区間推定の概念図。点推定は単一の予測値のみを与えるのに対し、区間推定は予測のばらつきを含めて不確実性を表現できる。

図1. 点推定と区間推定

GPRは、区間推定を可能にする確率論的な手法であり、限られたデータを有効に活用するための強力なアプローチです。

ガウス分布

GPRがどのように区間推定を行うのかを説明するために、まずガウス分布 (正規分布) について説明します。ガウス分布は、自然現象や社会現象においてよく観測される確率分布であり、次の式(1)で表されます。この分布は、平均μと標準偏差σをパラメータとしたxの関数です。特にμ=0とσ=1のガウス分布N(0, 1)は、標準正規分布と呼ばれます。

GPRがどのように不確実性を定量化するのかを理解するために、まずベースとなるガウス分布 (正規分布) について説明します。ガウス分布は自然現象においてよく観測される確率分布であり、確率密度関数は式(1)で表されます。ここで、$$ p(x \mid \mu, \sigma^2) $$ は「$$ x $$ がこの値を取る確率密度」を表し、平均$$ \mu $$と標準偏差$$ \sigma $$が分布の形状を決定します。特に$$ \mu=0 $$と$$ \sigma=1 $$のガウス分布 $$ \mathcal{N}(0, 1) $$ は、標準正規分布と呼ばれます。

$$ p(x \mid \mu, \sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}}\exp\!\left(-\frac{(x-\mu)^2}{2\sigma^2}\right) \quad \text{--- (1)} $$

$$ \mathcal{N}(0, 1) $$ のガウス分布を図2に示します。横軸がxで縦軸が確率密度を表しています。図2のようにガウス分布は釣り鐘型で、左右対称の形状をしており、平均値 $$ \mu $$ の値が最も現れる確率が高く、平均値 $$ \mu $$ から離れる程その確率が低くなります。

ガウス分布（正規分布）の形状。平均値を中心に左右対称の釣り鐘型を示し、平均から離れるほど確率密度が低下する。

図2. ガウス分布

ガウス分布は、特定の範囲に値が含まれる確率を数学的に計算することができます。例えば、確率変数が平均値 $$ \mu $$ を中心として、

$$ \mu \pm 1\sigma $$ の範囲に含まれる確率は約68.3%
$$ \mu \pm 2\sigma $$ の範囲に含まれる確率は約95.4%
$$ \mu \pm 3\sigma $$ の範囲に含まれる確率は約99.7%

となる性質があります。図3にこれらの範囲を示します。各色の領域が、それぞれ対応する確率範囲を表しています。

ガウス分布における区間と確率の関係。平均値を中心とした±1σ、±2σ、±3σの範囲に、それぞれ約68%、95%、99.7%の確率で値が含まれる。

図3. ガウス分布における範囲とその確率

GPRにおける予測分布

GPRの大きな特徴は、個々のデータ点の値だけでなく、未知の関数全体に対して確率分布を仮定している点にあります。数学的には、任意の有限個の入力点における関数値が多変量正規分布に従うような確率過程として定義されます。

GPRでは、未知のデータ点に対する予測は単一の値ではなく、予測分布として与えられます。この予測分布はガウス分布となるため、平均値 $$ \mu $$ と標準偏差 $$ \sigma $$ によってその不確実性を表現することができます。ガウス分布の性質により、$$ \mu \pm 1.96\sigma $$ の範囲に約95%の確率で値が含まれます。

各予測点において得られるこの予測分布に基づき、95％予測区間を $$ \mu \pm 1.96\sigma $$ として定義することができます。

なお、GPRの予測対象には、ノイズを含まない真の「関数値 $$ f(x) $$」と、観測ノイズを含む「観測値 $$ y(x) $$」の2種類があります。実務的には、次に実験したときに得られる値を予測することが多いため、本記事では後者の観測値に対する予測分布を前提とします。ここでの標準偏差 $$ \sigma $$ は、観測ノイズを含む予測分布の分散に基づくものです。

つまり上記の式は、「観測データを条件としたときの予測分布に基づき、未知の入力点における新たな観測値がこの範囲に入る確率が約95%である」ことを意味します。

GPRが捉える不確実性

次にGPRにおいて、不確実性をどのように考慮するかを、例を用いて説明します。例として、目的変数を$$ y $$、説明変数を$$ x $$、真の関数を $$ f(x)=x\sin(2x) $$ とします。ここでは説明を簡単にするため、観測ノイズはゼロとし、観測値は真の関数と一致するものとします（ $$ y=f(x) $$ ）。また、データ点が7点得られていると仮定します。この状況を可視化したものが図4になります。横軸が$$ x $$、縦軸が $$ y $$ であり、真の関数が黒の実線、データ点が赤の点です。

真の関数と観測データの関係。限られたデータ点から未知の関数を推定する状況を示しており、材料開発における典型的なデータ不足の問題を表している。

図4. 真の関数とデータ点

この状況でGPRモデルを構築し、併せて可視化すると図5になります。予測平均値が青の実線、95%予測区間が青の領域です。

GPR（ガウス過程回帰）による予測結果の例。予測平均と95%予測区間を示しており、データが存在する領域では区間が狭く、未観測領域では広がる様子が確認できる。

図5. GPRモデル

図6に、ある $$ x $$ が0.5付近における新たな観測値の予測分布をオレンジ色のガウス分布で詳細に示します。

特定の入力点における予測分布の詳細。GPR（ガウス過程回帰）は各点においてガウス分布として予測を与え、その分散が不確実性の大きさを表す。

図6. xが0.5付近のyの出力の詳細

モデルの仮定（後述するカーネルの選択やノイズ設定）が対象の現象に対して適切であるという前提のもとで、GPRの予測区間には一般に以下のような特徴があります。図5をベースに95%予測区間の広さを分類した図7を用いて説明します。

ガウス過程の予測区間の広さによる領域分類。データが豊富な領域では不確実性が低く区間が狭くなる一方、データが不足する領域では関数の不確実性が増大し区間が広がる。

図7. 予測区間の分類

95%予測区間が狭い領域（図7の①）：すでに観測データが豊富にある領域です。データによって関数の形が制限されるため、不確実性が低く、予測のブレが小さくなります。真の関数と予測平均値の乖離も小さくなる傾向があります。
95%予測区間が広い領域（図7の②）：観測データが存在しない、あるいは少ない領域です。不確実性が高く、真の関数と予測平均値の乖離が大きくなりやすいです。

GPRが提示する不確実性は測定機器のエラーだけではなく、「データが不足しているために、真の関数がどのような形状をしているか特定しきれない」という「関数の構造的な不確実性」を表現しています。未知の領域では様々な関数の形が想定しうるため予測区間が広がり、データが得られると関数の形が絞り込まれて予測区間が狭くなります。

非線形な現象の予測

材料開発において、熱伝導率や誘電特性など、目的となる特性が入力パラメータに対して非線形な性質を示すことがよくあります。そのため、これらの複雑な現象を柔軟に表現できる回帰モデルが求められます。

回帰モデルについて詳しく知る

本章では、GPRがどのような非線形な回帰モデルかについて概要を説明します。

GPRでは、入力空間上の関数に対してガウス過程という確率分布を仮定し、その共分散構造をカーネル関数によって定義します。カーネル関数は、2つの入力点の「類似度」を表す関数であり、この類似度に基づいて関数の滑らかさや変動の特徴が決まります。そのため、対象のデータ構造に対して適切なカーネルを選択することで、複雑な非線形な関係を自然かつ高精度に表現することができます。

一方で、GPRは学習時に共分散行列の逆行列計算を必要とするため、計算量は一般にデータ数 $$ n $$ に対して $$ \mathcal{O}(n^3) $$ と大きくなり、数万点規模の大規模データに適用する際には注意や工夫が必要です。

本章の説明のために用いる目的変数を式(2)の $$ \boldsymbol{y} $$、説明変数を式(3)の $$ \boldsymbol{x} $$ とします。式(2)と式(3)より、データ点数は $$ n $$ 点、説明変数の種類は $$ m $$ 次元です。

$$ \boldsymbol{y} = \begin{pmatrix} y_1 \\ y_2 \\ \vdots \\ y_n \end{pmatrix} \quad \text{--- (2)} $$

$$ \boldsymbol{x} = \begin{pmatrix} \boldsymbol{x_1} \\ \boldsymbol{x_2} \\ \vdots \\ \boldsymbol{x_n} \end{pmatrix} = \begin{pmatrix} x_{11} & x_{12} & \cdots & x_{1m} \\ x_{21} & x_{22} & \cdots & x_{2m} \\ \vdots & \vdots & \ddots & \vdots \\ x_{n1} & x_{n2} & \cdots & x_{nm} \end{pmatrix} \quad \text{--- (3)} $$

GPRでは、背後にある潜在関数の値が多変量ガウス分布に従うと仮定し、観測値にはさらに独立なガウスノイズが加わると考えます。この仮定に基づき、観測値 $$ \boldsymbol{y} $$ の分布は式(4)で表されます。ここで $$ \boldsymbol{\mu} $$ は平均ベクトル、$$ \boldsymbol{K} $$はデータ点間の類似度を表す共分散行列、$$ \sigma_n^2 $$は観測ノイズの分散、$$ \boldsymbol{I} $$は単位行列です。

$$ \boldsymbol{y} \sim \mathcal{N}(\boldsymbol{\mu},\, \boldsymbol{K} + \sigma_n^2 \boldsymbol{I}) \quad \text{--- (4)} $$

式(4)の共分散行列 $$ \boldsymbol{K} $$ は式(5)で構成されます。$$ \boldsymbol{K} $$ は $$ n \times n $$行列で、各要素が各データ間のカーネル関数$$ k $$で計算される値で表されます。

$$ \boldsymbol{K}_{i,j} = k(\boldsymbol{x_i},\boldsymbol{x_j}) \quad \text{--- (5)} $$

カーネル関数には様々な種類がありますが、非線形な関係を滑らかに捉えるためによく用いられるのが Radial Basis Function (RBF) カーネルであり、式(6)で表されます。

$$ k(\boldsymbol{x_i}, \boldsymbol{x_j}) = \sigma_f^2 \exp\!\left(-\frac{\|\boldsymbol{x_i} - \boldsymbol{x_j}\|^2}{2l^2}\right) \quad \text{--- (6)} $$

ここで、$$ \|\boldsymbol{x_i} - \boldsymbol{x_j}\|^2 $$はデータ点間のユークリッド距離の二乗を表し、$$ l $$は影響の及ぶ範囲を決める length scale（長さスケール）パラメータ、$$ \sigma_f^2 $$は出力のばらつきの大きさを表す信号分散パラメータです。

このようにGPRは、カーネル関数を用いてデータの共分散構造を定義することにより、非線形な現象に対しても高い表現力を持つ回帰モデルを構築します。

GPRを活用した材料設計の事例

最後に、酸化タンニン酸コロイド粒子の設計にGPRを活用した例を示します。本事例では、粒子の形態を表す量を目的変数、コロイド懸濁液の処理条件 (pHやpKa) を説明変数としました。GPRを用いてこれらの関係をモデル化し、約20点の実験で有用な予測モデルを構築しました。

図8は、pHとpKaに対する予測平均値(y)を可視化した結果を示しています。(a)はデータが10点の場合、(b)は、(a)の予測結果を基に新たに実験データを7点追加した、データ数が17個の場合の結果です。紫色の丸は実験点を表します。一方、図9は予測標準偏差(Δy)を可視化したものです。

マテリアルズインフォマティクスにおけるGPRの予測平均の可視化。pHとpKaに対する応答を示しており、データ点の追加に伴い予測面が洗練され、材料特性の関係構造が明確化されていく様子が確認できる。

図8. pHとpKaに対する予測平均値(y)の可視化
(Credit：S. A. Jin, T. Kämäräinen, P. Rinke, O. J. Rojas, and M. Todorović, MRS BULLETIN, 47 (2022). https://link.springer.com/article/10.1557/s43577-021-00183-4 (CC BY 4.0))

マテリアルズインフォマティクスにおけるGPRの予測不確実性（標準偏差）の可視化。未観測領域で不確実性が高く、データ追加により低減する様子から、効率的な材料探索における意思決定指針として機能することが示される。

図9. pHとpKaに対する予測標準偏差(Δy)の可視化
(Credit：S. A. Jin, T. Kämäräinen, P. Rinke, O. J. Rojas, and M. Todorović, MRS BULLETIN, 47 (2022). https://link.springer.com/article/10.1557/s43577-021-00183-4 (CC BY 4.0))

文献中の図が示す通り、初期の10点のデータを用いた予測である図8(a)および図9(a)では、データが存在しない未探索領域（7<pH<9および9<pKa<10）で予測標準偏差が大きく、不確実性が高いことが確認できます。そこから不確実性が高い領域を中心に新たに実験データを7点追加すると、図8(b)および図9(b)のように対象領域の標準偏差が小さくなり、予測の精度が向上する様子が示されています。

このように、データが存在しない領域は標準偏差が大きくなりやすく、逆にデータが追加されることで関数の不確実性が軽減されることが視覚的にも確認できます。本事例では、GPRを活用することで不確実性を推定しながら未探索領域を明確化でき、少ない実験数で効率的に実験空間を探索し、所望の粒子形態を得るための最適条件を特定する方法を提案しています（これはベイズ最適化の基礎となる考え方です）。

まとめ

本記事では、ガウス過程回帰（GPR）の特徴と具体的な応用事例について解説しました。GPRは、観測データを条件として未知の関数全体にガウス分布を仮定することで、関数の構造的な不確実性を考慮した予測区間の算出が可能です。また、カーネル関数によって共分散構造を定義することで、材料の非線形な現象を自然かつ柔軟に表現できる回帰手法です。

酸化タンニン酸コロイド粒子の設計にGPRを活用する事例を通じて、対象とする系において、少ないデータ数でも有用な予測モデルを構築し、効率的に未探索領域を明確化できることが示されました。

この記事が、皆様の日々のMI解析や効率的な材料探索において少しでもお役に立てれば幸いです。

参考文献

Rasmussen, C. E., & Williams, C. K. I. (2006). Gaussian Processes for Machine Learning. MIT Press. (http://www.gaussianprocess.org/gpml/)
https://scikit-learn.org/1.5/modules/generated/sklearn.gaussian_process.kernels.RBF.html#sklearn.gaussian_process.kernels.RBF
S. A. Jin, T. Kämäräinen, P. Rinke, O. J. Rojas, and M. Todorović, MRS BULLETIN, 47 (2022). https://link.springer.com/article/10.1557/s43577-021-00183-4

あわせて読みたい

2026.04.01

勾配ブースティング決定木（GBDT）による回帰タスク

記事一覧へ戻る

いずれ、世の中の素になる知恵。

マテリアルズインフォマティクスで用いられるガウス過程回帰入門