物性値を活用した配合最適化〜モデルの予測精度と解釈性を向上させる特徴量エンジニアリングとは〜

シェア

前川原 大貴さんのプロフィール写真

前川原 大貴

Hiroki Maekawara

MI-6株式会社カスタマーサクセスデータサイエンティスト

大学にて有機合成の研究、大学院にて量子化学計算と機械学習を用いた有機合成の実験条件最適化の研究を行う。その後、数値シミュレーションの会社にて、ソフトウェア開発に従事。MI-6では主に、実験条件最適化ソフトウェアであるmiHub®を通じて、材料に関する幅広いテーマでユーザーの解析をサポートしている。

はじめに

配合開発の現場では、「どの原料を、どれくらいの比率で組み合わせるか」という無数の選択肢の中から、目的の性能を満たす最適解を見つけ出す必要があります。検討すべき原料候補が多岐にわたる一方で、実施できる実験の回数には限りがあるため、この探索は非常に困難なものになりがちです。

こうした状況に対し、回帰モデルやベイズ最適化といった機械学習は、効率的な開発を支援する強力なツールとして期待されています。しかし、実際にこれらの手法を活用しようとすると、「思ったように予測精度が上がらない」「モデルがブラックボックス化してしまい、次の実験に繋がる具体的なヒントが得にくい」といった壁に直面することも少なくありません。

実は、こうした課題を乗り越える鍵は、高度なアルゴリズムの選択や調整よりも、モデルに与える「特徴量(説明変数)」の作り方にあることが多々あります。この、特徴量の設計に工夫を施すプロセスが「特徴量エンジニアリング」です。

特徴量エンジニアリングでは、配合比率などの生データを、研究者が持つ専門知識(ドメイン知識)を活かした設計や、標準化・対数変換といった数値処理によって、より本質的で意味のある情報へと変換します。本稿ではその中でも、特徴量に物性値を組み込むことで、モデルの予測精度や解釈性(予測の理由や予測に寄与した因子を説明できること)を大きく向上させる手法を解説します。この手法を用いることで、「最終的な性能に、どの物性値が効いているのか」といった、次のアクションに繋がる有益なヒントを得られるようになります。

特徴量に原料名だけを使用する問題点と、物性値を組み込むメリット

モデルの予測精度や解釈性の向上

実験データは、多くの場合「原料Aを10%、原料Bを40%、原料Cを50%…」という形式の配合表として記録されています。この形式は人間にとって直感的ですが、このような特徴量(「原料名ベースの特徴量」)をそのまま機械学習モデルに与えると、重要な洞察を得にくいという課題があります。

例えば、モデルが「原料Bの配合比率が重要だ」という結果を示したとしても、その理由までは分かりません。なぜなら、機械学習モデルにとって「原料B」という名前は、意味を持たない単なる識別ラベルに過ぎないからです。これでは、なぜ原料Bが性能に寄与するのか、代替可能な他の原料は存在するのか、といった次のアクションに繋がる深い理解を得ることができません。原料を化学構造に分解して特徴量化する方法もありますが、原料ごとに詳細構造が不明な場合も多く、また、得られた部分構造がどのように機能特性に寄与するかを解釈することも容易ではありません。

そこで重要になるのが、各原料が持つ「物性値」、例えば密度、粘度、ガラス転移温度(Tg)といった物理化学的な情報に注目するという考え方です。これらの数値は、単なるラベルとは異なり、材料の性能や特性と直接結びつく汎用的な定量指標です。この物性値を組み込むことで、物理的な意味を持つ、より有益な特徴量を作成することができます。

本記事ではこのような、物性値を用いて算出される特徴量を「物性値ベースの特徴量」と表現します。物性値ベースの特徴量の例は以下の通りです。

(例)

  • 配合物全体の「加重平均密度」(各原料の密度の加重平均)
  • 使用した原料中での「最大の融点」
  • 原料間の「屈折率のばらつき(分散)」

このような物性値ベースの特徴量をモデルに与えることで、単に予測精度が向上するだけではなく、「配合物全体の平均粘度が高いほど、目標とする特性が向上する」といった、人間が解釈しやすい情報に変換することができます。

未知原料を含む場合の予測性能が向上

物性値ベースの特徴量への変換には、予測精度や解釈性の向上に加え、もう一つ極めて重要なメリットがあります。それは、学習データに存在しなかった「未知の原料」を含む配合でも予測が可能になる点です。

原料名をそのまま特徴量として使う従来の方法では、学習時に一度も登場しなかった新しい原料が出てくると、モデルはどう扱ってよいか分からず、予測ができません。

しかし、物性値ベースの手法であれば、たとえ初めて使う原料であっても、その物性値(Tgや密度など)さえ分かっていれば、加重平均などの変換を適用してモデルが理解できる特徴量を作成できます。

例えば、「新しく検討したいエマルションFは、Tgが64℃、粒径が150nmである」という情報があれば、それを既存のモデルに入力して、配合した場合の性能を予測できます。このように、モデルが学習データの範囲を超えて予測する能力を高め、新規材料の探索を強力に後押ししてくれる点が、この手法の最大の強みです。

「物性値ベースの特徴量」を設計する具体的な2ステップ

物性値ベースの特徴量の設計は、大きく2つのステップに分かれます。

ステップ1:物性テーブルの整備

これは、データ活用の土台となる「原料の辞書」(物性テーブル)を作るステップです。お使いの各原料(例:ポリマーA、溶剤B、添加剤C…)が持つ物理的・化学的な特性(物性値)を一覧表に整理します。

このテーブルは、日々の実験で記録する配合表とは別に作成し、一元的に管理するのがポイントです。記録する物性値の例を以下に箇条書きで示し、実際の物性テーブルの例を表1に示します。

  • Tg(ガラス転移温度)
  • 密度
  • 融点
  • 粘度
  • 誘電率
  • 粒子径

表1. 物性テーブルの例

物性値

Resin-A

Resin-B

Resin-C

Resin-D

Resin-E

粘度 (mPa·s)

30000

20000

45000

1500

80000

ガラス転移点 (Tg, °C)

180

150

90

120

140

密度 (g/cm³)

1.20

1.18

1.15

1.16

1.17

ステップ2:各配合レシピを物性値ベースの特徴量に変換

物性テーブルが準備できたら、次はいよいよ配合表に記載されている各配合レシピのデータ(例:「レシピ001」は原料Aが30%、Bが70%)を、モデルが学習できる物性値ベースの特徴量へと変換していきます。

具体的には、配合表の「原料名」を元に物性テーブルからその原料の物性値を取得し、各種の変換処理を実施して、新しい特徴量を作り出します。以下に、代表的な変換手法とその利点を示します。

表2. 変換方法の詳細

変換手法

説明

使用例

効果・利点

加重平均

各原料の物性値に配合比率を掛けて平均を算出する、最も基本的な手法。

平均密度、平均Tg

配合物全体の代表的な特性を一つの数値に集約でき、情報量の多い特徴量になる。

最大値/最小値

配合に用いた原料の中で、ある物性値が最大または最小のものを採用する。

最小融点、最大粘度

全体の性能が特定の一つの原料によって律速される場合特に有効(例:最も融点が低い原料が全体の耐熱性を決める)。

分散

物性値のばらつき(分布の広がり)を算出する。

粘度のばらつき、粒径の分散

原料の多様性や均質性が性能に影響する場合に有効(例:大小様々な粒子を混ぜることが充填率向上に繋がる)。

交互作用項

2つ以上の特徴量を掛け合わせ、新しい特徴量を作成する。

平均Tg × フィラー量

特性間の相乗効果や、ある条件下でのみ現れる影響(例:フィラーが多い時だけTgが効く)をモデルに学習させられる。

配合物全体の性質を捉える際に有効な変換手法:加重平均

配合データから特徴量を作成する際、特に基本かつ強力な手法が、上記表2中の「加重平均」です。加重平均を用いることで、複数の原料が混ざり合った配合物全体として、「平均的にどのような性質を持つか」を表現できます。

計算式は以下の通りです。各原料の物性値(xi​)に、その原料が全体に占める割合(配合比率 wi​)を重みとして掛け合わせ、それらをすべて足し合わせます。

$$ \bar{x} = \sum_{i=1}^{n} w_i x_i \quad \sum_{i=1}^{n} w_i = 1 $$

この計算により、「配合物全体の平均密度」や「平均ガラス転移温度」といった、物理的な意味を持つ一つの代表値を得ることができます。

加重平均を用いるメリットは以下の通りです。

  • 直感的で解釈しやすい: 「この試作品の平均Tgは150℃だ」というように、研究者が直感的に理解できる形の特徴量となり、モデルの解釈性が高まります。
  • 密な数値表現に変換できる: 「原料A:10%、B:90%」といった配合情報の場合、使用していない原料の配合比率が「0%」(データなし)と記録されるため、ほとんどの成分についてデータがない「疎(sparse)」な情報になりがちです。これを加重平均によって「平均〇〇」という「密(dense)」な数値に変換することで、機械学習モデルがパターンを学習しやすくなります。これは、ほとんどの成分が0%である「スカスカ」なデータよりも、配合物の性質を表す意味のある数値で表現されたデータの方が、モデルが傾向を効率的に掴めるためです。

【事例】物性値の加重平均を活用した樹脂の熱変形温度予測

続いて、加重平均で作成した物性値ベースの特徴量が、実際のデータに対してどのような利点をもたらすのかを、樹脂の特性予測を例に具体的に見ていきましょう。本事例では、公開されている樹脂の物性データを参考に、記事のテーマを説明するために作成した架空の配合データセットを用います。

ここで比較・確認するポイントは、これまでにも触れてきた2つの側面です。

  1. モデルの解釈性:得られる知見は、次のアクション(仮説立案や実験計画の策定など)に繋がる洞察を含んでいるか?
  2. 未知原料への予測精度:学習していない新しい材料にも対応できるか?

データ概要と実験設定

10種類の樹脂(Resin-A〜J)を様々な比率で配合した際の、HDT(熱変形温度)を予測するタスクを考えます。特徴量設計とモデル構築、モデルの評価に使用するデータは以下の通りです。

  • 学習データ: 35種類の配合データ(Resin-A〜Iを使用)
  • テストデータ(モデル評価用のデータ): 6種類の配合データ(学習データには含まれない未知原料Resin-Jを含む)
  • 樹脂の物性データ: 各樹脂の「粘度」「ガラス転移点(Tg)」「曲げ弾性率」「曲げ強さ」「密度」の5種類

この実験のポイントは、学習データに一切登場しない未知の「Resin-J」がテストデータに含まれている点です。この状況で、以下の2つのアプローチでモデルを構築し、その結果を比較します。

  • モデル1(原料名ベース):各樹脂の配合比率を、そのまま特徴量として使用。
  • モデル2(物性値ベース):各樹脂の物性値を配合比率で加重平均し、特徴量として使用。

結果1:モデルの解釈性の向上

まず、物性値ベースのモデルがどのように解釈性を高めるかを見ていきましょう。 ここでは、多くの特徴量の中から予測に特に重要なものを自動的に選択する機能を持つ「Lasso回帰」というモデルを使い、学習データを用いてHDTを予測するモデルを構築し、それぞれの特徴量が予測にどれだけ重要であったかを示す「特徴量重要度(Importance)」を算出しました。

図1. HDT予測モデルにおける特徴量重要度:左 = モデル1(原料名ベース)、右 = モデル2(物性値ベース)

左のモデル1が示すのは、「Resin-Fの比率を増やすとHDTが上がり、Resin-Cの比率を増やすと下がる傾向がある」という相関関係です。これはこれで一つの情報ですが、なぜそうなるのかという物理的な理由までは説明してくれません。

一方、右のモデル2(物性値ベース)は、HDTの予測において「曲げ弾性率」の加重平均が重要であると示唆しています。これは、「弾性率や密度が高い材料ほど、熱変形しにくい」という、研究者が持つ専門的知見(ドメイン知識)と一致する、より本質的な情報です。

このように、物性値ベースの特徴量を用いることで、モデルは「どの原料が影響するか」という情報に留まらず、「どの物性がターゲット特性に影響するか」という、より普遍的で理解しやすい洞察を与えてくれます。これにより、「HDTを向上させたいなら、次は弾性率が高い原料を探そう」といった、具体的で合理的な次のアクションに繋げやすくなります。

結果2:未知原料への対応と予測精度の向上

次に、物性値ベースのモデルが持つもう一つの重要な利点、すなわち「未知原料への対応力」を検証します。

前述の通り、今回のテストデータには学習時に一度も使われなかった「Resin-J」が含まれています。原料名をベースにしたモデルは「Resin-J」という名前を知らないため、その影響を正しく評価できず、正確な予測は困難です。一方、物性値ベースのモデルは、Resin-Jの物性値さえ分かっていれば、それを加重平均などの計算に組み込むことで予測が可能になります。

実際に両モデルでテストデータのHDTを予測し、その結果を比較したのが図2です。

図2. 未知原料を含むテストデータに対する予測誤差の比較

まず、オレンジ色の四角で示された物性値なし(原料名ベース)のモデルは、点が理想線から大きく外れており、凡例の決定係数(R2)も-0.43という値になっています。決定係数がマイナスになるということは、モデルの予測が、単純に全データの平均値を予測するよりも劣っていることを意味します。つまり、このモデルは未知原料「Resin-J」に対して、予測モデルとして機能していない状態にあると言えます。

一方、青色のバツ印で示された物性値ありのモデルでは、R2は0.50と明確な正の相関を示し、RMSE(予測誤差の指標)も24.28から14.42へと大幅に改善しています。

この結果の差は、物性値を用いることで、モデルが「Resin-J」という未知の記号ではなく、「Tgが165℃で、粘度が25000 mPa·sの材料」といった数値的な実体として原料を捉え、学習済みの関係性(Tgが高いとHDTも高くなる傾向など)を応用して予測できたことを意味します。

このように、物性値ベースの特徴量への変換は、特にデータが少ない状況や、新しい原料を次々と試していく必要がある研究開発の現場において、モデルの汎用性と実用性を飛躍的に高める不可欠なアプローチであると言えます。

*決定係数(R2):予測の当てはまりの良さを示す指標。1に近いほど良いとされ、予測が完璧な場合は1になります。
*RMSE(Root Mean Square Error):予測値と実測値の誤差の大きさを示す代表的な指標。0に近いほど予測誤差が小さいことを意味します。

おわりに

配合最適化において、どのような特徴量を使うかという選択は、単なるデータ加工の問題ではありません。それは、私たちが材料をどのような視点で理解し、設計していくかという、開発思想そのものの表れです。

この記事で一貫して解説してきた「物性値ベース」のアプローチは、「どの原料が効くか」という経験則(当て物)から、「どの物性が性能を支配するか」という物理的な本質(科学)へと視点を移行させることを意味します。

この視点の転換により、モデルは単に精度の高い予測をするだけでなく、私たち開発者が「なぜそうなるのか」を深く理解し、納得しながら次の手を考えるための、強力なヒントを与えてくれるパートナーとなります。