Read in English

網羅的なGC-MS/LC-MSデータ処理のためのXCMSパラメータ最適化(Part1)

シェア

GC-MS/LC-MS向けデータ解析ツール「XCMS」のパラメータ調整は、これまで分析者の経験と勘に頼る手作業で行われてきました。しかし、この方法では主観的な判断によるばらつきが避けられず、再現性の確保が困難です。本記事では、こうした課題を解決する体系的なアプローチとして、アイソトポログを用いたパラメータ最適化(Isotopologue Parameter Optimization, IPO)を紹介します。IPOは炭素同位体の自然存在比を利用し、実験計画法(DoE)と応答曲面法(RSM)でピーク検出、保持時間補正、グルーピングのパラメータを自動で最適化します。これにより、再現性の高いピークテーブルが得られ、後続の統計解析や化合物同定の精度が向上します。

Sivakorn Kanharattanachaiさんのプロフィール写真

Sivakorn Kanharattanachai

MI-6株式会社データサイエンティスト

ナノ材料工学の専門を持ち、テキストマイニング、深層学習、不均衡データ学習に関する専門知識を活かしてコンピュータ工学の分野へと転向。タイのチャロン・ポカパン・グループ(CP)にてデータサイエンティストを務め、時系列解析、衛星画像処理、光学式文字認識(OCR)の開発、データ自動化システムの導入などを担当。現在はMI-6にてデータサイエンティストとして、深層学習を用いた高度な特徴量抽出およびスペクトルデータ解析に取り組んでいる。

はじめに

先日の記事「先端の質量分析:GC-MSおよびLC-MSデータ処理における機械学習の応用」では、網羅的な質量分析における主な課題を解説しました。質量分析で分子を同定する際に必要となるのが、ピークテーブルです。ピークテーブルは各成分を定量・アノテーションし、その結果を解釈する上で重要な役割を果たします。

ピークテーブルの作成では、ピーク形状のばらつき、測定ごとの保持時間のずれ、ピークの重なりといった多くの問題が発生するため、正確で再現性の高いピークテーブルを作成するのは容易ではありません。特に、パラメータを手動で調整する場合、分析者によって結果がばらつき、再現性の確保が困難です。

こうした課題に対応するために広く利用されているのが、オープンソースのデータ解析ツール「XCMS」です。XCMSは、ピーク検出から保持時間補正、グルーピング、ピーク補完までの一連の処理を自動化し、再現性向上に寄与してきました。

しかし、XCMSの性能は各種パラメータの設定に大きく依存し、最適化が不十分だと精度や再現性が損なわれます。そこで本シリーズでは、GC-MS/LC-MSデータ解析にXCMSを活用する際の課題や制約、XCMSを用いて高精度かつ再現性のあるピークテーブルを得る方法を解説します。

前編となる今回は、体系的なパラメータ調整手法である「アイソトポログを用いたパラメータ最適化(Isotopologue Parameter Optimization, IPO)」を紹介します。後編では、メタヒューリスティックな探索法やAI駆動の最適化手法など、他の手法についても議論する予定です。

GC-MS/LC-MS用のデータ解析ツール「XCMS」とは

XCMSは、LC-MS向けに開発されたオープンソースのRパッケージです。現在ではGC-MSにも適用範囲を拡大しており、網羅的な質量分析のデータ処理における代表的なプラットフォームとして広く認知されています。モジュール化設計を採用しており、ピーク検出、保持時間補正、グルーピングといった一連の工程を自動化できる点が特徴です。

XCMSのピーク検出には、高分解能データの処理に適したcentWaveなどのアルゴリズムが実装されています。centWaveは連続ウェーブレット変換(CWT)を利用しており、細いピークや重なったピーク、ノイズに埋もれたピークでも高感度に検出することが可能です。一方、obiwarpなどのアルゴリズムは測定間で生じる保持時間のずれを補正し、サンプル間でのピークの対応付けを実現します。

XCMSは柔軟性が高くオープンソースであることから、メタボロミクスや環境分析、食品化学、毒性学、臨床診断などの幅広い分野で活用されています。

データ解析にXCMSを用いる際の課題

XCMSは優れたツールですが、その性能はパラメータ設定に大きく依存します。ピーク幅、S/Nしきい値、m/z許容範囲といった設定が、最終的に得られるピークテーブルの品質を大きく左右するのです。

従来、XCMSのパラメータ調整は、熟練の分析者が抽出イオンクロマトグラム(EIC)を目視で確認する方法で行われてきました。しかし、この方法には以下のような問題が存在します。

  • 主観的:結果が分析者の経験や勘に大きく左右される
  • 非効率:大規模データセットでは手動調整と検証が困難である
  • 再現性の欠如:同じ生データから異なるピークテーブルが生成され得る

パラメータ設定が不適切な場合、ピークの見逃しや偽陽性、サンプル間での保持時間のずれといった問題が発生します。そのため、手作業での試行錯誤に頼らない、体系的かつ自動化されたXCMSパラメータの最適化手法が求められているのです。

図1. XCMSでピーク検出を行うためのサンプルコード

XCMSのパラメータ設定が難しい理由

XCMSには、ピークの検出、積分、アライメントを制御する多数のメタパラメータが存在します。以下の表1は、ピーク検出、保持時間補正、グルーピングに関わる重要パラメータをまとめたものです。

表1. XCMSのピーク検出(Peak Picking)、保持時間補正(Retention Time Correction)、グルーピング(Grouping)で使用する重要パラメータ

(例)表1中のピーク検出パラメータの解説
ppmおよびmzdiff:m/zの精度とピーク分離を制御
peakwidthおよびsnthresh:ピーク検出の感度に影響
prefilterおよびnoise:偽陽性の低減と低強度ピークの見落としのトレードオフに関与

以下の図2は、ベルガモット有機エッセンシャルオイルのGC-MSサンプルを用いて、ピーク検出パラメータがピーク検出精度に与える影響を示したものです。各グラフの赤印は、専門家が手動で設定した最適値を示しています。

各グラフの結果を以下で解説します。

  • ppmを変化させた場合(図2右上)
    ppmを大きくするとm/z許容範囲が大きくなり、検出されるピーク数は増加します。ただし、大きくしすぎると偽陽性が増えやすくなります。
  • peakwidth(min)を変化させた場合(図2左下)
    peakwidth(min)はピーク幅の下限値で、大きくするとピーク数は減少します。小さすぎるとピークが過度に分割されて偽陽性が増え、大きすぎると狭いピークを見逃します。
  • snthreshを変化させた場合(図2右下)
    snthresh(S/Nしきい値)を上げるとピーク数は減少します。低すぎるとノイズを拾い、高すぎると真のピークまで除外してしまいます。

図2. XCMSパラメータ設定がGC-MSサンプルのピーク検出に与える影響

XCMSパラメータの最適化手法:アイソトポログを用いたパラメータ最適化(IPO)

XCMSは柔軟性に優れる反面、その標準化・自動化されたパラメータ選択手法は未だ確立されていません。そこで近年、決定論的な最適化フレームワークから機械学習を活用した手法まで、様々な戦略が提案されています。その一つが、本記事で紹介するIPOです。

IPOはもともと、液体クロマトグラフィー‐高分解能質量分析(LC-HRMS)のパラメータ調整を自動化するために開発されました。ノイズを最小限に抑えつつ、真のピークを高精度で検出することを主な目的としています。

IPOでは、炭素同位体(特に¹²Cと¹³C)の存在比を活用します。真のピークには必ず特定のアイソトポログパターンが伴うため、そのパターンの検出度合いに応じてパラメータの品質を評価する仕組みです。これによりピーク検出の精度が底上げされるため、結果として後段の保持時間補正やグルーピングの精度も高まります。

IPOにおける主ピークと同位体ピークの関係

大部分の有機分子は炭素を含みます。自然界に豊富に存在する¹²C(存在比約99%)のみで構成されたアイソトポログは、質量スペクトル上で最も高強度の主ピーク(Mピーク)を形成します。これが検出すべき主信号です。しかし場合によっては、ランダムなノイズが主信号のように見えてしまう場合があります。そこでIPOでは、主信号の近くに小さな「M+1ピーク」が存在するかどうかで、主信号が本物かどうかを判定します。M+1ピークは、分子内の¹²C原子のひとつが¹³C(自然存在比約1.1%)に置き換わったアイソトポログによって形成されます。

図3. 炭素同位体に関する説明

IPOでパラメータを最適化する仕組み

XCMSのパラメータ調整では、従来、分析者がEICを目視で判断していました。IPOはこの「主観的判断」を、炭素同位体に基づく客観的な指標で置き換えます。上述のとおり、真の化合物ピークには必ず¹³C由来のM+1ピークが存在するため、IPOはその存在パターンをスコア化し、パラメータ設定の良否を定量的に評価します。これにより、分析者の経験や勘に依存せず、一貫した条件選定が可能となり、再現性と効率が向上します。その具体的な仕組みを見ていきましょう。

IPOは、XCMSの3つの処理段階(ピーク検出→保持時間補正→グルーピング)のパラメータを順に最適化します。

最適化では、すべての組み合わせを試すのではなく、「少数の条件で試行→スコア算出→高スコア領域に探索を集中→最良の設定を選択」という効率と精度を両立したアプローチを採用します。ここで使用するのが、以下の実験計画法(DoE)および応答曲面法(RSM)です。

  • 実験計画法(DoE)
    DoEに基づいてパラメータ空間を代表する少数のパラメータセットを選択・試行します。これにより、パラメータ空間のどこに有望な領域があるか目星をつけることができます(図4の「Design of Experiments (DoE)」「Processing of DoE」)。
  • 応答曲面法(RSM)
    DoEで得られた結果をもとに近似的な応答曲面を構築します。この曲面は、パラメータの組み合わせ(例:peakwidthとsnthresh)を水平軸、各段階の品質スコア(PPS/RCS/GS)を垂直軸にとったものです。この応答曲面をもとに、パラメーター空間内で最適解が存在する可能性の高い領域を予測します(図4の「Response Surface Model」)。

その後、IPOは有望な領域に探索を集中させて追加の試行を実施し、応答曲面を継続的に更新します(図4の「Maximum Focusing」)。ピーク検出、保持時間補正、グルーピングの各段階で上記のプロセスを繰り返すことで、最適なパラメータセットを見つけ出します。

図4. IPOのワークフロー

各段階における最適化の流れ

  1. ピーク検出

    真のピークには、MピークとM+1ピークが必ずセットで現れます。そこでIPOでは、高強度のピークを「Mピークの候補」として検出し、予測されるm/zの位置に適切な相対強度でM+1ピークが存在するかを確認します。MピークとM+1ピークの両方が確認されれば信号が本物であると判断し、そのパラメータセットに高スコアを与えます。一方、M+1ピークが存在しない場合はノイズの可能性が高いため、そのパラメータセットは低スコアとなります。上記の手順により、IPOはピーク検出アルゴリズムcentWaveの主要パラメータ(peakwidth、ppm、snthresh、prefilter)を最適化します。試行した各パラメータの組み合わせに対してPeak Picking Score(PPS)を算出し、PPSスコアを最大化するパラメータセットを選定することで、真のピークを検出するための最適な条件を見つけ出します。

  2. 保持時間補正

    保持時間補正で使用する評価指標Retention Time Correction Score(RCS)は、複数試料間での保持時間のばらつきが小さいほど高い値となるよう定義されています。保持時間補正用のパラメータ(profStep、center、span)の組み合わせに対してRCSを算出し、最終的に、信頼性の高い保持時間補正を実現するパラメータセットを見つけ出します。

  3. グルーピング

    ピークの欠損や重複がないデータ行列(feature matrix)を構築するため、Grouping Score(GS)という評価指標を用いて、bw、mzwid、minfracといったグルーピングに関わるパラメータを評価します。GSは、QCサンプル中のピークが各グループに過不足なく割り当てられているかを反映します。GSを最大化することで、後続の解析でも問題なく使用できる、正確なデータ行列を生成できます。

まとめ

IPOは、XCMSパラメータの最適化を自動化する手法として広く知られています。炭素同位体の自然存在比を活用することで、ピーク検出、保持時間補正、グルーピングを体系的かつ再現性高く最適化できます。

以下に、改めてIPOの特徴をまとめます。

  • ラベルフリー:同位体の自然存在比を利用するため、スパイク添加は不要です。
  • 効率的:大規模なグリッド探索を回避し、効率的にパラメータを最適化します。
  • 最適な適用条件:高品質なLC-MS/GC-MSデータが適しています。
  • 注意点:データ品質が低いと同位体パターン(MピークおよびM+1ピーク)がノイズに埋もれ、IPOがうまく機能しなくなる場合があります。そのため、研究者自身がEICを目視で確認し、IPOの結果の妥当性を検証することが推奨されます。

XCMSパラメータの最適化には、IPO以外にもさまざまな手段があります。そこで本シリーズの後編では、遺伝的アルゴリズム、粒子群最適化、ベイズ最適化といったメタヒューリスティックな探索法を紹介します。これらの手法は、自然現象や確率論を元に反復探索によって最適解を求めるものです。アイソトポログ情報が十分に得られない場合や、パラメータ空間が複雑なデータセットに対しても柔軟に最適化を進めることができます。

参考文献

  1. C. Jirayupat, “Advanced Mass Spectrometry Analysis: Machine Learning Applications in GC-MS and LC-MS Data Processing”, miLab, MI-6, https://mi-6.co.jp/milab/article/t0025en/#h5828db6fc9
  2. G. Baccolo, B. Quintanilla-Casas, S. Vichi, D. Augustijn, and R. Bro, "From untargeted chemical profiling to peak tables – A fully automated AI driven approach to untargeted GC-MS", TrAC Trends in Analytical Chemistry, vol. 145, Elsevier, 2021, p. 116451, DOI: 10.1016/j.trac.2021.116451.
  3. R. Tautenhahn, G. J. Patti, D. Rinehart, and G. Siuzdak, "XCMS Online: A Web-Based Platform to Process Untargeted Metabolomic Data", Analytical Chemistry, vol. 84, no. 11, pp. 5035–5039, American Chemical Society, 2012, DOI: 10.1021/ac300698c.
  4. H. Gowda, J. Ivanisevic, C. H. Johnson, M. E. Kurczy, H. P. Benton, D. Rinehart, T. Nguyen, J. Ray, J. Kuehl, B. Arevalo, P. D. Westenskow, J. Wang, A. P. Arkin, A. M. Deutschbauer, G. J. Patti, and G. Siuzdak, "Interactive XCMS Online: Simplifying Advanced Metabolomic Data Processing and Subsequent Statistical Analyses", Analytical Chemistry, vol. 86, no. 14, pp. 6931–6939, American Chemical Society, 2014, DOI: 10.1021/ac500734c.
  5. C. Jirayupat, K. Nagashima, T. Hosomi, T. Takahashi, W. Tanaka, B. Samransuksamer, G. Zhang, J. Liu, M. Kanai, and T. Yanagida, "Image Processing and Machine Learning for Automated Identification of Chemo-/Biomarkers in Chromatography–Mass Spectrometry", Analytical Chemistry, vol. 93, no. 44, pp. 14708–14715, American Chemical Society, 2021, DOI: 10.1021/acs.analchem.1c03163.
  6. O. E. Albóniga, O. González, R. M. Alonso, et al., "Optimization of XCMS parameters for LC–MS metabolomics: an assessment of automated versus manual tuning and its effect on the final results", Metabolomics, vol. 16, p. 14, 2020, DOI: 10.1007/s11306-020-1636-9.
  7. Fundamentals of GC/MS: Mass Number and Isotope, SHIMADZU, https://www.shimadzu.com/an/service-support/technical-support/analysis-basics/gcms/fundamentals/what/mass_number_isotope.html
  8. G. Libiseller, M. Dvorzak, U. Kleb, et al., "IPO: a tool for automated optimization of XCMS parameters", BMC Bioinformatics, vol. 16, p. 118, 2015, DOI: 10.1186/s12859-015-0562-8.