banner

ニュース

Aug 11, 2023

機械学習を活用したラマン分光法を使用した、最小限に調製された細菌の表現型の正確かつ迅速な同定

Scientific Reports volume 12、記事番号: 16436 (2022) この記事を引用

1997 年のアクセス数

4 引用

4 オルトメトリック

メトリクスの詳細

抗菌薬耐性(AMR)の世界的な増加は、人間の健康に対する深刻な脅威です。 AMR の蔓延を回避するには、抗生物質の最適な管理を促進する、迅速かつ信頼性の高い診断ツールがまだ満たされていないニーズです。 この点において、ラマン分光法は、ラベルや培養を必要としない迅速な同定と抗菌薬感受性試験 (AST) を 1 ステップで行うことを約束します。 ただし、多くのラマンベースの細菌同定および AST 研究で印象的な結果が実証されているにもかかわらず、いくつかの欠点に対処する必要があります。 概念実証研究と臨床応用の間のギャップを埋めるために、最小限で準備された細菌の表現型とメチシリン耐性 (MR) とメチシリン耐性 (MR) の区別を迅速に識別するための、新しいデータ拡張アルゴリズムと組み合わせた機械学習技術を開発しました。メチシリン感受性 (MS) 細菌。 このために、細菌のハイパースペクトル ラマン画像用のスペクトル トランスフォーマー モデルを実装しました。 私たちのモデルは、精度とトレーニング時間の両方の点で、多数の分類問題に関して標準の畳み込みニューラル ネットワーク モデルよりも優れていることを示します。 15 の異なるクラスで構成されるデータセットでは 96% 以上の分類精度を達成し、6 つの MR-MS 細菌種では 95.6% の分類精度を達成しました。 さらに重要なことは、私たちの結果は、迅速かつ簡単に作成できるトレーニング データとテスト データのみを使用して得られることです。

ハードウェア (ラマン顕微鏡) とソフトウェア (スペクトル変換器アーキテクチャ) の概要。 (a) 細菌の簡単なサンプル調製。寒天プレートから細菌を直接 CaF\(_2\) 対物スライドに移して測定するだけです。 細菌を移入して検出するプロセスには 1 分もかかりません。 (b) 自作のラマン顕微鏡の概略図。 ラマン顕微鏡は、785 nm の励起波長を使用します。これは、この波長が蛍光を大幅に回避し、適切な信号対比で CCD による検出を可能にする十分に高いラマン信号を与えるため、細菌の識別に最適であることが判明しているためです。ノイズ比 (SNR)。 100 倍の顕微鏡対物レンズ (MO) は、励起レーザーの焦点 (スポット サイズ \(\sim \) 1 \(\upmu \)m)、ラマン散乱光の収集、視覚イメージングに使用されます。 ラスター スキャンは、自動 XYZ ステージによって実現されます。 ダイクロイック ミラー (DM) (ハイパス 750 nm) は、細菌のイメージングと位置特定のために可視照明光を CCD に結合するために使用され、別の DM (ハイパス 805 nm) はポンプからのラマン散乱光を分離します。 追加のハイパス フィルター (HPF、800 nm) とバンドパス フィルター (BPF、785 nm ± 10 nm) は、785 nm ポンプのフィルター処理に使用されます。 内蔵顕微鏡の視野は約 60 \(\upmu \)m \(\times \) 60 \(\upmu \)m で、ラマン スペクトルは 700 ~ 1600 の波数シフトで収集されます。 cm\(^{-1}\) 堀場製分光計による。 (c) 開発した機械学習ツールのブロック図。 スペクトル トランスフォーマー (ST) は、オプションの位置埋め込み層と、それに続くドロップアウト層で構成されます。 次の層は、層正規化、マルチヘッド アテンション、層正規化、そして GELU 非線形性を持つ多層パーセプトロン (MLP) を順に含むトランスフォーマー エンコーダー ブロックです。 トランスフォーマー エンコーダーの出力の後に、層の正規化とシーケンス プーリング層が続きます。 最後に、出力層は完全に接続された線形層です。

コロナのパンデミックなど、一部の健康危機は予見不可能で即時の対策が必要ですが、その他の危機は進行が遅く、本質的には難治性ですが、やがて人間の健康に対するより大きな脅威となる可能性があります1,2。 後者の例としては、抗菌剤耐性 (AMR)3、4、5、6 があります。 AMR は、細菌や真菌などの微生物が、通常であればその増殖を阻害したり死滅させたりする化合物にさらされても生き残ったときに発生します。 これにより選択のプロセスが促進され、回復力のある株が成長し、拡散することが可能になります。 AMR は自然に発生するプロセスですが、抗菌薬の過剰使用などの選択圧によって劇的に加速されます 7、8、9、10、11。 細菌中の AMR を同定するために使用される従来の技術は、ディスク拡散試験、エプシロメーター試験、および微量希釈であり、これらには培養が必要で、数日かかる場合もあります 12、13。 これらの技術の長い処理時間は、感染した患者の命を脅かす可能性がありますが、病原性細菌が広がり、より多くの人に感染する可能性があるため、問題もあります。 したがって、患者に広域抗生物質を処方するのが一般的であり、不必要な治療につながります14。 したがって、抗菌療法が既に広く普及し、不十分さが増大しているのは、医療および農業における抗菌剤の過剰使用が原因であると考えられています5,8,15。 2019年、世界保健機関(WHO)はAMRを「人類が直面している世界規模の公衆衛生上の10大脅威の1つ」であると宣言し、国連の抗菌薬耐性に関する特別機関間調整グループ(IACG)が発表した報告書によれば、何も行動を起こさなければ、抗菌薬耐性病原体が 2050 年までに年間 1,000 万人の死亡を引き起こす可能性があります2。

ポスト抗生物質時代の潜在的な災害を軽減するために、WHO や IACG などの組織は、標的抗菌薬による治療を促進する迅速なポイントオブケア診断の開発を求めています 1,5。 これを達成するために、多くの異なる技術が研究されてきました12、16、17、18、19。 非常に有望な技術の 1 つはラマン分光法 (RS) です。 RS は、光子が分子と衝突したときに発生する非弾性散乱に基づいた技術であり、広範囲の分子に対して独自の信号分解を可能にします20。 重要なのは、RS には高速、低コスト、ラベル不要という利点があり、分析前の培養が必ずしも必要ないことです。 いくつかの研究では、化学測定ツールと機械学習 (ML) を利用すると RS の能力が大幅に強化できることが示されています 19,21,22,23,24,25,26,27,28,29,30,31。 しかし、信頼性の高い細菌同定やポイントオブケア診断アプリケーションのための実行可能なプラットフォームとなる前に、いくつかの欠点に対処する必要があります。 まず、RS は、分析対象の細胞の増殖段階、測定環境の変化、サンプル調製の不一致などの要因に敏感です 23。 したがって、分類の困難さを軽減する方法でサンプルを準備すると便利です。 単一の細菌または細菌の単層マットを調製するなどのアプローチは、残念なことに複雑であり、専門知識と特注の装置が必要であり、数時間かかる場合があります25、32、33。 さらに、サンプル前処理の不一致によりラマンスペクトルに変化が生じる可能性があり、臨床的に適切な精度に達するために必要な幅広い変動を捉える ML モデル用のより多くのデータが必要になります 19。 さらに、患者サンプルを扱う RS 細菌の研究はまれであり、研究室で培養されたサンプルのデータを使用することで本物の患者サンプルを正確に特定できるとは考えられません。 さらに、ラマン測定パラメータおよびサンプル前処理方法およびパラメータの標準については、ほとんどまたはまったく承認されていません 22、23。 この欠如はデータベースの統合を著しく妨げ、臨床応用に使用できるビッグデータの集約を遅らせます。 RS を使用して臨床的に適切な精度を達成するには、これらの問題に対処する必要があり、すべてを解決するには集合的な努力が必要です。

この研究では、簡単なサンプル調製と測定環境の変化の問題に対処することに焦点を当てています34。 当社では、サンプル前処理を単に細菌を測定環境に移すだけの作業に減らし (図 1a を参照)、サンプルの不一致の問題を最小限に抑えます。 この手順には、データ統合の阻害パラメータであるサンプル前処理を排除できるという追加の利点もあります。 さらに、ML モデルのトレーニングに利用できるデータが限られている状況を緩和するために、小規模および大規模な RS 細菌データセットの両方でトレーニング後に効率的な新しいスペクトル トランスフォーマー (ST) ML モデルを開発しました。 ST に適切な代表的なトレーニング データを供給するために、私たちは、今後 NoiseMix として知られる新しいデータ拡張アルゴリズムを開発しました。 NoiseMix と組み合わせた ST モデルにより、単一の細菌と細菌の多層マットの両方を一度に正確に分類できることを実証しますが、重要なのは、細菌の厚い多層マットで取得された高速かつ簡単に作成できるトレーニング データのみに依存することです。 。 私たちの知る限り、これはトレーニング データを取得し、その後 ML の支援を受けた RS を使用して細菌を分類するためのまったく新しいアプローチです。 最小限に調製された細菌サンプルからの 12 クラスの細菌と 3 つの非細菌クラスで構成されるデータセット上で、開発した ST ML モデルと NoiseMix の機能を明示的に示します。 NoiseMix は、クラス バランシングと傾斜除去のみを使用する場合と比較して、4 つの異なるテストで平均分類精度が 12.9% 向上することがわかりました。 さらに、ST モデルが抗生物質耐性表現型と抗生物質感受性表現型、つまり MR 表皮ブドウ球菌 (MRSE)、MS 表皮ブドウ球菌 (MSSE)、2 種類の MR 黄色ブドウ球菌 (MRSA)、および 2 種類の抗生物質耐性の表現型を区別できることを実証します。 MS 黄色ブドウ球菌 (MSSA)。 MRSE-MSSE 分離株と MRSA-MSSA 分離株の間で、それぞれ 97.7\(\%\) と 94.6\(\%\) の識別精度が得られました。 最小限に準備されたサンプルを特定することに加えて、Ho 氏の研究で開発された畳み込みニューラル ネットワーク (CNN) と ST を比較することにより、ST の詳細なベンチマーク テストを実行します。 他。 複数の RS 細菌データセットに関する 25。 ST モデルは、計算時間の点で CNN モデルを大幅に上回り、1 桁改善され、分類精度の点で一般的に CNN モデルを上回り、7.5 の改善を達成したことがわかりました \( \%\) を参照 CNN モデルと比較しました25。

自家製ラマン顕微鏡を使用して、最小限に準備された細菌サンプルのトレーニングおよび検証データセットを取得します。 ラマンハイパースペクトルマップを取得するためのラマン顕微鏡の概略図を図1bに示します。 自家製システムを使用する理由は、ラマン顕微鏡の信号対雑音比 (SNR) を最適化し、細菌を検出するタスクにシステムを調整できる可能性があるためです。 これにより、最小 0.1 秒の非常に短い測定時間でラマンスペクトルを取得でき、また市販のラマン顕微鏡と比較して比較的安価なシステムを実現できます。 顕微鏡と分光計の詳細については、「方法」セクションを参照してください。

RS および ML を使用して細菌を正しく分類できるかどうかは、モデルのトレーニングおよび検証のステップで使用される大規模なトレーニング データベースがあることに大きく依存します。 したがって、過剰または過小に表現されたデータは偏った予測につながるため、データの収集は ML アルゴリズム自体と同じくらい重要になることがよくあります。 RS が高速現場診断アプリケーションに考慮される場合、サンプル前処理の複雑さと時間コストを大幅に削減する必要があります 34,35,36。 サンプル調製の時間と複​​雑さをどれだけ簡略化して軽減できるかを調査するために、細菌サンプルを細菌単培養物から CaF\(_2\) 対物スライドに直接移し、その後ラマン ラスター スキャン測定を行うという実験を行いました。 このアプローチにより、細菌サンプルの深さが単層から多層の深さのマットまで自然に変化し、サンプル内の SNR32 に大きな変動が生じます。 この方法で作成されたトレーニング データ マップには、細菌のない領域 (バックグラウンド) が含まれている可能性があるため、手動でセグメンテーションする必要があります。 手動によるセグメンテーションの必要性を回避するために、代わりに多層細菌マットの測定のみからトレーニング データを生成します。 ただし、多層細菌マットの測定から得られたデータは、細菌の単層から多層から取得されたデータと比較して、SNR 分布が限られています。 テストデータに現れる可能性のある自然な分散を​​合成的に再作成する目的で、分光器の積分時間を 0.1 秒から 1 秒まで変化させてトレーニング データを作成します (取得ごとに 10 回の平均)。 このプロセスと自動化されたラマン分光法セットアップ (「方法」を参照) により、1 日に数千のトレーニング スペクトルが取得されます。 当社の最終的な参照細菌データベースには、12 種類の細菌種と 3 種類の非細菌種のそれぞれについて 5,200 を超える生のラマン スペクトルが含まれています。 すべての生データは、データ拡張、モデルのトレーニング、またはモデルの予測に使用される前に、簡単な手順 (「方法」を参照) によって線形前処理されます。

画像に回転、反転、ぼかし、またはホワイト ノイズを追加するなどして「追加の」トレーニング データが強化されることが多いコンピューター ビジョンからインスピレーションを得て、追加のトレーニング データを合成的に作成できるデータ拡張アルゴリズム (NoiseMix) を開発しました。これにより、モデルの一般化とパフォーマンスが向上します。 NoiseMix 増強アルゴリズム (技術的な詳細については補足資料を参照) は、多層細菌マットからラマン スペクトルを迅速かつ簡単に生成し、測定表面/環境の両方のさらに多くの「ノイズ」とノイズ データをデータに混合することによって機能します。環境での測定から。 ここで実装されている NoiseMix は、トレーニング データのサンプルの量を増やすことに加えて、さらに 2 つの利点をもたらします。 まず、SNR 分布が低い領域に向けて RS データセットを合成拡張できます。 この意味で、任意に低い SNR のトレーニング データを原理的に実現できますが、実際には純粋なノイズからなるトレーニング サンプルが含まれないように SNR は一定の最小値以上に保たれます。 驚くべきことに、元のトレーニング例は多層細菌マットからのみ収集されているにもかかわらず、NoiseMix 拡張アルゴリズムにより単一細菌の高精度の識別が可能であることがわかりました。 第 2 に、NoiseMix アルゴリズムは、各トレーニング エポックですべてのクラスが同じ量のデータで表されるようにすることで、クラス不均衡なデータセットのすべてのデータを活用する手段を提供します。

ST モデルと NoiseMix アルゴリズムを使用した細菌同定のパフォーマンスの概要。 (a) 12 の細菌クラスと 3 つの非細菌クラス (寒天、ポリスチレン、および CaF\(_2\)) を含む分類タスクで得られた混同行列を示します。 CaF\(_2\) 分類列 (右側) には、サンプル表面が細菌によって部分的にしか覆われていない場合があるため、ゼロ以外の元素が含まれています。 このため、細菌以外のクラスは細菌の識別精度に含まれないため、グレー表示されます。 (b) NoiseMix を適用した場合と適用しない場合の両方でトレーニングされた 4 つの異なる ML モデル間のパフォーマンスの比較を示します。 混同行列に表示される結果は、バッチ サイズ 300 と AdamW オプティマイザーを使用してトレーニングされた ST-pe(1,10,3)* モデルを使用して取得されます。 他の 3 つのモデルも AdamW オプティザイマーを使用してトレーニングされますが、バッチ サイズは 100 と小さくなります。モデルの精度 (および密度) は、10 回のトレーニング分割にわたる平均を表します。 (c) では、3 つの異なる分類タスクに適用した場合の CNN モデルと ST モデル間のベンチマーク テストの結果を示します。 3 つのデータセットについては補足資料で説明されています。 この場合、報告される精度は、90\(\%\)/10\(\%\) のトレーニング/検証分割を使用した 10 回の実行の平均を表します。

RS を使用した細菌の同定は、残差接続や CNN などの深層学習技術が、ロジスティック回帰やサポート ベクター マシンなどの古典的な教師あり学習方法よりも優れていることが証明されているため、近年大幅なパフォーマンスの向上を経験しています 25,37,38。 これをさらに改善するために、現在の最先端のコンピューター ビジョンと自然言語プログラミングに触発されたアテンションベースの深層学習モデルを開発しました。 ST モデル (図 1c にスケッチされ、「方法」で詳しく説明されています) は、標準のトランスフォーマー エンコーダー 39 のコンパクト バージョンですが、シーケンス プーリングを使用してトランスフォーマーの順次出力を単一クラスにマッピングする点で異なります。

ST モデル アーキテクチャは、最初に 3 つの引数 ST(-pe)(i, j, k) によってパラメータ化されます。ここで、i はトランスフォーマー エンコーダーの深さ、j はマルチヘッド アテンション レイヤー内のヘッドの数、k は多層パーセプトロン比、および -pe を含めることは、オプションの位置埋め込みを意味します。 3 つの引数はモデルの追加のハイパーパラメータとして扱われ、分離分類タスク 25 で 1 つのトレーニングと検証の分割を使用して、ツリー構造の Parzen 推定器を使用して選択されました。つまり、モデル アーキテクチャをモデルに適合させるために独自の RS データを使用しませんでした。目の前の課題。

私たちの主な結果は図 2 にまとめられており、15 クラス (細菌 12 個と非細菌 3 個) の分類タスクの混同行列が表示されています。 AdamW オプティマイザーを使用し、NoiseMix を適用してトレーニングされた ST-pe(1,10,3) モデルを使用すると、12 の細菌クラスにわたって 96\(\%\) を超える全体的な精度が達成されます。 図 2b は、同じ 15 クラスの分類タスクについて、NoiseMix を適用した場合と適用しない場合の、複数の異なる ML モデル間の精度の比較を詳細に示しています。 NoiseMix を使用してトレーニング データを強化すると、3 つの ST モデルと参照 CNN モデルの両方のテスト段階でモデルのパフォーマンスが大幅に向上することが観察され、両方の ST モデル アーキテクチャが 15 クラスのデータセットで参照 CNN モデルよりも優れていることがわかりました。

モデルの精度(細菌分類の総数に対する正しい細菌分類の比率として与えられる)に加えて、図 2b に密度メトリクスも報告します。 密度 (または細菌のカバー率) は、各テストで行われた分類の総量に対する細菌の分類の比率として定義されます。 一部の細菌のテストデータの一部はバックグラウンドからのデータで構成されているため (たとえば、以下の図 3 を参照)、すべての測定値を細菌の種類に関連付けるべきではないため、このメトリクスがこのケースに含まれています。 特に、低 SNR 信号の分類を改善するアルゴリズムの機能に起因する NoiseMix を適用すると、密度メトリックが大幅に増加します。

図 2c は、3 つの異なる細菌データセットでのモデル分類パフォーマンスを比較しています (データセットと適用されたトレーニング プロセスの概要については、補足資料を参照してください)。 データセット「Bacteria ID 1」および「Bacteria ID 2」は、Ho et の研究に由来しています。 アル.25。 これらのデータセットでは、テストされた 2 つの ST モデルのいずれかを使用しても、平均してわずかな改善しか観察されません。 最終的なデータセット「大腸菌バイナリ」は、当社独自の RS データベースに由来しており、大腸菌 ATCC 25922 および大腸菌 ATCC 35218 のラマン スペクトルが含まれています。このデータセットでは、ST モデルが再び CNN モデルを大幅に上回っています。これは、ST モデルが CNN モデルを大幅に上回っていることを示唆しています。アーキテクチャは、分光法に基づく分類問題というより広範なタスクでうまく機能する可能性があります。

最終的なパフォーマンスベンチマークとして、ST モデルの計算時間を参照 CNN モデルの計算時間と比較しました25 (補足資料を参照)。 一般に、開発された ST モデルの方がおよそ 1 桁の速度向上が見られます。 ただし、この高速化の少量は、重み減衰、パラメータ量、学習率などのモデルのハイパーパラメータの違いによって引き起こされる可能性があり、そのため、その違いをモデル アーキテクチャのみに帰すことはできないことに注意してください。

大腸菌 ATCC 25922 および大腸菌 ATCC 35218 のラマン イメージングと ST 同定。最初の列は測定領域の視覚画像を示し、単層から多層 (4 ~ 6 \(\upmu \)) までの細菌の深さを示しています。厚さm)。 l-Phe のリング呼吸モード振動に割り当てられた 1004 cm\(^{-1}\) のラマン シフトのラマン マップが 2 列目に示され、最後に ST 予測マップが 3 列目と 4 列目に示されています。 。 マップのサイズは 51 \(\upmu \)m \(\times \) 51 \(\upmu \)m で、それぞれ 2601 個のラマン スペクトル (700–1600 cm\(^{-1}\) で構成されています) ) 点間の間隔は 1 \(\upmu \)m です。 ラマンスペクトルは、0.5 秒の積分を 10 回平均して取得されます。 (a) 大腸菌 ATCC 25922 のラマン測定。全体の予測率 (密度表面被覆率) は、大腸菌 ATCC 25922 については 49.1%、大腸菌 ATCC 35218 については 10.4%、CaF\(_2\) バックグラウンドについては 40.2% です。 。 残りの細菌/クラスについては、合計予測率は 0.3% になります。 右側の予測マップは、>0.5 としてプロットされた残りのクラスの予測を示しています。ここで、大腸菌 ATCC 35218 のみが 0.5 より高い値を持っています。 (b) 大腸菌 ATCC 35218 の測定。全体の予測率は、大腸菌 ATCC 25922 については 8.0%、大腸菌 ATCC 35218 については 49.0%、バックグラウンドについては 42.8% です。 残りの細菌/クラスについては、予測の合計は 0.2% になります。 ここでも ST は大腸菌 ATCC 25922 をいくつか誤分類しています。 (c) E. coli ATCC 25922 と E. coli ATCC 35218 の二元混合物のラマン測定により、それぞれ 48.8% と 51.2% の予測率 (表面被覆率) が得られました。 この場合、ST は誤分類を行いません。 2 つの大腸菌以外の細菌の予測はすべてゼロです。 取得した 3 つのマップすべてについて、ST 予測マップはラマン マップおよび視覚マップと非常によく一致します。

開発した ST モデルと NoiseMix の機能とパフォーマンスをより深く理解するために、ラマン マップと ST 予測マップを表示することで分析を視覚化します。 図3に見られるように、私たちは単一培養物と単一培養物の混合物の両方で試験を実施します。図3a、bは、それぞれ大腸菌ATCC 25922と大腸菌ATCC 35218の2つの単一培養物の試験領域の視覚画像を示しています。 ラマン マップは、エリア 50\(\upmu \)mx 50\(\upmu \)m にわたって 1 \(\upmu \)m のステップ サイズで取得され、l-Phe のリング呼吸モード振動についてプロットされています (ラマン シフト 1004 cm\(^{-1}\))。 各ラマン マップは 2601 個のポイントで構成され、各ポイント (ラマン スペクトル、700 ~ 1600 cm\(^{-1}\)) は 0.5 秒の積分時間、217 分の完全な測定時間で 10 個の平均から取得されます。 図3a、bの視覚画像、ラマン強度マップ、予測マップを比較すると、さまざまな形式の視覚化の間に優れた一致があることがわかります。 図3に示したラマン強度等高線図から、CaF\(_2\)と細菌の間の境界ゾーンではラマン強度が減少することが明らかです。 これは、部分的には細菌層(単層)が薄いためであり、部分的にはレーザーと細菌の重なりが小さいためです。 NoiseMix メソッドを使用しない場合、ST 予測マップは細菌が含まれる領域を過小評価し、CaF\(_2\) と細菌の間の境界ゾーンでさらに多くの誤分類を引き起こす可能性があります。 したがって、結果として生じるラマン信号の SNR の低下は、多層細菌マットのみでトレーニングされた ML モデルが細菌で覆われた領域を過小評価し、境界ゾーンで多数の誤分類を行うという結果をもたらします。 ただし、トレーニング段階で NoiseMix を適用すると、元のトレーニング データには多層細菌マットの測定値のみが含まれているにもかかわらず、ST モデルは低濃度の細菌 (単層) の検出と特定においても非常に効率的になります。 これは、低 SNR ラマン信号の分類を向上させる NoiseMix アルゴリズムの機能によるものです。 クラスの精度を正しい/(クロス + 正しい) として定義します。ここで、クロスはすべて、値が >0.5 を超える誤った予測であり、バックグラウンド (CaF\(_2\)) の予測は除外されます。 これにより、図 3a、b ではそれぞれ 87.3% と 87.9% の精度が得られます。 精度を表面被覆率と比較すると、この特定のケースの ST 分類器は約 10% の確率で未決定であり、予測率が 0.5 より低いことがわかります。 15 クラスの ST 分類器は、主に境界ゾーンで誤分類を行います。 積分時間を 2 秒以上に増やすと誤分類の発生は減少しますが、2601 個のラマン スペクトルを含む 1 つのラマン マップを完全に測定するには 14 時間以上かかるという結果が生じることに注意してください。

図 3c は、大腸菌 ATCC 25922 および大腸菌 ATCC 35218 培養物のランダム混合を示しています。 2 つの単一培養サンプルは CaF\(_2\) 対物スライドに直接移され、そこで混合され、その後測定されます。 視覚画像およびラマンマップからは、大腸菌 ATCC 35218 と大腸菌 ATCC 25922 の混合に関する情報は得られません。 推定される唯一の情報は、層が左側でわずかに厚いということです。これは、等高線図の x 軸と y 軸への 10 ピクセルの投影からわかります。 しかし、ST 予測マップからは、2 つの大腸菌が混在していることがはっきりとわかります。 モデルのトレーニング段階で NoiseMix を適用した ST モデルは誤分類を行わず、正しい種、つまり大腸菌のみを予測したことがわかりました。推定密度比は大腸菌 ATCC 25922 の 48.8%、大腸菌 ATCC 25922 の 51.2% でした。 E. coli ATCC 35218 のこの素晴らしい分類結果の理由は、E. coli のみが予測されるということですが、これは 4 ~ 6 \(\upmu \)m という厚い細菌分布層によるものです。したがって、ラマン信号の SNR は常に次のようになります。比較的高い。 さらに、大腸菌 ATCC 25922 および大腸菌 ATCC 35218 の全体的な精度は 98.1% であることがわかり、最後の 1.9% は未判定のデータ ポイントであり、等しい予測率は 0.5 であり、合計するとラマンで約 49 ポイントになります。地図。

ラマン測定と抗生物質耐性表現型の識別。 図は、(a) メチシリン耐性表皮ブドウ球菌 ATCC 35984 (MRSE)、(b) メチシリン感受性表皮ブドウ球菌 ATCC 14990 (MSSE)、(c) メチシリン耐性表皮ブドウ球菌の視覚画像と ST 予測マップを示しています。黄色ブドウ球菌 MRSA ATCC252、および d) メチシリン感受性黄色ブドウ球菌 MSSA ATCC 2752。細菌の分布は、単一の細菌から細菌の厚い層(厚さ 4 ~ 6 \(\upmu \)m)まで多岐にわたります。 視覚的な画像から、a) MRSE および b) MSSE が単一 (少数の) 細菌で取得されることがわかります。 使用した積分時間は、各ラマン スペクトルの取得に 10 秒で、平均 10 回でした。 MRSE の場合、マップのサイズは 5 \(\upmu \)m \(\times \) 5 \(\upmu \)m で、個々の 441 ラマン スペクトル (700 ~ 1600 cm\(^{-1}\) で構成されます。 )) 点間の間隔は 0.25 \(\upmu \)m です。 MSSE の場合、マップのサイズは 10 \(\upmu \)m \(\times \) 10 \(\upmu \)m で、点間の間隔は 1 \(\upmu \)m で、441 個の個別のラマン スペクトルで構成されます。 。 使用した積分時間は、各ラマン スペクトルの取得に 2 秒で、平均 10 回でした。 どちらの場合も、ST は誤分類を行いませんが、(a) および (b) の MSSE および MRSE 予測マップにそれぞれ見られるように、細菌が MSSE および MRSE である確度は低いです。 (c) と (d) には、MRSA と MSSA の視覚マップと予測マップが示されています。 50 \(\upmu \)m \(\times \) 50 \(\upmu \)m は 2601 個のラマン スペクトル (700–1600 cm\(^{-1}\)) で構成され、1 個の \(\upmu \)m の点間の間隔。 使用した積分時間は 0.5 秒で、各スペクトルを取得するのに平均 10 回かかります。

図 4 は、抗生物質耐性菌の識別のための測定とテストを示しています。 この概念実証 AST では、MR 表皮ブドウ球菌 ATCC 35984 (MRSE)、MR 黄色ブドウ球菌 ATCC 252 (MRSA 252)、MR 黄色ブドウ球菌 ATTCC 4951 (MRSA4951) および MS S の臨床分離株からラマン マップを収集します。 .表皮 ATCC 14990 (MSSE)、MS \(\textit{黄色ブドウ球菌}\) ATTCC 4699 (MSSA 4699)、および MS \(\textit{黄色ブドウ球菌}\) ATCC 2752 (MSSA 2752)。 MR-MS 分類タスクにおける 15 クラス分類器の全体的なモデル パフォーマンスは、図 2 の混同マトリックスで見ることができます。ST 分類器には、S. lugdunensis、S. haemolyticus、および S. pettenkoferi も含まれており、これらの菌株は、生物学的変異、ST のより困難な分類タスクを行うための潜在的な相互干渉を表し、私たちの技術の可能性について現実的な見解を作成します。 特に、ST は 99.5\(\%\) を超える予測精度で表皮ブドウ球菌の MRSE 分離株と MSSE 分離株を区別していることがわかります。 MRSE、MSSE、MRSA 252、MSSA 2752 と参照細菌の予測マップの例を図 4 に示します。図 4c、d では、MRSA 252 と MSSA 2752 の 2 つの単一培養における MRSA と MSSA の測定を示しています。それぞれ参照細菌。 図 4c は、ST が予測率 (密度表面被覆率) を CaF\(_2\) バックグラウンドの場合は 40.5\(\%\)、MRSA 252 の場合は 56\(\%\)、0.4\(\%\) と推定したことを示しています。 ) MSSA 2752 の場合は 3.1\(\%\)、大腸菌 ATCC 25922 の場合は 3.1\(\%\) です。ここでも、CaF\(_2\) と MRSA 細菌の間の境界ゾーンでは、誤分類率が高いことは明らかです。 SNR。 この測定では、ST は実際に 69 件の誤分類を行っています。これは図 4c からわかります。大腸菌 ATCC 25922 の予測率は 0.5 ~ 0.99 です。 ただし、これはテストサンプルの汚染に関連している可能性もあります。 図4bには、MSSA 2752の測定結果が示されています。 予測率 (表面被覆率) は、CaF\(_2\) バックグラウンドでは 41.6\(\%\)、MSSA 2752 では 55.4\(\%\)、MSSA 4699 では 3\(\%\) であることがわかります。 ST にはいくつかの誤分類があり、図 4b に見られるように、ST は細菌を MSSA 4699 であると予測しています。やはり、これらはほとんどが境界ゾーンで見つかり、したがってここで見られる低い SNR に関連しています。 積分時間を 2 秒以上に長くすれば、こうした誤分類は回避できますが、マップは 2601 個の個別スペクトルで構成されているため、取得時間は 14 時間以上かかります。 混同行列から、2 つの MRSA 分離株と 2 つの MSSA 分離株の部分行列について、15 クラス ST 分類器の全体的なパフォーマンスの予測精度が 94.6\(\%\) であることがわかります。 この結果を、Ref.25 で使用されている 89.1\(\%\) の精度で MRSA と MSSA を区別するバイナリ分類器と比較すると、ST モデルが CNN モデルよりも明らかに優れていることがわかります。 測定が細菌の単培養の厚い層に対してのみ行われた場合、ST の精度は非常に高いことがわかります。 視覚的には示されていませんが、例として MSSA 2752 と MRSA 4951 の精度はそれぞれ 99.7% と 99.9% であることがわかります。 トレーニング検証データセットは非常に似ているため、これは驚くべきことではないかもしれません。

図 4a、b に見られるように、抗生物質耐性分離株と抗生物質感受性分離株を区別することに加えて、単一細菌 (少数の細菌) に対して開発した ST および NoiseMix メソッドもテストします。 マップは 10 秒の統合時間で取得されますが、NoiseMix がないと ST モデルは細菌を識別できないことがわかり、NoiseMix が ML モデルの感度をどのように向上させるかを示しています。 図4aの予測率(密度表面被覆率)は、96.8\(\%\) CaF\(_2\)バックグラウンド、2.9\(\%\) MRSE、0.3\(\%\) MSSEです。 MSSE の最も高い予測ピークはわずか 0.15 です。 したがって、ST は、MRSE と MSSE、またはその他の細菌クラスの間で誤分類を行いません。 図 4b の場合、予測率は 93\(\%\) CaF\(_2\) バックグラウンド、0.2\(\%\) E. coli ATCC 35218、1.3\(\%\) MRSE、および 5.5 であることがわかります。 MSSE の \(\%\)。 繰り返しになりますが、MSSE で見つかった最も高い予測ピークは 0.45 であるため、ST は MRSE と MSSE の間で誤分類を行いません。 元のトレーニング例は多層細菌マットのみから収集されているにもかかわらず、当社の ST と NoiseMix を組み合わせることで、単一細菌の高精度な識別も可能になったことは注目に値します。

3 つの培養 E のラマン測定と ST 分類。 大腸菌患者のサンプル。 図は測定領域の視覚画像を示しています。ここでも細菌の分布が深層 (厚さ 4 ~ 6 \(\upmu \)m) から単一細菌の深さまでの範囲にあることがわかります。また、E の ST 予測マップも示されています。 .coli ATCC 25922 および E. coli ATCC 35218。マップのサイズは 50 \(\upmu \)m \(\times \) 50 \(\upmu \)m で、それぞれ 2601 個のラマン スペクトル (700- 1600 cm\(^{-1}\))、点間の間隔は 1 \(\upmu \)m です。 スペクトルの取得に使用される積分時間は 0.5 秒で、ポイント/スペクトルあたり平均 10 回です。 この表は、CaF\(_2\) バックグラウンド、大腸菌 ATCC 25922、大腸菌 ATCC 35218、および残りのクラスの全体的な予測率を示しています。 具体的には、(a) 患者サンプル 1 の他の細菌に対する全体的な予測率は 6.9%、(b) 患者サンプル 2 は 4.7%、および c) 患者サンプル 3 は 8.1% であることがわかります。 ただし、サンプルが大腸菌であるという精度 (予測率 >0.5) は、P1: 98.5%、P2: 99.4%、および P3: 98% です。

図 3 では、同じ臨床単一培養分離株からの大腸菌参照細菌に対する ST と NoiseMix のパフォーマンスを調査しました。 しかし、当社の ST が臨床患者分離株にも機能する可能性があることを実証するために、オーデンセ大学病院の臨床微生物学科から入手した 3 つの新しい臨床患者分離株大腸菌に対してテストを実施しました。 大腸菌分離株 P1、P2、および P3 (図 5 に示す) は尿から分離され、インドール スポット テスト (陽性) および CHROMID® CPS ELITE 寒天プレート (Biomérieux、米国) へのプレーティングによって同定された種でした。 ST はこれまでにこれらのラマン スペクトルを確認したことがないことに注意してください。 したがって、患者サンプルは表現型がわずかに異なるか、または持つ可能性があるため、ST のトレーニングに使用される大腸菌参照細菌になります。 したがって、ST が 2 つの大腸菌参照細菌の混合に対する予測を返すことが期待されます。 3 つの大腸菌患者分離株の視覚画像と予測マップを図 5 に示します。ST 予測マップから、大腸菌 ATCC 25922 および大腸菌 ATCC 35218 との重複 (予測率) を推定できます。 3 人の患者サンプルの平均誤分類は 1.4% であり、これは ST がこれまでに 3 人の患者サンプルのトレーニング データをまったく見ていなかったことが原因の 1 つです。 再び、誤分類は主に CaF\(_2\) バックグラウンドと細菌マットの間の境界ゾーンで見られ、したがって低いラマン SNR にも関連していることがわかります。 3 つの臨床分離株と 2 つの大腸菌 ATCC 株の抗生物質耐性プロファイルも、ディスク拡散試験を使用して実行されました。 これらのデータ (補足資料を参照) から、P1 は抗生物質耐性プロファイルに関して実際に大腸菌 ATCC 25922 と最も高い類似性を持ち、P2 および P3 は大腸菌 ATCC 35218 と同様の耐性パターンを示すことが示唆される可能性があります。図 5 から明らかなように、ST 分類では P1 分離株を大腸菌 ATCC 25922 として分類することも優先されますが、P2 および P3 は大腸菌 ATCC 35218 として分類されることが多く、これは分離株の耐性プロファイルの傾向を示しています。ラマン測定をガイドします。 ただし、これを検証して結論を​​出すには、さらに多くのサンプルと測定を行う必要があります。 しかし、我々の ST は実際に、3 つの患者サンプルについて平均 98.6% の分類精度で大腸菌の微生物表現型を数秒/分以内に識別できると結論付けることができます。

細菌を迅速に特定し、AMR の蔓延と戦うために、ML の支援を受けた RS を使用した概念実証実験を実施しました。 私たちは、RS が微生物研究にとって有望な技術であることを実証しました。 このために、私たちは細菌識別において最先端の結果を得るために、注意ベースの ML モデルと新しいデータ拡張アルゴリズム (NoiseMix) を開発しました。 この研究で使用されている ST モデル アーキテクチャは、小規模なデータセットでトレーニングされた場合に適切に一般化できるというビジュアル トランスフォーマー (VIT)40 とコンパクト畳み込みトランスフォーマー (CCT) の成功からインスピレーションを得ています。 VIT や CCT とは対照的に、RS データを扱う場合、ラマン スペクトルをパッチに分割することと、誘導バイアスを誘発する畳み込みを実装することの両方がモデルのパフォーマンスに悪影響を与えることがわかりました。 さらに、モデルの深さを制限すると、少なくとも利用可能なデータが限られている問題に関しては、モデルの有効性が大幅に向上することがわかりました。 これは、データセットで観察されたように、サンプル内分散が大きい場合に制限要因となるディープトランスフォーマーモデルのオーバーフィット能力によるものではないかと考えられます。 これは、診療所や病院での現場測定のための RS の実際の実装にも当てはまります。 私たちは、私たちが開発した ST によって支援された新しいデータ増強方法と RS が、基礎研究と臨床検査室での実用化の間のギャップを埋める可能性があると強く信じています42。 私たちは、精度と計算時間の両方の点で、私たちの ST が最先端のドメイン固有残差 CNN よりも優れていることを明示的に実証しました25。 計算時間の大幅な短縮により、診断時間と診断装置のコストの両方が大幅に削減されます。これは、低コストのハードウェアでも ST の推論時間が高速であるためです。 この研究で使用された ST モデルは、癌の検出や鉱物の同定など、分光法に基づく他の分類問題にも適用できます。 ST モデルを利用したラマン システムは、96\(\%\) 以上の全体的な分類精度で 15 の異なるクラスを区別しますが、CNN の全体的な分類精度は 88.6% とわずかに低くなります。 これは概念実証であったため、データセットには 15 クラスしか含まれていませんが、データベースは任意の数の細菌および非細菌を含むように簡単に拡張できます。

私たちの方法を現在病院で使用されている方法、つまり研究室での労力と時間のかかる検査と比較すると、ML を利用した RS は、速度、対象範囲、価格、取り扱いの点で改善されています。 フローサイトメトリー、ポリメラーゼ連鎖反応、MALDI-TOF 質量分析などの他の技術も、高速で信頼性の高い診断技術としての可能性について集中的に研究されています 12、16、17、18。 これらの技術の欠点は、大型で高価な機器が必要であり、特別な訓練を受けた人員が必要であり、ポイントオブケアの診断/スクリーニングツールとして局所的に使用できないことです。 重要なのは、質量分析計では培養が必要であり、密接に関連した細菌種を識別したり、MRSA や MSSA19 などの一部の抗生物質耐性表現型を区別したりすることが困難であることです。 対照的に、ST および NoiseMix アプローチを利用した RS により、大腸菌、表皮ブドウ球菌、黄色ブドウ球菌など、さまざまな細菌の表現型を正確に分類できることを示します。 重要なのは、私たちの結果は、細菌の深い単一培養マットから収集された、簡単に作成できるラマントレーニングデータを使用して得られたものです。 トレーニング データを取得するためのこのシンプルな準備アプローチにより、培養を無視した場合、一貫して数分未満の診断時間を達成できます。 私たちのアプローチは、臨床応用に不可欠なビッグデータセットの簡単、迅速、安価な開発を促進するため、データ収集方法の重要性は最も重要です。 その結果、培養細菌から簡単にトレーニング データを作成し、NoiseMix を使用してバックグラウンド ノイズや汚染ノイズをトレーニング データに高速かつ簡単に作成することができます。 これにより、迅速なデータ生成と迅速なサンプル調製の両方が可能になり、細菌の濾過や培養のいかなる形式も必要なくなります。 したがって、我々のアプローチは、何の先入観も持たずに、本物の患者サンプルからの敗血症の直接診断に容易に採用できると考えるのが合理的です。 これを前提とすると、正確な診断と、それによる標的抗菌薬による治療が数分以内に達成できます。

細菌は、寒天プレート上で一晩培養され、パラフィルムで密封され、サンプル調製まで 5 °C で保存された細菌分離株に由来します。 保存時間はさまざまでしたが、菌株または表現型の特性にスペクトル変化が生じることは見出されませんでした。 他のすべてのサンプル前処理条件は、サンプル間で一貫して保たれました。 分類がサンプル調製の違いによって影響を受けないようにするために、テストサンプルはトレーニングに使用されたサンプルとは別に調製されました。 ラマン測定用のサンプルを準備するには、サンプルを単一コロニーから滅菌済み CaF\(_2\) ラマングレード対物スライドに直接移すだけです。

細菌表面 + NoiseMix および細菌表面: 細菌表面トレーニング データセットは、クラスごとに 3 つの統合時間で構成されます。 データセットは、12 クラスの細菌 (大腸菌 ATCC 35218、大腸菌 ATCC 25922、メチシリン耐性表皮ブドウ球菌 ATCC 35984 (MRSE)、メチシリン感受性表皮ブドウ球菌 ATCC 14990 (MSSE)、ミクロコッカス ルテウス、S. lugdunensis、S. haemolyticus、S. pettenkoferi、メチシリン耐性黄色ブドウ球菌 ATCC 252、メチシリン耐性黄色ブドウ球菌 ATTCC4951、メチシリン感受性黄色ブドウ球菌 ATTCC4699、メチシリン感受性黄色ブドウ球菌 ATCC 2752、および 3 つの非細菌クラス、フッ化カルシウム、(CaF\(_2\))、寒天、およびポリスチレン ビーズ。細菌表面トレーニング データセット内の細菌クラスのデータは、CaF\(_2\) スライド上で測定することによって取得されました。多層細菌マット。細菌表面トレーニング データセットの CaF\(_2\) バックグラウンド クラスのデータは、きれいな CaF\(_2\) スライドを測定することによって取得されました。細菌表面トレーニング データセットの寒天クラスのデータは、寒天の深い層で覆われた CaF\(_2\) スライド上で測定することによって取得されました。細菌表面トレーニング データセットのポリスチレン クラスのデータは、CaF\(_2\) スライド上で測定することによって取得されました。ポリスチレンビーズで完全に覆われています。 NoiseMix を使用したテストの場合、たとえば図 2 および図 3 のようになります。 2、3、4、CaF\(_2\) および寒天細菌表面トレーニング データは、アルゴリズムの混合入力として使用されます。 図 2 で使用されている細菌表面テスト データセットは、12 クラスの細菌と 3 つの非細菌クラスで構成されています。 細菌表面テスト データセットの各クラスは、部分的に覆われた CaF\(_2\) 表面上の 1 つの測定値によって表されます。 したがって、細菌表面テスト データセット内の細菌クラスは、同じ数の細菌のラマン スペクトルによって表されません。 細菌表面検証データセットは細菌表面テスト データセットと同じ方法で生成されますが、15 クラスすべてが含まれているわけではありません。 図3〜図6に示す測定結果は次の通りである。 3、4、5 は、細菌表面テスト データセットの作成に使用したのと同じ手順に従って取得されます。 細菌表面トレーニング データセット データの前処理は、各スペクトルを 0 ~ 1 の間で正規化することで構成されます。 図3〜図6に示すデータの前処理を行う。 細菌表面のテストと検証データの 3、4、5 は 2 つのステップで構成されます。 (i) スペクトルの開始値と終了値の間の一次関数を減算することによってスペクトルの傾きが除去されます。(ii) 各ラマン スペクトルが 0 と 1 の間で正規化される正規化ステップ。 。 3、4、5 では、細菌表面トレーニング データセットからのデータ 100\(\%\) をトレーニングに使用し、保持されている細菌表面検証データセットをモデル選択に使用します。 検証セットは実際のテスト データセットと同じ手順で作成されるため、モデル分類の有効性を示すより良い指標となります。

細菌 ID 1: モデルは、Stanford25 の参照データセットでトレーニングされます。このデータセットは、30 の細菌および酵母の分離株で構成され、30 の分離株ごとに 2000 のスペクトルが含まれています。 次にモデルは、30 の細菌および酵母の分離株からなり、各 30 の分離株ごとに 100 のスペクトルを持つ参照微調整データセットに基づいて微調整されました 25。 その後、モデルは参照テスト データセットでテストされます。このデータセットは、30 の細菌および酵母の分離株から構成され、30 の分離株ごとに 100 のスペクトルが含まれます 25。

細菌 ID 2: モデルは参照微調整データセットのみでトレーニングされ、その後参照テスト データセットでテストされました 25。

大腸菌バイナリ: モデルは、大腸菌 ATCC 35218 および大腸菌 ATCC 25922 で構成されるバイナリ データセットでトレーニングおよびテストされました。大腸菌バイナリ データセットのデータは、CaF\(_2\) スライド上で測定することによって取得されました。多層のバクテリアマットで覆われていました。 大腸菌バイナリ トレーニング データセットにはクラスごとに 5180 のスペクトルがあり、各クラスは 2 つの異なる積分時間で構成され、それぞれに 2590 のスペクトルが含まれます。 大腸菌バイナリ テスト データセットにはクラスごとに 2590 のスペクトルがあり、積分時間はトレーニング セットの積分時間とは異なります。 大腸菌バイナリ データセットの前処理は、ユーザーの介入なしで自動的に実行される 2 つのステップで構成されます: (i) Zhangfit43 を使用したベースライン補正ステップ、および (ii) 各ラマン スペクトルを 0 と 1 の間で正規化する正規化ステップ。

ラマンデータを取得するためのラマン顕微鏡を図1bに示します。 ラマン顕微鏡は、出力 60 mW の 785 nm 励起レーザー (TA pro、Toptica、ドイツ) を使用します。 ポンプ ビームは、モード フィールド直径 5.3 \(\upmu \)m の、長さ 1 メートルのシングルモード (SM) ファイバー (PANDA PM FC/PC から FC/APC パッチ ケーブル) で空間クリーニングされます。 オリンパスの長作動距離 \(100\time \) 顕微鏡対物レンズ (MO) (LMPLN-IR/LCPLN-IR、開口数 NA = 0.85) は、励起レーザーの集束と後方散乱光の収集の両方にイメージングに使用されます。 。 細菌サンプルはラマン等級フッ化カルシウム (CaF\(_2\)) 対物スライド上に配置され、位置は自動 XYZ スキャン ステージで制御されます。 ダイクロイック ミラー (DM) (ハイパス 750 nm、Semrock) を使用して、可視照明光を電荷結合素子 (CCD) に結合してイメージングします。 2 番目の DM (ハイパス 800 nm) は、ポンプからラマン信号を分離するために使用されます。 追加のフィルター (ハイパス、800 nm、Semrock) および (バンドパス、785 nm ± 10 nm、Semrock) が 785 nm ポンプのフィルターに使用されます。 長さ 5 m のマルチモード (MM) ファイバー (ø200 m、NA 0.39、FC/PC 対 FC/PC パッチ ケーブル) がラマン信号を収集し、分光計に送ります。 ラマンスペクトルの取得には、HR320 Horiba分光計を使用します。 すべての測定はスリット サイズ 300 \(\upmu \)m で実行され、使用された格子の線密度は 950 L/mm です。 検出には熱電冷却された電荷結合素子 (CCD) が使用されます (Synapse、1024 256、各ピクセル サイズは 26 \(\upmu \)m)。 CCD ピクセルは 2x20 ピクセルのクラスターにビニングされ、ノイズが低減され、SNR が向上します。 取得された各ラマン スペクトルは 700 ~ 1600 cm\(^{-1}\) の範囲の 480 点で構成され、分光計のスペクトル分解能は約 10 cm\(^{-1}\) です。

RS の位置を制御し、サンプリング ポイントを変更するために、Applied Scientific Instrumentation (ASI) の XYZ スキャニング ステージを使用します。 ASI ステッピング モーターは、位置決めとフィードバックに高解像度エンコーダーを採用した閉ループ DC サーボモーターを使用することで、正確な制御を実現します。 XY ステージの移動範囲は 100 mm \(\times \) 100 mm、位置精度は約 200 nm です。 カスタムメイドの Python ソフトウェアは、細菌サンプルのハイパースペクトル ラマン マップを取得するための走査ステージと堀場分光計を非同期に制御する完全なラマン顕微鏡の自動化のために開発されました。

ラマン顕微鏡のスペクトル校正 (および最適化) と翻訳ステージの校正には、サイズが 1 ~ 5 \(\upmu \)m のポリスチレン ビーズを使用します。 ポリスチレンビーズのサイズは細菌に匹敵し、細菌と同じラマンシフト領域に複数のラマンピークを構成します。 測定値と ST 予測マップから、ラマン マップの空間分解能は \(\estimate \) 2 \(\upmu \)m \(\pm 500\) nm) であり、ST 予測マップについては \( \約\) 3 \(\upmu \)m \(\pm 500\) nm)。

生のラマン スペクトルは、最初は化粧品のスパイクから除去されました。 続いて、各スペクトルの開始値と終了値の間の一次関数が特定され、減算されます。 最終の前処理ステップとして、スペクトルは 0 から 1 までの範囲に個別に正規化されました。 特に、Zhangfit [36] を使用したベースライン補正方法も調査しましたが、いかなる種類の非線形ベースライン除去も、特に NoiseMix と組み合わせて使用​​した場合、モデルのパフォーマンスに悪影響を与えることがわかりました。

テストフェーズでモデルのパフォーマンスを向上させるために、モデルのトレーニングフェーズでデータ拡張を適用します。 NoiseMix アルゴリズムは、細菌のスペクトル \(S_{bacteria}(\nu )\) とバックグラウンド スペクトル \(S_{bg}(\nu )\) をランダムに選択して混合することで機能します。 拡張ラマン スペクトル \(S_{bacteria}^{(aug)}(\nu )\) は次のように計算されます。

ここで、 \(\alpha \) は範囲 \([0, \alpha _{max}]\) の一様分布からランダムに選択され、 \(\alpha _{max} <1\) は上限です。バックグラウンドスペクトルの寄与。

ここで開発された ST ML モデルは、標準のトランスフォーマー エンコーダー 39 のコンパクト バージョンですが、シーケンス プーリングを使用してシーケンシャル出力を単一クラスにマッピングする点で異なります。ST モデルの構造は、図 1c に見ることができます。 これは、オプションの位置埋め込み層 (ST-pe) と、それに続くドロップアウト層で構成されます。 次の層は、層ノルム、マルチヘッド アテンション (MHA)、層ノルム、そして GELU 非線形性を持つ多層パーセプトロン (MLP) を順に含むブロックです。 これに層ノルムが続き、次にシーケンスプーリング層が続きます。 最後に、出力層は完全に接続された線形層です。 ST アーキテクチャは 3 つの引数 ST(i,j,k) によってパラメータ化されます。ここで、i はトランスフォーマー エンコーダーの深さ、j は MHA レイヤーのヘッドの数、k は多層パーセプトロン比です。 したがって、ST(1,2,7) バージョンでは、トランスフォーマ エンコーダの深さは 1、MHA 層のヘッドは 2 つ、MLP の隠れ層の次元は MLP 入力次元の 7 倍になります。 これらのハイパーパラメータとトレーニングに使用されるすべてのハイパーパラメータは、ツリー構造の Parzen Estimator を使用して、分離分類タスクで 1 つのトレーニングと検証の分割を使用して選択されました25。

モデルにバクテリア以外のバックグラウンド クラスを含めたので、精度と密度という 2 つのパフォーマンス指標を使用することを選択しました。 精度は、通常の意味で、細菌分類の総数に対する正しい細菌分類の比率として定義されます。 一方、密度は細菌の範囲の尺度であり、分類の総数に対する細菌の分類数として与えられます。

この研究の結果を裏付けるデータは、合理的な要求に応じて責任著者から入手できます。

世界保健機関。 抗菌薬耐性に関する世界的行動計画 (2015)。

抗菌耐性について、国連事務総長への ICG 報告書 (2019)。

Stekel, D. 抗菌剤耐性に関する最初の報告はペニシリンよりも古いものです。 Nature 562、1 (2018)。

記事 Google Scholar

O'Neill, J. 世界的な薬剤耐性感染症への取り組み: 最終報告書と推奨事項 (2016)。

マレー、CJ 他 2019 年の世界的な抗菌薬耐性の負荷: 体系的な分析。 ランセット誌 (2022)。

銀行グループ、W. 薬剤耐性感染症: 私たちの経済の将来に対する脅威 (2017)。

Tenover、FC 細菌における抗菌薬耐性のメカニズム。 午前。 J.Med. 119、S3–S10 (2006)。

記事 CAS Google Scholar

ホームズ、AH et al. 抗菌薬耐性のメカニズムと要因を理解する。 ランセット 387、176–187 (2016)。

記事 CAS Google Scholar

Dadgostar、P. 抗菌耐性: 影響とコスト。 感染する。 薬物耐性。 12、3903 (2019)。

記事 CAS Google Scholar

Nathan, C. 抗菌剤耐性への抵抗。 ナット。 Rev.Microbiol. 18、259–260 (2020)。

記事 CAS Google Scholar

アスラム、B.ら。 抗生物質耐性: 世界的な危機の概要。 感染する。 薬物耐性。 1645 年 11 日 (2018 年)。

記事 CAS Google Scholar

Khan, ZA、Siddiqui, MF & Park, S. 抗生物質感受性検査の現在および新しい方法。 診断学 9、49 (2019)。

記事 CAS Google Scholar

リバーター、M. et al. 水産養殖は地球温暖化と抗菌耐性の岐路に立っています。 ナット。 共通。 1870 年 11 日 (2020 年)。

記事 ADS CAS Google Scholar

Amann, S.、Neef, K. & Kohl, S. 抗菌耐性 (amr)。 ユーロ。 J. 病院薬学: 科学。 練習してください。 26、175–177 (2019)。

記事 Google Scholar

マサチューセッツ州アブシャヒーンら。 抗菌薬耐性、メカニズムおよびその臨床的意義。 ディス。 月 66、100971 (2020)。

記事 Google Scholar

Barghouthi、SA 一般的な PCR プライマーに基づいて細菌を同定するための普遍的な方法。 インディアン J. マイクロバイオル。 51、430–444 (2011)。

記事 CAS Google Scholar

Florio, W.、Tavanti, A.、Barnini, S.、Ghelardi, E. & Lupetti, A. Maldi-Tof 質量分析法による微生物感染症の診断における最近の進歩と進行中の課題。 フロント。 微生物。 9, 1097 (2018)。

記事 Google Scholar

Hou, T.-Y.、Chiang-Ni, C.、Teng, S.-H. 臨床微生物学における Maldi-Tof 質量分析法の現状。 J.食品医薬品アナル。 27、404–414 (2019)。

記事 CAS Google Scholar

ワン、L.ら。 細菌感染症におけるラマン分光法の応用: 原理、利点、欠点。 フロント。 微生物。 12、1 (2021)。

Google スカラー

Jones, RR、Hooper, DC、Zhang, L.、Wolverson, D. & Valev, VK ラマン技術: 基本と最前線。 ナノスケール解像度レット。 14、1–34 (2019)。

記事 Google Scholar

ニューメキシコ州ラルボフスキーおよびアイコニック州レドネフ 新しい普遍的な医療診断方法、ラマン分光法と機械学習の開発に向けて。 化学。 社会改訂 49、7428–7453 (2020)。

記事 CAS Google Scholar

Guo, S.、Popp, J. & Bocklitz, T. 実験計画から機械学習ベースのモデリングまでのラマン分光法における化学分析。 ナット。 プロトック。 16、5426–5459 (2021)。

記事 CAS Google Scholar

Lorenz, B.、Wichmann, C.、Stöckel, S.、Rösch, P. & Popp, J. 細菌の無培養ラマン分光研究。 トレンド微生物。 25、413–424 (2017)。

記事 CAS Google Scholar

Novelli-Rousseau、A. et al. 単一細菌のラマンスペクトルからの培養フリーの抗生物質感受性の決定。 科学。 議員 8、1–12 (2018)。

記事 CAS Google Scholar

Ho, C.、Jean, N.、Hogan, C. ラマン分光法と深層学習を使用した病原性細菌の迅速な同定。 ナット。 共通。 10、4927 (2019)。

記事 ADS Google Scholar

Ashton, L.、Lau, K.、Winder, CL、Goodacre, R. ラマン分光法: 微生物同定の未来を照らす。 フト。 微生物。 6、991–997 (2011)。

記事 CAS Google Scholar

Eberhardt, K.、Stiebing, C.、Matthaus, C.、Schmitt, M. & Popp, J. 分子診断におけるラマン分光法の利点と限界: 最新情報。 専門家 Rev. Mol. 診断します。 15、773–787 (2015)。

記事 CAS Google Scholar

チャン、K.-W. 他。 マイクロ流体システムにおける表面増強ラマン散乱を用いた抗生物質感受性試験。 アナル。 化学。 91、10988–10995 (2019)。

記事 CAS Google Scholar

Strola, SA et al. ラマン分光法による単一細菌の同定。 J.Biomed. オプション。 19、111610 (2014)。

記事 ADS Google Scholar

de Siqueira e Oliveira, FS、da Silva, AM、Pacheco, MTT、Giana, HE & Silveira, L. ラマン分光法と選択されたスペクトル特徴に基づく識別モデルを使用した病原性細菌種の生化学的特徴付け。 ラス。 医学。 Sci.36、289–302 (2021)。

Duraipandian, S.、Petersen, J. & Lassen, M. 自発ラマン分光法と多変量データ分析を使用した、エクストラバージン オリーブオイルの信頼性と濃度分析。 応用科学。 9、2433 (2019)。

記事 CAS Google Scholar

García-Timermans、C. et al. 細菌のラベルフリーラマン特性評価には、標準化された手順が必要です。 J.Microbiol. 方法 151、69–75 (2018)。

記事 Google Scholar

ルソー、AN et al. 単一細菌に対するラマン顕微分光分析による迅速な抗生物質感受性検査: mrsa のケーススタディ。 ACS オメガ 6、16273–16279 (2021)。

記事 CAS Google Scholar

Kloß, S.、Rösch, P.、Pfister, W.、Kiehntopf, M. & Popp, J. 腹水中の病原体の無培養ラマン分光同定に向けて。 アナル。 化学。 87、937–943 (2015)。

記事 Google Scholar

Franco-Duarte、R. et al. 過去から現在まで、微生物を同定するための化学的および生物学的方法の進歩。 微生物(2019)。

Pahlow, S. et al. ラマン分光法による細菌の分離と同定。 上級医薬品の配送。 改訂 89、105–120 (2015)。

記事 CAS Google Scholar

ルシエ、F.、ティボー、V.、シャロン、B.、ウォレス、GQ、マッソン、J.-F. ラマンおよび表面増強ラマン散乱のためのディープラーニングおよび人工知能手法。 TraAC、トレンドアナル。 化学。 124、115796 (2020)。

記事 CAS Google Scholar

Lu, W.、Chen, X.、Wang, L.、Li, H. & Fu, YV 微生物同定のための人工知能アプローチとレーザーピンセットラマン分光法の組み合わせ。 アナル。 化学。 92、6288–6296 (2020)。

記事 CAS Google Scholar

Parmar, N. et al. イメージトランスフォーマー 4055–4064 (2018)。

Shao、R.、Shi、Z.、Yi、J.、Chen、P.-Y. & シェ、C.-J. ビジュアルトランスフォーマーの敵対的堅牢性について。 arXiv 電子プリント arXiv–2103 (2021)。

Hassani、A. et al. コンパクトなトランスフォーマーでビッグデータのパラダイムから脱出します。 arXiv プレプリント arXiv:2104.05704 (2021)。 https://arxiv.org/pdf/2104.05704.pdf。

Kong, K.、Kendall, C.、Stone, N. & Notingher, I. インビトロ生体液アッセイからインビボ癌検出までの医療診断のためのラマン分光法。 上級医薬品の配送。 改訂 89、121–134 (2015)。

記事 CAS Google Scholar

Zhang、ZM、Chen、S.、Liang、YZ 適応型反復再重み付けペナルティ付き最小二乗法を使用したベースライン補正。 アナリスト 135、1138–1146 (2010)。

記事 ADS CAS Google Scholar

リファレンスをダウンロードする

BacAlert の Poul A. Jessen 氏との有意義な会話に感謝いたします。 RBGは研究当時、南デンマーク大学と提携しており、現在はデンマーク、スヴェンボルグのオーデンセ大学病院医学部診断センターと提携している。 この研究は、ユーロスターズ プロジェクト Bacsens (ケース No. 9046-00032A) のもと、デンマークの教育助成庁とデンマーク イノベーション基金 (IFD) から資金提供を受けました。

デンマーク基本計測学、Kogle Allé 5、2970、ホースホルム、デンマーク

ベンジャミン・ランドクイスト・トムセン、ジェスパー・B・クリステンセン、オルガ・ロデンコ、ミカエル・ラッセン

ベルリン工科大学光学原子物理学研究所、Straße des 17. Juni 135、10623、ベルリン、ドイツ

イスカンデル・ウセノフ

Art photonics GmbH、Rudower Ch 46、12489、ベルリン、ドイツ

イスカンデル・ウセノフ

臨床微生物学研究ユニット、南デンマーク大学およびオーデンセ大学病院、JB Winsløws Vej 21.2、5000、オーデンセ、デンマーク

ラスムス・バークホルム・グロンネモーセ & トーマス・エミル・アンデルセン

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

JBC、IU、および ML はラマン顕微鏡を設計および構築しました。 RBG と TEA は実験用の細菌を準備しました。 JBC、OR、および ML は、主要な実験ラマン結果を取得しました。 BLT は機械学習分析用のソフトウェアを設計および開発しました。 この論文は、BLT、JBC、および ML によって執筆され、著者全員の寄稿を受けています。 ML が研究を発案し、監督しました。

ミカエル・ラッセンへの手紙。

著者らは競合する利害関係を宣言していません。

シュプリンガー ネイチャーは、発行された地図および所属機関における管轄権の主張に関して中立を保ちます。

オープン アクセス この記事はクリエイティブ コモンズ表示 4.0 国際ライセンスに基づいてライセンスされており、元の著者と情報源に適切なクレジットを表示する限り、あらゆる媒体または形式での使用、共有、翻案、配布、複製が許可されます。クリエイティブ コモンズ ライセンスへのリンクを提供し、変更が加えられたかどうかを示します。 この記事内の画像またはその他のサードパーティ素材は、素材のクレジットラインに別段の記載がない限り、記事のクリエイティブ コモンズ ライセンスに含まれています。 素材が記事のクリエイティブ コモンズ ライセンスに含まれておらず、意図した使用が法的規制で許可されていない場合、または許可されている使用を超えている場合は、著作権所有者から直接許可を得る必要があります。 このライセンスのコピーを表示するには、http://creativecommons.org/licenses/by/4.0/ にアクセスしてください。

転載と許可

トムセン、BL、クリステンセン、JB、ロデンコ、O. 他機械学習を活用したラマン分光法を使用して、最小限に調製された細菌の表現型を正確かつ迅速に識別します。 Sci Rep 12、16436 (2022)。 https://doi.org/10.1038/s41598-022-20850-z

引用をダウンロード

受信日: 2022 年 6 月 26 日

受理日: 2022 年 9 月 20 日

公開日: 2022 年 9 月 30 日

DOI: https://doi.org/10.1038/s41598-022-20850-z

次のリンクを共有すると、誰でもこのコンテンツを読むことができます。

申し訳ございませんが、現在この記事の共有リンクは利用できません。

Springer Nature SharedIt コンテンツ共有イニシアチブによって提供

コメントを送信すると、利用規約とコミュニティ ガイドラインに従うことに同意したことになります。 虐待的なもの、または当社の規約やガイドラインに準拠していないものを見つけた場合は、不適切としてフラグを立ててください。

共有