Clear Sky Science · ja

機械学習と音声を用いたパーキンソン病、慢性閉塞性肺疾患、および健康対照の多クラス分類の利用

2026-05-19 · 一覧に戻る

人の声から病を聴く

私たちの多くは、声が健康についてどれほど多くを語るかを普段あまり考えません。しかし、音の高さや安定性、息の混じり具合の微妙な変化は、脳や肺に影響を与える疾患に関する手がかりを運んできます。本研究は、スマートフォンに向かって短く「アー」と発声した録音と最新の機械学習を組み合わせることで、パーキンソン病の人、慢性閉塞性肺疾患（COPD）の人、そして健康な高齢者を区別できるかを調べています。

Figure 1. 携帯電話で録音した単純な母音をモデルに入力し、音声をパーキンソン病、COPD、または健康群に分類します。

なぜパーキンソン病とCOPDは声に影響するのか

パーキンソン病は振戦やこわばりで知られますが、発話をより小さく、単調に、明瞭さを欠くようにすることもよくあります。長期にわたる肺疾患であるCOPDは気道を狭め呼吸を困難にし、その結果として声が弱く、かすれ、息が混じることがあります。両疾患はいずれも音を生み出すという単純な行為を乱しますが、医師にはまだ音声に基づく迅速で客観的な検査が不足しています。従来の研究の多くは「患者」か「健康」かを決めるだけで、一度に一疾患・一言語に限られることが多かったのです。本稿の著者らは、より難しく現実的な問いを立てました：単一のシステムが非常に単純な発話音を、異なる言語で聴き取り、三つの群に同時に分類できるか、という点です。

研究者たちが音声を収集し整えた方法

研究チームはモバイル端末で記録された二つの大規模音声コレクションを組み合わせました。ひとつはmPowerプロジェクトからのもので、英語話者のパーキンソン病患者と健康なボランティアを含んでいます。もうひとつはCOPDVDと呼ばれ、スウェーデン語話者のCOPD患者と対応する健康対照を含みます。群を比較可能にするために、研究者らは男女の比率、年齢、録音数が近い人々を慎重に選び、最終的に96名と持続的な「アー」の有効録音1,723件を得ました。無音区間を取り除き、各録音をピッチや粗さなどの基本的な音声指標や、メル周波数ケプストラム係数として知られる詳細なスペクトル特性を含む102次元の記述に変換しました。

Figure 2. 一つの音声が音響パターンとなり、四つのモデルを通して投票され、最終的に三つの分離した音声クラスターになります。

投票するアルゴリズムのチームに聴かせる

単一の機械学習手法を信用する代わりに、研究者らは四つの異なる分類器からなる「投票委員会」を構築しました。各アルゴリズムは録音の特徴量セットを解析し、それがパーキンソン病、COPD、あるいは健康対照のどれに属するかを確率付きで予測します。これらの確率を平均化して最終的な答えは委員会の合意を反映するようにしました。過学習で自分たちをだますのを避けるため、チームは厳格な訓練戦略を用いました：モデルはデータの別々のフォールドで何度も調整・評価され、最終的な性能は訓練中に一度も触れられていない別の被験者セット上で判定されました。

システムが音声から聞き取ったもの

独立したテストセット上で、アンサンブルは約84％の総合精度と、ほぼ0.84のバランスされたF1スコアを達成しました。これはサンプルサイズの違いにもかかわらず三群すべてで良好に機能したことを意味します。システムは特にパーキンソン病の検出に優れており、精度と再現率が最も高かったです。健康な音声の分類は中程度の成功率で、COPDの音声は最も識別が難しく、健康な録音と混同されることが多かったです。注目すべきは、パーキンソン病とCOPDが互いに取り違えられることはまれで、両者はともに異常を示しつつも、アルゴリズムが検出できる異なる音声的特徴を持つことを示唆しています。研究者らが母音が共鳴周波数で定義される音響“空間”をどう埋めるかを調べると、言語が異なっていても三群間で微妙ながら一貫したシフトや広がりが見られました。

ブラックボックスの内部をのぞく

システムの判断を導いた要因を理解するために、チームは各音声特徴に影響度スコアを割り当てる現代的説明ツールを用いました。最も重要な音響特性は群ごとに同じではないことがわかりました。年齢、詳細なスペクトル形状、ピッチ関連の指標はいずれも重要でしたが、パーキンソン病、COPD、健康対照で異なる組み合わせで寄与していました。例えば、特定のスペクトル記述子やフォルマントのパターンはCOPDでより影響力があり、特定のスペクトルおよびピッチの手がかりはパーキンソン病で強く働いていました。このパターンは、モデルが単に「異常に聞こえる声」を検出しているのではなく、持続母音を生成する際の疾患特有の側面を真に学習していることを示唆します。

日常医療にとっての意味

簡単に言えば、本研究は、普通のモバイル端末で録音した短い持続「アー」が、慎重に設計された機械学習システムによって脳に関連する音声問題と肺に関連する音声問題、そして加齢に伴う正常な音声を区別するのに十分な情報を含み得ることを示しています。このアプローチは医療診断の代わりにはならず、より大規模で多様な研究が必要ですが、迅速で非侵襲的な音声チェックが多言語・多環境にわたりパーキンソン病やCOPDのスクリーニングやモニタリングで臨床医を支援する未来を示唆しています。

引用: Idrisoglu, A., Behrens, A. Use of machine learning and voice for multiclass classification of Parkinson’s disease, chronic obstructive pulmonary disease, and healthy controls. Sci Rep 16, 15485 (2026). https://doi.org/10.1038/s41598-026-53409-3

キーワード: パーキンソン病, COPD, 音声バイオマーカー, 機械学習, モバイルヘルス