Clear Sky Science · ja

非連続型の医療表形式データにおける畳み込みニューラルネットワークの不安定性と性能限界:実証的調査

· 一覧に戻る

日常医療でこれが重要な理由

病院では画像ではなくスプレッドシートのような医療記録を使って、誰ががん、心臓病、重篤な感染症にかかっているかを予測するために人工知能を利用する例が増えています。本研究は、一見単純だが実務に大きな影響を与える問いを投げかけます:今日広く使われる画像向けのニューラルネットワークは、こうした非画像の列ベース医療データに入力したときに信頼できるのか、それとも医師や患者を誤導するような予測不安定性を示すのか?

Figure 1
Figure 1.

脳に着想を得た二種類の計算機

研究者らは、大まかに脳の情報処理を模倣する二つのニューラルネットワーク群を比較しました。畳み込みニューラルネットワーク(CNN)は現代の画像認識の主力で、小さな領域を順に走査してエッジやテクスチャのような局所パターンを探し、それらを組み上げてより複雑な形状を構築します。一方、多層パーセプトロン(MLP)はより単純なアプローチを取ります:年齢や血圧、検査値といった各入力特徴を独立した数値として扱い、特定の順序や近接性を仮定せずにそれらすべての重み付き組み合わせを学習します。

医療の表形式データでの実地検証

これらのモデルが実際の医療データでどのように振る舞うかを確かめるために、研究チームは画像ではなくスプレッドシートに似た三つのよく知られた医療データセットを用いました。一つはCOVID‑19患者の臨床および検査値を含み、生存を予測するためのものです。別のデータは顕微鏡による乳房腫瘍の測定値で、悪性と良性を区別するために使われました。三つ目は循環器データベースからの典型的な心疾患リスク因子を含みます。重要なのは、これらのデータセットは変数を横並びで列挙しているものの、画像のピクセルのように意味を持つ「左から右」の自然な順序が存在しない点です。

列のシャッフルとモデルへの負荷試験

研究の核は大規模なストレステストでした。著者らは入力列の順序を繰り返しシャッフルし、同時にCNN設計の主要部分、たとえば小さな「パッチ読み取り器」(カーネル)の数、パッチの幅、最終的な判断層に置かれるニューロン数などをランダムに変えました。シャッフルとアーキテクチャの各組み合わせについて—合計で1,000通りの順列—それぞれCNNを訓練し、並行して比較可能なMLPも訓練しました。単一の「最高」精度に注目する代わりに、これらすべての試行で性能スコアがどのように分布するかを見ました。評価指標には、患者を病変/非病変にどれだけ分離できるかの要約としてROC曲線下面積(AUROC)を用いました。

Figure 2
Figure 2.

ブラックボックスの中で彼らが見つけたもの

結果は、非画像の医療表形式データに対するCNNに関して厳しい光景を描きました。慎重に調整された特定条件では、CNNはピーク性能でMLPに匹敵するかやや上回ることがあり、特に多くの強く明瞭に分離する特徴を持つ乳がんデータではその傾向が見られました。しかし、すべてのシャッフルとアーキテクチャ全体にわたって、CNNは性能の振れ幅がはるかに大きく、時折非常に悪い結果を出すという憂慮すべき傾向を示しました。成功か失敗かは恣意的な選択に大きく依存していました:列の並び方、各走査窓の大きさ、フィルタ数や最終層ノード数などです。多くの近接特徴を混ぜ合わせる大きな走査窓は、これらの非連続入力において平均性能と安定性の両方を一貫して損なうことが分かりました。

なぜより単純なモデルがしばしば良好に振る舞ったか

対照的に、MLPは列の順序に対する感度がはるかに低かったです。MLPは局所的な近傍を仮定しないため、特徴をシャッフルしても理論的に学習可能な内容は変わりません。研究者らがMLPの隠れ層ニューロン数を増やすと、性能は着実に向上し、多くの場合は総パラメータが少ないにもかかわらずCNNを上回りました。明確に情報量の多い特徴を持つデータセットでは双方とも高く安定したスコアが得られましたが、それでもCNNは時折の崩壊リスクを抱えていました。弱い信号が支配する難しいデータセットでは、CNNの性能はアーキテクチャの選択により激しく変動した一方で、MLPは比較的安定していました。

臨床AIへの持ち帰りメッセージ

画像ではなくスプレッドシート型の記録に依拠する医療用途において、本研究はCNNが脆弱なツールになり得ると結論づけています。一部のベンチマークで見られるCNNの優位性は、列の並びの幸運や特定の設計上の決定によるものであり、本当に医学的パターンを頑健に学習した結果とは限りません。意味のある空間配置を仮定しないMLPや他の手法は、数千回の試行にわたって総じてより信頼できる振る舞いを示しました。医師、病院のデータサイエンティスト、規制当局にとっての教訓は明白です:表形式の医療データでAIシステムを構築する際は、画像スタイルのネットワークから得られる単一の最高性能値を追い求めるよりも、安定性と透明性を優先する方が安全です。

引用: Wang, C., Elgendi, M. & Shin, H. Instability and performance limits of convolutional neural networks on non-sequential medical tabular data: an empirical investigation. Sci Rep 16, 11914 (2026). https://doi.org/10.1038/s41598-026-39875-9

キーワード: 医療表形式データ, 畳み込みニューラルネットワーク, 多層パーセプトロン, 臨床予測モデル, モデルの安定性