Clear Sky Science · pl
Kontrastowe osadzanie oparte na hipergrafach i fuzja uwagi do wykrywania raka skóry
Dlaczego mądrzejsze badania skóry mają znaczenie
Rak skóry jest jednym z najczęstszych nowotworów, a czerniak, choć stosunkowo rzadki, jest szczególnie groźny, jeśli zostanie wykryty późno. Lekarze mogą korzystać ze powiększonych zdjęć znamion i plam, zwanych obrazami dermoskopowymi, aby szukać nieprawidłowości, ale wiele zmian wygląda myląco podobnie. Niektóre groźne nowotwory występują rzadko w praktyce, a więc są niewystarczająco reprezentowane w danych treningowych dla systemów sztucznej inteligencji. W artykule przedstawiono nowy system wizji komputerowej o nazwie C2G‑HFMTA, zaprojektowany do bardziej niezawodnego wykrywania raka skóry, zwłaszcza rzadkich, ale krytycznych przypadków, przy jednoczesnym zapewnieniu wyjaśnień zrozumiałych dla klinicystów.

Równoważenie powszechnych i rzadkich zmian skórnych
Główną przeszkodą w automatycznym przesiewaniu raka skóry jest nierównowaga: niektóre łagodne zmiany występują w zbiorach danych tysiące razy, podczas gdy poważne nowotwory lub nietypowe zmiany mogą pojawiać się tylko kilkadziesiąt razy. Standardowe modele głębokiego uczenia mają tendencję do koncentrowania się na klasie większościowej i pomijania klas rzadkich — dokładnie odwrotnie niż oczekują lekarze. Autorzy rozwiązują to, najpierw reorganizując duży zbiór dermoskopowy HAM10000, który zawiera ponad dziesięć tysięcy obrazów obejmujących siedem typów zmian skórnych. Ich strategia, nazwana Segmentacją Klastrową według Klas, grupuje obrazy w trzy klastry — bardzo częste, umiarkowanie częste i rzadkie zmiany — i zapewnia, że podczas treningu algorytm poświęca zorganizowaną uwagę każdej grupie, zamiast zostać zdominowanym przez przypadki większościowe.
Nauczanie systemu relacji między przypadkami
Zamiast jedynie podawać obrazy do sieci neuronowej i prosić ją o zapamiętywanie wzorców, framework buduje abstrakcyjną mapę relacji między obrazami. Przy użyciu wydajnego ekstraktora cech (DenseNet201) każdy obraz zmiany zostaje przekształcony w numeryczny odcisk palca. Te odciski stają się węzłami w grafie, gdzie krawędzie pokazują, jak podobne są dwie zmiany. Autorzy idą dalej i wykorzystują „hipergraf”, który może łączyć jednocześnie wiele obrazów, wychwytując bogatsze wzorce grupowe. Na tej strukturze stosują nadzorowany schemat uczenia kontrastowego: obrazy o tej samej diagnozie są przyciągane bliżej siebie w tej abstrakcyjnej przestrzeni, podczas gdy obrazy o różnych rozpoznaniach są odpychane. Kluczowe jest to, że proces ten jest prowadzony bezpośrednio przez prawdziwe etykiety zmian, a nie przez silne zniekształcenia obrazu, dzięki czemu subtelne kolory i tekstury ważne dla diagnozy zostają zachowane.

Pozwalanie znaczeniu kierować uwagą
Drugim istotnym składnikiem jest moduł fuzji oparty na uwadze, który łączy to, czego nauczył się graf, z surowymi cechami wizualnymi obrazów. Reprezentacje pochodzące z grafu, które kodują, jak każda zmiana odnosi się do innych w całym zbiorze danych, działają jak wysokopoziomowe „pytanie” o tożsamość klasy. Cechy na poziomie pikseli z oryginalnych obrazów pełnią rolę „dowodów”. W obrębie multimodalnego bloku uwag oba te strumienie wchodzą w interakcję: wskazówki semantyczne z grafu kierują modelem, aby skupił uwagę na regionach i wzorcach obrazu istotnych dla rozróżnienia trudnych przypadków. Połączenia resztkowe i przetwarzanie wieloskalowe pomagają zachować drobne detale, takie jak subtelne zmiany pigmentacji, nieregularne brzegi czy drobne naczynia krwionośne, które często odróżniają zmianę groźną od niegroźnej.
Jak dobrze działa model
Naukowcy ocenili swój system na zbiorze HAM10000, stosując staranne protokoły eksperymentalne, w tym pięciokrotną walidację krzyżową i obszerne porównania z ponad 30 popularnymi modelami opartymi na konwolucjach i transformerach. Ich metoda osiągnęła około 93% dokładności ogólnej oraz podobny wynik F1, znacznie przewyższając wszystkie metody bazowe. Co ważne, największe korzyści zaobserwowano dla rzadkich typów zmian, z którymi większość systemów ma problemy. Dodatkowe testy pokazały, że każdy element — klastrowanie według klas, kontrastowe osadzanie w hipergrafie i fuzja uwag — wnosił mierzalny wkład w osiągi. Narzędzia wizualne, takie jak t‑SNE, UMAP i mapy ciepła Grad‑CAM, ujawniły, że nowa metoda tworzy wyraźniejsze klastry typów zmian i skupia uwagę na obszarach obrazu mających znaczenie medyczne, takich jak nieregularne brzegi w czerniaku czy gęste obszary keratyny w niektórych zmianach przednowotworowych.
Co to oznacza dla przyszłych badań skóry
Mówiąc wprost, badanie przedstawia framework AI, który jest jednocześnie bardziej sprawiedliwy i bardziej rozróżniający przy badaniu zmian skórnych. Poprzez jawne zrównoważenie przypadków powszechnych i rzadkich, mapowanie relacji między obrazami i pozwolenie tym relacjom kierować tym, gdzie model „patrzy” na każdym zdjęciu, C2G‑HFMTA znacząco poprawia komputerowe rozpoznawanie raka skóry. Chociaż system nadal wymaga walidacji na większych i bardziej zróżnicowanych zbiorach klinicznych, wskazuje drogę do przyszłych narzędzi, które mogłyby pomóc dermatologom — a nawet domowym aplikacjom przesiewowym — wykrywać groźne nowotwory skóry wcześniej i z większą pewnością, nie tracąc z pola widzenia rzadkich przypadków, które mają największe znaczenie.
Cytowanie: Banerjee, T., Chhabra, P., Kumar, M. et al. Hypergraph-based contrastive embedding and attention fusion for detection of skin cancer. Sci Rep 16, 12808 (2026). https://doi.org/10.1038/s41598-026-43351-9
Słowa kluczowe: wykrywanie raka skóry, sztuczna inteligencja w dermoskopii, uczenie kontrastowe, nierównowaga klas, analiza obrazów medycznych