Az AI korlátai a diagnosztikában
Egyes csoportok (nők, feketék) esetén a modellek sokkal kevésbé pontos diagnózist adnak.
- A mesterséges intelligencia alkalmazásának lehetőségei a pszichiátriai diagnosztikában
- AI az agytumorok differenciáldiagnózisában
- Mesterséges intelligencia a pszichózis kialakulásának predikciójában
- Új vérteszt Alzheimer-kór korai predikciójára
- Mesterséges intelligencia a glioblasztóma terápiájában
- AI a petefészekrák korai diagnosztizálásában
- Mesterséges intelligencia a kéztőalagút-szindróma diagnosztizálásában
- Színezős játék az autizmus korai felismerésében
- Mesterséges intelligencia egészségügyi válaszai
- Mesterséges intelligencia az autizmus spektrum zavar kimutatásában
- Mesterséges intelligencia segítheti az inzulinadagolást
- Mesterséges intelligencia az emlőrák kockázatának meghatározásában
- Mire lehet jó a ChatGPT jelenleg az orvoslásban?
A Nature Medicine folyóiratban június 28-án jelent meg a Massachusetts Institute of Technology (MIT) kutatóinak cikke, amelyben a mesterséges intelligencia (AI; artificial intelligence) diagnosztikai célú felhasználásának korlátait elemezték. Napjainkban a mesterséges intelligencia alapú modellek, algoritmusok egyre gyakrabban játszanak szerepet az orvosi diagnózisok felállításában, különösen a képalkotó vizsgálatok eredményeinek, például a röntgenfelvételeknek az elemzése során. Ezt a számok is alátámasztják: 2024 májusáig az Egyesült Államokban az FDA 882 mesterséges intelligencia alapú orvostechnikai eszközt hagyott jóvá, amelyek közül 671-et a radiológiában való felhasználásra terveztek. Az utóbbi években megjelent tanulmányok azonban azt találták, hogy ezek a modellek nem mindig bizonyulnak pontosnak az összes demográfiai csoport esetében: általában a nők és a színes bőrűek esetében rosszabbul teljesítenek. Azt is kimutatták, hogy ezek a modellek meglepő, régebben egyáltalán nem várt és létrehozásuk idejében nem szándékolt képességeket is kialakítottak. Az MIT kutatói 2022-ben például arról számoltak be, hogy a mesterséges intelligencia alapú modellek képesek pontosan meghatározni a beteg rasszbéli hovatartozását mellkasröntgen felvételek alapján - ezt még a legképzettebb radiológusok sem tudják utánuk csinálni.
Ugyanez a kutatócsoport mostani cikkében azt közölte, hogy pont azok a modellek, amelyek a legpontosabban tudnak demográfiai előrejelzéseket készíteni, egyidejűleg a legnagyobb “igazságossági szakadékot” is mutatják - vagyis eltéréseket mutatnak abban a képességükben, hogy pontosan diagnosztizálják a különböző rasszba vagy nembe tartozó emberekről készült képalkotó felvételeket. Az eredmények arra utalnak, hogy ezek a modellek képesek ugyan meghatározni a vizsgált betegek nemét, rasszát és akár életkorát is, de a nők, a feketék és más csoportok diagnosztikai értékelése esetében pontatlan eredményeket adhatnak ki.
“Jól ismert, hogy a nagy kapacitású gépi tanulási modellek viszonylag pontos prediktorai az emberi demográfiai jellemzőknek, például a rasszbéli vagy nemi hovatartozásnak, és az életkornak. Ezeket a modelleket úgy kell újra betanítani, hogy azok igazságossága javuljon. A "debiasing" megközelítésük azonban akkor működött a legjobban, amikor a modelleket ugyanazokon a betegtípusokon tesztelték, amelyeken betanították őket, például ugyanazon kórház betegein. Haoran Zhang, a cikk első szerzője szerint “a legfontosabb tanulságok a következők: először is, alaposan ki kell értékelni minden külső modellt a kórház saját adatain, mert a modellfejlesztők által a betanítás során használt adatok nem feltétlenül fedik az adott kórház populációjának összetételét. Másodszor, amikor már elegendő adat áll rendelkezésre, a modelleket a saját adatok felhasználásával kell tovább tanítani.”
Ebben a tanulmányban a kutatók azt tervezték feltárni, hogy ezek a modellek miért nem működnek olyan jól bizonyos csoportok esetében. Egy nyilvánosan elérhető mellkasröntgen-adatbázis felhasználásával a kutatók modelleket képeztek ki arra, hogy megjósolják, hogy a betegeknél három különböző orvosi állapot közül valamelyik fennáll-e: folyadékgyülem a tüdőben, tüdő összeomlás vagy szívmegnagyobbodás. Ezután a modelleket a betanítás során használt adatok között fel nem használt, vagyis teljesen új röntgenfelvételeken tesztelték.
Összességében a modellek jól teljesítettek, de a legtöbbjük eltéréseket mutatott a férfiak és nők, valamint a fehér és fekete betegek pontossági arányai között. A modellek képesek voltak megjósolni a röntgenfelvételek alanyainak nemét, rasszát és életkorát is. A kutatók ezután kétféle stratégiával próbálták csökkenteni ezeket az eltéréseket, vagyis a modellek részrehajlását („bias”). Az egyik “debiasing” eljárás során úgy képezték ki a modelleket, hogy optimalizálták az alcsoport-robusztusságot, ami azt jelentette, hogy a modelleket jutalmazzák, ha jobb teljesítményt nyújtanak abban az alcsoportban, amelyben a legrosszabb a teljesítményük, és büntetik, ha az egyik csoportra vonatkozó hibaarányuk magasabb, mint a többié. A másik módszer során a kutatók arra kényszerítették a modelleket, hogy a képekből távolítsanak el minden demográfiai információt, ezzel egyfajta “inkluzív” megközelítést alkalmazva. Az eredmények szerint mindkét stratégia meglehetősen jól működött.
“Az eloszláson belüli adatok esetében a meglévő legkorszerűbb módszereket lehet használni a különbségek csökkentésére anélkül, hogy jelentős kompromisszumokat kellene kötni az általános teljesítményben” - fejtette ki Marzyeh Ghassemi, a kutatás vezetője. “Az alcsoport robusztussági módszerek arra kényszerítik a modelleket, hogy érzékenyek legyenek egy adott csoportnál adott téves predikciókra, az inkluzív módszerek pedig megpróbálják teljesen eltávolítani a csoportra jellemző információkat.”
Minden szépnek tűnt, csakhamar azonban kiderült, hogy ezek a “debiasing” megközelítések csak akkor működtek, ha a modelleket ugyanolyan típusú betegek adatain tesztelték, mint amilyeneken betanították őket - például csak az eredetileg használt Beth Israel Deaconess Medical Center (BIDMC) adatállományából származó betegeken. Amikor a kutatók a BIDMC-adatok felhasználásával betanított, de a fenti két módszerrel “lebutított” modelleket öt másik kórházi adatbázisból származó betegek elemzése során tesztelték, azt találták, hogy a modellek általános pontossága magas maradt ugyan, de némelyikük továbbra is jelentős nemi vagy rassz alapú különbségeket mutatott.
“Ha egy adott modellt egy adott betegcsoport alkalmazásával ilyen “debias” eljárásnak vetünk alá, ez a hatás már nem feltétlenül marad meg, amikor egy másik kórházból, egy másik helyről származó új beteghalmazra térünk át” - fejtette ki Zhang.
Ez azért aggasztó, mert a kutatók szerint a kórházak sok esetben olyan modelleket használnak, amelyeket más kórházak adatai alapján fejlesztettek ki, különösen azokban az esetekben, amikor egy kész modellt vásárolnak.
“Azt találtuk, hogy még a legkorszerűbb modellek, amelyek a betanítási adataikhoz hasonló adatokon jól teljesítenek, nem optimálisak - azaz nem a legjobb kompromisszumot kötik az általános és az alcsoportok teljesítménye között - az újszerű környezetben” - összegzett Ghassemi. “Sajnos, valójában valószínűleg csak így fogják alkalmazni a modellt. A legtöbb modellt egy kórházból vagy egy forrásból származó adatokkal képzik ki és validálják, majd széles körben használják.”
A kutatók azt találták, hogy az inkluzív, tehát az adatokból a nemre és rasszra jellemző jegyeket eltávolító modellek valamivel kisebb részrehajlást mutattak, amikor új betegcsoportokon tesztelték őket, mint az alcsoportos robusztussági módszerekkel butított modellek. A kutatók most azt tervezik, hogy megpróbálnak további módszereket kifejleszteni és tesztelni, hogy kiderüljön, sikerül-e olyan modelleket létrehozni, amelyek új adathalmazokon jobban képesek igazságos, részrehajlás nélküli előrejelzéseket készíteni.
Az eredmények tehát azt sugallják, hogy az ilyen típusú mesterséges intelligencia alapú modelleket használó kórházaknak a saját betegpopulációjukon lenne ajánlatos értékelniük azokat, mielőtt elkezdenék használni őket, hogy megbizonyosodjanak arról, hogy bizonyos csoportok esetében a modellek nem adnak-e pontatlan eredményeket.
Írásunk az alábbi közlemények alapján készült:
Study reveals why AI models that analyze medical images can be biased
The limits of fair medical imaging AI in real-world generalization
Irodalmi hivatkozás:
The limits of fair medical imaging AI in real-world generalization, Nature Medicine (2024). DOI: 10.1038/s41591-024-03113-4