Mesterséges intelligencia egészségügyi válaszai
Diabéteszt érintő kérdéseknél a ChatGPT által adott válaszokról szűken bár, de még eldönthető, hogy gép vagy ember felel a kérdésekre.
- A szemaglutid kardiovaszkuláris előnyei
- Berberin a "természet Ozempic”je?
- A diabetológia fejlődése az elmúlt tíz évben
- Mesterséges intelligencia segítheti az inzulinadagolást
- Cagrilintid + semaglutid a diabezitás megelőzésére
- A COVID-19 járvány és az 1-es típusú diabetes
- Orális inzulinadagolás mikromotoros minitablettákkal
- 1-es típusú diabetesz kialakulását késleltető szer
- Heti egyszeri adagolású bázis inzulin
- Neuropátia és hipoglikémia-veszély 1-típusú diabetesben
- Őssejt-transzplantáció 1-es típusú diabetesben
A PLoS ONE folyóiratban augusztus 31-én jelent meg annak a vizsgálatnak az összefoglalója, amelyet dán kutatók végeztek annak értékelésére, hogy a ChatGPT mesterséges intelligencia platform mennyire megkülönböztethetően képes válaszolni a cukorbetegséggel kapcsolatos leggyakoribb kérdésekre. A mesterséges intelligencián (AI; artificial intelligence) alapuló úgynevezett nagy nyelvi modellek (LLM; large language models) nagy adatbázisokon alapulnak, és deep learning algoritmusokat használnak a természetes nyelv feldolgozására és megértésére. A deep learning (mély tanulás) fogalmát 2006-ban alkotta meg Geoffry Hinton kognitív pszichológus, és olyan algoritmusokat jelölt meg ezzel a kifejezéssel, amelyek lehetővé teszik a számítógép számára az objektumok és szövegek felismerését videókban és képeken. Az utóbbi években az LLM-ek használata a szélesebb közönség számára is elérhetővé vált, a legismertebb ilyen modell a ChatGPT, amelynek mára igen óvatos becslések szerint is világszerte több millió aktív felhasználója lett. Korábbi vizsgálatok kimutatták, hogy a felhasználók alacsony kockázatú kérdésekben igen szívesen hagyatkoznak az AI által adott válaszokra, illetve sokan tesznek fel egészségügyi jellegű kérdéseket - még akkor is, ha tudatában vannak, hogy a ChatGPT-t nem erre a célra fejlesztették ki.
A jelen tanulmányban a kutatók a ChatGPT diabétesszel kapcsolatos szakértelmét értékelték, különös tekintettel arra a képességére, hogy válaszai mennyire hasonlítanak élő embereknek a cukorbetegséggel kapcsolatos válaszaira, azaz megkülönböztethetőek-e egymástól a gép és az ember (orvos, szakértő) által adott válaszok (tehát gyakorlatilag egy Turing-tesztet végeztek). Ezen felül a kutatók azt is vizsgálták, hogy a cukorbetegekkel korábban egészségügyi szolgáltatóként interakcióban álló személyek, illetve a ChatGPT-t korábban használó személyek képesek-e az átlagembernél jobban felismerni a ChatGPT által generált válaszokat.
A vizsgálat nagyon egyszerű volt: 10 kérdés szerepelt benne, amelyekre két válasz volt feltüntetve a kérdések alatt - az egyiket egy ember, a másikat a ChatGPT írta, a feladat pedig az volt, hogy a résztvevőknek el kellett találniuk, melyik válasz származik az AI-tól.
A tíz kérdésben a cukorbetegséggel kapcsolatos patofiziológiai folyamatokra, a terápiával és a szövődményekkel, a fizikai aktivitással és az étkezéssel kapcsolatos kérdésekre is kitértek. Az elemzéshez logisztikus regressziós modellt alkalmaztak, és meghatározták az esélyhányadosokat (OR, odds ratios), majd egy másodlagos elemzés során a résztvevők egyes jellemzőinek a kimenetelre gyakorolt hatását értékelték. Korábbi vizsgálati eredmények alapján 55%-ban határozták meg azt a határt, ahol az AI-t nem sikerül megkülönböztetni az embertől, vagy a 10 kérdésnél átlagosan 5,5 alkalommal kellett volna a résztvevőknek helytelenül azonosítani a válaszadót ahhoz, hogy a Turing-teszt sikeres legyen. A vizsgálat résztvevői a Steno Diabetes Center Aarhus (SDCA) teljes- vagy részidős dolgozói voltak, akik e-mailben kaptak meghívást, amely egy személyre szabott URL-címet tartalmazott, így mindenki egyszer végezhette el a felmérést 2023. január 23. és 27. között. A 311 meghívott személy közül 183 töltötte ki a felmérést (59%-os válaszadási arány), 70%-uk (n=129) nő volt. A résztvevők 64%-a hallott korábban a ChatGPT-ről, 19%-uk használta azt, és 58%-uk (n=107) korábban egészségügyi szakemberként érintkezett cukorbetegekkel.
Eredmények
A résztvevők az esetek 60%-ában helyesen azonosították a ChatGPT által generált válaszokat, ami meghaladta az előre definiált 55%-os küszöbértéket. A férfiak 64%-os, a nők pedig 58%-os eséllyel ismerték fel pontosan a mesterséges intelligencia által generált választ. Azok, akik korábban kapcsolatba kerültek cukorbetegekkel, 61%-ban válaszoltak pontosan a kérdésekre, míg korábbi kapcsolat nélkül 57% volt az arány.
A résztvevők egyéni jellemzői közül a korábbi ChatGPT-használat mutatta a legerősebb kapcsolatot az eredménnyel (OR: 1,5). Hasonló nagyságú esélyhányadost mutatott az 50 év feletti életkor is, amelynél a mesterséges intelligencia által generált válasz helyes felismerése az átlagnál magasabb volt (OR: 1,3). A korábbi ChatGPT-felhasználók és az alkalmazást nem ismerők a kérdések 67%-ára, illetve 58%-ára válaszoltak helyesen. A kezdeti feltételezéssel ellentétben egy érmefeldobás valószínűségéhez képest a résztvevők jobb eséllyel tudták megkülönböztetni a ChatGPT által generált és az ember által írt válaszokat.
A kutatók következtetései
A kutatók szerint bár a ChatGPT-ben igenis rejlenek a gyakran feltett kérdések pontos megválaszolásának területén kiaknázandó lehetőségek, a félretájékoztatással kapcsolatos problémák és az árnyalt, személyre szabott tanácsadás hiánya nyilvánvaló. Mivel a nagyméretű nyelvi modellek felhasználása egyre gyakrabban kapcsolódik össze az egészségügyi ellátással, szigorú vizsgálatokra van szükség a biztonságosság, a hatékonyság és az etikai megfontolások szempontjainak tisztázásához.
Írásunk az alábbi közlemények alapján készült:
Can ChatGPT be a diabetes consultant? Study probes the potential and pitfalls
Irodalmi hivatkozás:
Hulman A, Dollerup OL, Mortensen JF, Fenech ME, Norman K, Støvring H, et al. (2023) ChatGPT- versus human-generated answers to frequently asked questions about diabetes: A Turing test-inspired survey among employees of a Danish diabetes center. PLoS ONE 18(8): e0290773. DOI: https://doi.org/10.1371/journal.pone.0290773