hirdetés

Mesterséges intelligencia egészségügyi válaszai

Diabéteszt érintő kérdéseknél a ChatGPT által adott válaszokról szűken bár, de még eldönthető, hogy gép vagy ember felel a kérdésekre.

hirdetés

A PLoS ONE folyóiratban augusztus 31-én jelent meg annak a vizsgálatnak az összefoglalója, amelyet dán kutatók végeztek annak értékelésére, hogy a ChatGPT mesterséges intelligencia platform mennyire megkülönböztethetően képes válaszolni a cukorbetegséggel kapcsolatos leggyakoribb kérdésekre. A mesterséges intelligencián (AI; artificial intelligence) alapuló úgynevezett nagy nyelvi modellek (LLM; large language models) nagy adatbázisokon alapulnak, és deep learning algoritmusokat használnak a természetes nyelv feldolgozására és megértésére. A deep learning (mély tanulás) fogalmát 2006-ban alkotta meg Geoffry Hinton kognitív pszichológus, és olyan algoritmusokat jelölt meg ezzel a kifejezéssel, amelyek lehetővé teszik a számítógép számára az objektumok és szövegek felismerését videókban és képeken. Az utóbbi években az LLM-ek használata a szélesebb közönség számára is elérhetővé vált, a legismertebb ilyen modell a ChatGPT, amelynek mára igen óvatos becslések szerint is világszerte több millió aktív felhasználója lett. Korábbi vizsgálatok kimutatták, hogy a felhasználók alacsony kockázatú kérdésekben igen szívesen hagyatkoznak az AI által adott válaszokra, illetve sokan tesznek fel egészségügyi jellegű kérdéseket - még akkor is, ha tudatában vannak, hogy a ChatGPT-t nem erre a célra fejlesztették ki.

A jelen tanulmányban a kutatók a ChatGPT diabétesszel kapcsolatos szakértelmét értékelték, különös tekintettel arra a képességére, hogy válaszai mennyire hasonlítanak élő embereknek a cukorbetegséggel kapcsolatos válaszaira, azaz megkülönböztethetőek-e egymástól a gép és az ember (orvos, szakértő) által adott válaszok (tehát gyakorlatilag egy Turing-tesztet végeztek). Ezen felül a kutatók azt is vizsgálták, hogy a cukorbetegekkel korábban egészségügyi szolgáltatóként interakcióban álló személyek, illetve a ChatGPT-t korábban használó személyek képesek-e az átlagembernél jobban felismerni a ChatGPT által generált válaszokat.

A vizsgálat nagyon egyszerű volt: 10 kérdés szerepelt benne, amelyekre két válasz volt feltüntetve a kérdések alatt - az egyiket egy ember, a másikat a ChatGPT írta, a feladat pedig az volt, hogy a résztvevőknek el kellett találniuk, melyik válasz származik az AI-tól.

A tíz kérdésben a cukorbetegséggel kapcsolatos patofiziológiai folyamatokra, a terápiával és a szövődményekkel, a fizikai aktivitással és az étkezéssel kapcsolatos kérdésekre is kitértek. Az elemzéshez logisztikus regressziós modellt alkalmaztak, és meghatározták az esélyhányadosokat (OR, odds ratios), majd egy másodlagos elemzés során a résztvevők egyes jellemzőinek a kimenetelre gyakorolt hatását értékelték. Korábbi vizsgálati eredmények alapján 55%-ban határozták meg azt a határt, ahol az AI-t nem sikerül megkülönböztetni az embertől, vagy a 10 kérdésnél átlagosan 5,5 alkalommal kellett volna a résztvevőknek helytelenül azonosítani a válaszadót ahhoz, hogy a Turing-teszt sikeres legyen. A vizsgálat résztvevői a Steno Diabetes Center Aarhus (SDCA) teljes- vagy részidős dolgozói voltak, akik e-mailben kaptak meghívást, amely egy személyre szabott URL-címet tartalmazott, így mindenki egyszer végezhette el a felmérést 2023. január 23. és 27. között. A 311 meghívott személy közül 183 töltötte ki a felmérést (59%-os válaszadási arány), 70%-uk (n=129) nő volt. A résztvevők 64%-a hallott korábban a ChatGPT-ről, 19%-uk használta azt, és 58%-uk (n=107) korábban egészségügyi szakemberként érintkezett cukorbetegekkel.

 

Eredmények

A résztvevők az esetek 60%-ában helyesen azonosították a ChatGPT által generált válaszokat, ami meghaladta az előre definiált 55%-os küszöbértéket. A férfiak 64%-os, a nők pedig 58%-os eséllyel ismerték fel pontosan a mesterséges intelligencia által generált választ. Azok, akik korábban kapcsolatba kerültek cukorbetegekkel, 61%-ban válaszoltak pontosan a kérdésekre, míg korábbi kapcsolat nélkül 57% volt az arány.

A résztvevők egyéni jellemzői közül a korábbi ChatGPT-használat mutatta a legerősebb kapcsolatot az eredménnyel (OR: 1,5). Hasonló nagyságú esélyhányadost mutatott az 50 év feletti életkor is, amelynél a mesterséges intelligencia által generált válasz helyes felismerése az átlagnál magasabb volt (OR: 1,3). A korábbi ChatGPT-felhasználók és az alkalmazást nem ismerők a kérdések 67%-ára, illetve 58%-ára válaszoltak helyesen. A kezdeti feltételezéssel ellentétben egy érmefeldobás valószínűségéhez képest a résztvevők jobb eséllyel tudták megkülönböztetni a ChatGPT által generált és az ember által írt válaszokat.

 

A kutatók következtetései

A kutatók szerint bár a ChatGPT-ben igenis rejlenek a gyakran feltett kérdések pontos megválaszolásának területén kiaknázandó lehetőségek, a félretájékoztatással kapcsolatos problémák és az árnyalt, személyre szabott tanácsadás hiánya nyilvánvaló. Mivel a nagyméretű nyelvi modellek felhasználása egyre gyakrabban kapcsolódik össze az egészségügyi ellátással, szigorú vizsgálatokra van szükség a biztonságosság, a hatékonyság és az etikai megfontolások szempontjainak tisztázásához.

 

Írásunk az alábbi közlemények alapján készült:

Can ChatGPT be a diabetes consultant? Study probes the potential and pitfalls

ChatGPT- versus human-generated answers to frequently asked questions about diabetes: A Turing test-inspired survey among employees of a Danish diabetes center

Irodalmi hivatkozás:

Hulman A, Dollerup OL, Mortensen JF, Fenech ME, Norman K, Støvring H, et al. (2023) ChatGPT- versus human-generated answers to frequently asked questions about diabetes: A Turing test-inspired survey among employees of a Danish diabetes center. PLoS ONE 18(8): e0290773. DOI: https://doi.org/10.1371/journal.pone.0290773

hirdetés
Olvasói vélemény: 0,0 / 10
Értékelés:
A cikk értékeléséhez, kérjük először jelentkezzen be!
Ha hozzá kíván szólni, jelentkezzen be!
 

blog

Egy 57 éves, frissen kezelni kezdett hypertoniás, dohányzó férfibetegnél korábban, hegymenetben jelentkezett már anginaszerű panasza, ami miatt kardiológushoz előjegyezték. Most favágás közben jelentkezett retrosternalis szorító-markoló fájdalom.

Amennyiben a képalkotó szakemberek számára rendelkezésre áll egy iPhone vagy egy iPad készülék, rengeteg minőségi radiológia-orientált alkalmazás közül választhatnak. A más operációs rendszert használók számára jelenleg sokkal korlátozottabbak a lehetőségek.

Úgy látszik, a fül- orr- gégészetet egyre szorosabb szálak fűzik össze a babasamponnal. Most kiderült, hogy alkalmas nasenendoscopia, azaz orrtükrözés során páramentesítésre is, legalábbis thaiföldi kollégák szerint.

Azok számára, akik tudják, mik a gyógyszer hatóanyagai, a mélyvénás trombózis miatti halálesetekről szóló hír nem annyira meglepő. A Diane kombinációban tartalmaz ciproteron-acetátot és az etinil-ösztradiolt.