SG.hu
Jobban diagnosztizál az MI, mint egy orvos
Egy tanulmány szerint a ChatGPT felülmúlta az emberi orvosokat az orvosi esetleírások értékelésében, még akkor is, ha ezek az orvosok gépi segítséget használtak.
Dr. Adam Rodman, a bostoni Beth Israel Deaconess Medical Center belgyógyász szakértője arra számított, hogy a chatbotok segítenek majd az orvosoknak a betegségek diagnosztizálásában. Tévedett. Ehelyett egy általa is írt tanulmány szerint azok az orvosok, akik a hagyományos források mellett ChatGPT 4-et is használtak csak alig valamivel jobban teljesítettek, mint azok az orvosok, akik nem férhettek hozzá a bothoz. És a kutatók meglepetésére a ChatGPT önmagában felülmúlta az orvosok teljesítményét. "Megdöbbentem” - mondta Dr. Rodman. Az OpenAI cégtől származó chatbot átlagosan 90 százalékos eredményt ért el, amikor egy esetjelentés alapján diagnosztizálnia és indokolnia kellett egy orvosi állapotot. A chatbot használatára véletlenszerűen kijelölt orvosok átlagosan 76 százalékos eredményt értek el. Azok, akiket véletlenszerűen arra jelöltek ki, hogy ne használják, átlagosan 74 százalékos eredményt értek el.
De a tanulmány nem csak a chatbot kiváló teljesítményét mutatta ki, hanem az is kiderült, hogy az orvosok néha rendíthetetlenül hisznek az általuk felállított diagnózisban, még akkor is, ha a chatbot esetleg mást javasol. A tanulmány rávilágított arra, hogy bár az orvosok munkájuk során egyre inkább megbarátkoznak a mesterséges intelligencia eszközeivel, kevesen tudják, hogyan használják ki a chatbotok képességeit. Ennek eredményeképpen nem tudták kihasználni az MI rendszerek azon képességét, hogy komplex diagnosztikai problémákat oldjanak meg, és magyarázatot adjanak a diagnózisukra. Az MI-rendszereknek „orvos-kiegészítőknek” kellene lenniük - véli Dr. Rodman, értékes második véleményt kínálva a diagnózisokról. Úgy tűnik azonban, hogy még hosszú út áll előttünk, mire ez a lehetőség megvalósul.
A kísérletben 50 orvos vett részt, rezidensek és főorvosok vegyesen, akiket néhány nagy amerikai kórházban toboroztak. A kísérleti alanyok hat esetleírást kaptak, és aszerint osztályozták őket, hogy képesek voltak-e megfelelő diagnózisokat felállítani, és megmagyarázni, miért részesítettek előnyben vagy zártak ki szimptómákat. Az osztályzatukba beletartozott az is, hogy a végső diagnózist helyesen állapították-e meg. Az osztályozók orvosi szakértők voltak, akik csak a résztvevők válaszait látták, és nem tudták, hogy azok egy ChatGPT-vel dolgozó orvostól, egy anélkül dolgozó orvostól vagy magától a ChatGPT-től származnak.
A vizsgálatban használt esettörténetek valós betegeken alapultak, és egy 105 esetből álló, a kutatók által az 1990-es évek óta használt készlet részét képezik. Ezeket az eseteket szándékosan soha nem tették közzé, hogy az orvostanhallgatók és mások előzetes ismeretek nélkül gyakorolhassanak ezeken. Ez azt is jelenti, hogy a ChatGPT-t nem lehetett rajtuk kiképezni. De hogy szemléltessék, miről szólt a vizsgálat, a kutatók közzétettek a hat esetből egyet, amelyen az orvosokat tesztelték, valamint a tesztkérdésekre adott válaszokat az adott esettel kapcsolatban egy olyan orvostól, aki magas pontszámot ért el, és egy olyan orvostól, akinek a pontszáma alacsony volt.
Ez a teszteset egy 76 éves páciensre vonatkozott, akinek járás közben erős fájdalmai voltak a derekában, a fenekében és a vádlijában. A fájdalom néhány nappal azután kezdődött, hogy ballonos angioplasztikával kezelték egy koszorúér tágítására. A beavatkozás után 48 órán keresztül vérhígító heparinnal kezelték. A férfi panaszkodott, hogy lázasnak és fáradtnak érzi magát. A kardiológusa laboratóriumi vizsgálatokat végzett, amelyek újonnan fellépő vérszegénységet, valamint nitrogén és más veséből származó maradványok felhalmozódását jelezték a vérében. A férfinak egy évtizeddel korábban szívbetegség miatt bypass műtétje volt.
Az esetleírás folytatja a férfi fizikális vizsgálatának részleteit, majd ismerteti a laborvizsgálati eredményeket. A helyes diagnózis koleszterinembólia - egy olyan állapot, amikor koleszterin szilánkok törnek le az artériákban lévő plakkokól és elzárják az ereket. A résztvevőknek három lehetséges diagnózist kellett felállítaniuk, és mindegyikhez az azokat alátámasztó bizonyítékokat is mellékelniük kellett. Arra is megkérték őket, hogy minden lehetséges diagnózis esetében adják meg azokat a leleteket, amelyek nem támasztják alá azt, vagy amelyek várhatóak lettek volna, de nem voltak jelen. A résztvevőket arra is megkérték, hogy adjanak meg egy végső diagnózist. Ezután meg kellett nevezniük legfeljebb három további lépést, amelyet a diagnosztikai folyamat során megtennének.
A közzétett eset diagnózisához hasonlóan a vizsgálatban szereplő másik öt eset diagnózisát sem könnyű kitalálni, de nem is annyira ritkák, hogy Dr. House-szintű képességek kelljenek hozzájuk. Az orvosok mégis átlagosan rosszabbul teljesítettek, mint a chatbot. Mi történt, kérdezték a kutatók? Úgy tűnik, a válasz azon a kérdésen múlik, hogy az orvosok hogyan állapítanak meg egy diagnózist és hogyan használnak egy olyan eszközt, mint a mesterséges intelligencia.
A probléma - mondta Dr. Andrew Lea, a Brigham and Women's Hospital orvostörténésze, aki nem vett részt a tanulmányban - az, hogy „valójában nem tudjuk, hogyan gondolkodnak az orvosok”. Dr. Lea szerint az orvosok a diagnózis felállításának leírásakor azt mondják, hogy „intuíció” vagy „a tapasztalataim alapján”. Ez a fajta homályosság évtizedek óta kihívás elé állította a kutatókat, amikor olyan számítógépes programokat próbáltak készíteni, amelyek képesek úgy gondolkodni, mint egy orvos. A keresés csaknem 70 évvel ezelőtt kezdődött. "Amióta csak léteznek számítógépek, azóta vannak emberek, akik megpróbálták őket diagnózisok felállítására használni” - mondta Dr. Lea.
Az egyik legambiciózusabb kísérlet az 1970-es években kezdődött a Pittsburghi Egyetemen. Az ottani informatikusok megkeresték Dr. Jack Myers-t, az orvosi egyetem belgyógyászati tanszékének elnökét, aki mesteri diagnosztaként volt ismert. Fotografikus memóriával rendelkezett, és heti 20 órát töltött az orvosi könyvtárban, hogy mindent megtanuljon, amit az orvostudományban tudni lehetett. Dr. Myers megkapta az esetek részleteit, és a diagnózisok mérlegelése közben kifejtette érvelését. Logikai láncolatait a számítógépes szakik kóddá alakították át. Az így létrejött program - amelyet INTERNIST-1-nek neveztek el - több mint 500 betegséget és mintegy 3500 betegségtünetet tartalmazott.
A teszteléshez a kutatók a New England Journal of Medicine című folyóiratból származó eseteket tápláltak bele. "A számítógép nagyon jól teljesített” - mondta Dr. Rodman. Teljesítménye „valószínűleg jobb volt, mint amire egy ember képes lenne” - tette hozzá. Az INTERNIST-1 azonban soha került alkalmazásra. Nehéz volt használni, több mint egy órát vett igénybe, amíg a diagnózis felállításához szükséges információkat megadták neki. És - mint a szoftver fejlesztői megjegyezték - "a program jelenlegi formája nem elég megbízható a klinikai alkalmazásokhoz”.
A kutatás folytatódott. Az 1990-es évek közepére körülbelül fél tucat számítógépes program létezett, amely orvosi diagnózisok felállításával próbálkozott, de egyik sem terjedt el széles körben. "Nemcsak arról van szó, hogy felhasználóbarátnak kell lennie, hanem az orvosoknak is meg kell bízniuk benne” - mondta Dr. Rodman. Az orvosok gondolkodásával kapcsolatos bizonytalanság miatt pedig a szakértők elkezdték feltenni a kérdést, hogy vajon kell-e egyáltalán foglalkozniuk ezzel a témával. Mennyire fontos olyan számítógépes programokat tervezni, amelyek ugyanúgy diagnosztizálnak, mint az emberek?
"Viták voltak arról, hogy egy számítógépes programnak mennyire kell utánoznia az emberi gondolkodást” - mondta Dr. Lea. „Miért nem inkább a számítógép erősségeivel foglalkozunk? Lehet, hogy a számítógép nem tudja világosan megmagyarázni a döntési útját, de számít ez, ha a diagnózis helyes?" A beszélgetés a ChatGPT-hez hasonló nagyméretű nyelvi modellek megjelenésével megváltozott. Ezek nem tesznek kifejezett kísérletet az orvos gondolkodásának leképezésére; diagnosztikai képességeik a nyelvi előrejelzés képességéből erednek. "A csevegőfelület egy nyerő alkalmazás” - mondta Dr. Jonathan H. Chen, a Stanford orvos-informatikusa, az új tanulmány egyik szerzője. "Egy egész esetet be tudunk adni a számítógépbe” - mondta. „Néhány évvel ezelőtt a számítógépek nem értették az emberi nyelvet”.
Sok orvos azonban nem használja ki a gépekben rejlő lehetőségeket. Az új tanulmány eredményein való kezdeti megdöbbenés után Dr. Rodman úgy döntött, hogy egy kicsit mélyebbre hatol az adatokban, és megnézi az orvosok és a ChatGPT közötti üzenetek lementett naplóit. Az orvosoknak látniuk kellett a chatbot diagnózisait és érvelését, akkor miért nem teljesítettek jobban a chatbotot használók? Kiderült, hogy az orvosokat gyakran nem győzte meg a chatbot, amikor az rámutatott valamire, ami ellentmondott a diagnózisuknak. Ehelyett inkább ragaszkodtak a saját elképzelésükhöz a helyes diagnózisról. "Nem hallgattak az MI-re, amikor az olyan dolgokat mondott nekik, amivel nem értettek egyet” - mondta Dr. Rodman.
Ez valószínűleg így van, mondta Laura Zwaan, aki a rotterdami Erasmus Medical Centerben a klinikai érvelést és a diagnosztikai hibákat tanulmányozza, és nem vett részt a vizsgálatban. "Az emberek általában túlságosan magabiztosak, amikor azt hiszik, hogy igazuk van” - mondta. De volt egy másik probléma is: az orvosok közül sokan nem tudták, hogyan kell a lehető legjobban használni a chatbotot. Dr. Chen elmondta, hogy amikor belekukkantott az orvosok chatnaplóiba, „úgy kezelték, mint egy keresőmotort az irányított kérdésekhez: 'A májzsugor a rák kockázati tényezője? Mik a lehetséges diagnózisok a szemfájdalomra?' Az orvosoknak csak egy töredéke volt az, aki rájött, hogy szó szerint bemásolhatja a teljes kórtörténetet a chatbotba, és megkérheti, hogy adjon átfogó választ a teljes kérdésre” - tette hozzá Dr. Chen. "Az orvosoknak csak egy töredéke látta át valójában, hogy a chatbot milyen meglepően okos és hogy teljes, részletes válaszokat tud adni.”
Dr. Adam Rodman, a bostoni Beth Israel Deaconess Medical Center belgyógyász szakértője arra számított, hogy a chatbotok segítenek majd az orvosoknak a betegségek diagnosztizálásában. Tévedett. Ehelyett egy általa is írt tanulmány szerint azok az orvosok, akik a hagyományos források mellett ChatGPT 4-et is használtak csak alig valamivel jobban teljesítettek, mint azok az orvosok, akik nem férhettek hozzá a bothoz. És a kutatók meglepetésére a ChatGPT önmagában felülmúlta az orvosok teljesítményét. "Megdöbbentem” - mondta Dr. Rodman. Az OpenAI cégtől származó chatbot átlagosan 90 százalékos eredményt ért el, amikor egy esetjelentés alapján diagnosztizálnia és indokolnia kellett egy orvosi állapotot. A chatbot használatára véletlenszerűen kijelölt orvosok átlagosan 76 százalékos eredményt értek el. Azok, akiket véletlenszerűen arra jelöltek ki, hogy ne használják, átlagosan 74 százalékos eredményt értek el.
De a tanulmány nem csak a chatbot kiváló teljesítményét mutatta ki, hanem az is kiderült, hogy az orvosok néha rendíthetetlenül hisznek az általuk felállított diagnózisban, még akkor is, ha a chatbot esetleg mást javasol. A tanulmány rávilágított arra, hogy bár az orvosok munkájuk során egyre inkább megbarátkoznak a mesterséges intelligencia eszközeivel, kevesen tudják, hogyan használják ki a chatbotok képességeit. Ennek eredményeképpen nem tudták kihasználni az MI rendszerek azon képességét, hogy komplex diagnosztikai problémákat oldjanak meg, és magyarázatot adjanak a diagnózisukra. Az MI-rendszereknek „orvos-kiegészítőknek” kellene lenniük - véli Dr. Rodman, értékes második véleményt kínálva a diagnózisokról. Úgy tűnik azonban, hogy még hosszú út áll előttünk, mire ez a lehetőség megvalósul.
A kísérletben 50 orvos vett részt, rezidensek és főorvosok vegyesen, akiket néhány nagy amerikai kórházban toboroztak. A kísérleti alanyok hat esetleírást kaptak, és aszerint osztályozták őket, hogy képesek voltak-e megfelelő diagnózisokat felállítani, és megmagyarázni, miért részesítettek előnyben vagy zártak ki szimptómákat. Az osztályzatukba beletartozott az is, hogy a végső diagnózist helyesen állapították-e meg. Az osztályozók orvosi szakértők voltak, akik csak a résztvevők válaszait látták, és nem tudták, hogy azok egy ChatGPT-vel dolgozó orvostól, egy anélkül dolgozó orvostól vagy magától a ChatGPT-től származnak.
A vizsgálatban használt esettörténetek valós betegeken alapultak, és egy 105 esetből álló, a kutatók által az 1990-es évek óta használt készlet részét képezik. Ezeket az eseteket szándékosan soha nem tették közzé, hogy az orvostanhallgatók és mások előzetes ismeretek nélkül gyakorolhassanak ezeken. Ez azt is jelenti, hogy a ChatGPT-t nem lehetett rajtuk kiképezni. De hogy szemléltessék, miről szólt a vizsgálat, a kutatók közzétettek a hat esetből egyet, amelyen az orvosokat tesztelték, valamint a tesztkérdésekre adott válaszokat az adott esettel kapcsolatban egy olyan orvostól, aki magas pontszámot ért el, és egy olyan orvostól, akinek a pontszáma alacsony volt.
Ez a teszteset egy 76 éves páciensre vonatkozott, akinek járás közben erős fájdalmai voltak a derekában, a fenekében és a vádlijában. A fájdalom néhány nappal azután kezdődött, hogy ballonos angioplasztikával kezelték egy koszorúér tágítására. A beavatkozás után 48 órán keresztül vérhígító heparinnal kezelték. A férfi panaszkodott, hogy lázasnak és fáradtnak érzi magát. A kardiológusa laboratóriumi vizsgálatokat végzett, amelyek újonnan fellépő vérszegénységet, valamint nitrogén és más veséből származó maradványok felhalmozódását jelezték a vérében. A férfinak egy évtizeddel korábban szívbetegség miatt bypass műtétje volt.
Az esetleírás folytatja a férfi fizikális vizsgálatának részleteit, majd ismerteti a laborvizsgálati eredményeket. A helyes diagnózis koleszterinembólia - egy olyan állapot, amikor koleszterin szilánkok törnek le az artériákban lévő plakkokól és elzárják az ereket. A résztvevőknek három lehetséges diagnózist kellett felállítaniuk, és mindegyikhez az azokat alátámasztó bizonyítékokat is mellékelniük kellett. Arra is megkérték őket, hogy minden lehetséges diagnózis esetében adják meg azokat a leleteket, amelyek nem támasztják alá azt, vagy amelyek várhatóak lettek volna, de nem voltak jelen. A résztvevőket arra is megkérték, hogy adjanak meg egy végső diagnózist. Ezután meg kellett nevezniük legfeljebb három további lépést, amelyet a diagnosztikai folyamat során megtennének.
A közzétett eset diagnózisához hasonlóan a vizsgálatban szereplő másik öt eset diagnózisát sem könnyű kitalálni, de nem is annyira ritkák, hogy Dr. House-szintű képességek kelljenek hozzájuk. Az orvosok mégis átlagosan rosszabbul teljesítettek, mint a chatbot. Mi történt, kérdezték a kutatók? Úgy tűnik, a válasz azon a kérdésen múlik, hogy az orvosok hogyan állapítanak meg egy diagnózist és hogyan használnak egy olyan eszközt, mint a mesterséges intelligencia.
A probléma - mondta Dr. Andrew Lea, a Brigham and Women's Hospital orvostörténésze, aki nem vett részt a tanulmányban - az, hogy „valójában nem tudjuk, hogyan gondolkodnak az orvosok”. Dr. Lea szerint az orvosok a diagnózis felállításának leírásakor azt mondják, hogy „intuíció” vagy „a tapasztalataim alapján”. Ez a fajta homályosság évtizedek óta kihívás elé állította a kutatókat, amikor olyan számítógépes programokat próbáltak készíteni, amelyek képesek úgy gondolkodni, mint egy orvos. A keresés csaknem 70 évvel ezelőtt kezdődött. "Amióta csak léteznek számítógépek, azóta vannak emberek, akik megpróbálták őket diagnózisok felállítására használni” - mondta Dr. Lea.
Az egyik legambiciózusabb kísérlet az 1970-es években kezdődött a Pittsburghi Egyetemen. Az ottani informatikusok megkeresték Dr. Jack Myers-t, az orvosi egyetem belgyógyászati tanszékének elnökét, aki mesteri diagnosztaként volt ismert. Fotografikus memóriával rendelkezett, és heti 20 órát töltött az orvosi könyvtárban, hogy mindent megtanuljon, amit az orvostudományban tudni lehetett. Dr. Myers megkapta az esetek részleteit, és a diagnózisok mérlegelése közben kifejtette érvelését. Logikai láncolatait a számítógépes szakik kóddá alakították át. Az így létrejött program - amelyet INTERNIST-1-nek neveztek el - több mint 500 betegséget és mintegy 3500 betegségtünetet tartalmazott.
A teszteléshez a kutatók a New England Journal of Medicine című folyóiratból származó eseteket tápláltak bele. "A számítógép nagyon jól teljesített” - mondta Dr. Rodman. Teljesítménye „valószínűleg jobb volt, mint amire egy ember képes lenne” - tette hozzá. Az INTERNIST-1 azonban soha került alkalmazásra. Nehéz volt használni, több mint egy órát vett igénybe, amíg a diagnózis felállításához szükséges információkat megadták neki. És - mint a szoftver fejlesztői megjegyezték - "a program jelenlegi formája nem elég megbízható a klinikai alkalmazásokhoz”.
A kutatás folytatódott. Az 1990-es évek közepére körülbelül fél tucat számítógépes program létezett, amely orvosi diagnózisok felállításával próbálkozott, de egyik sem terjedt el széles körben. "Nemcsak arról van szó, hogy felhasználóbarátnak kell lennie, hanem az orvosoknak is meg kell bízniuk benne” - mondta Dr. Rodman. Az orvosok gondolkodásával kapcsolatos bizonytalanság miatt pedig a szakértők elkezdték feltenni a kérdést, hogy vajon kell-e egyáltalán foglalkozniuk ezzel a témával. Mennyire fontos olyan számítógépes programokat tervezni, amelyek ugyanúgy diagnosztizálnak, mint az emberek?
"Viták voltak arról, hogy egy számítógépes programnak mennyire kell utánoznia az emberi gondolkodást” - mondta Dr. Lea. „Miért nem inkább a számítógép erősségeivel foglalkozunk? Lehet, hogy a számítógép nem tudja világosan megmagyarázni a döntési útját, de számít ez, ha a diagnózis helyes?" A beszélgetés a ChatGPT-hez hasonló nagyméretű nyelvi modellek megjelenésével megváltozott. Ezek nem tesznek kifejezett kísérletet az orvos gondolkodásának leképezésére; diagnosztikai képességeik a nyelvi előrejelzés képességéből erednek. "A csevegőfelület egy nyerő alkalmazás” - mondta Dr. Jonathan H. Chen, a Stanford orvos-informatikusa, az új tanulmány egyik szerzője. "Egy egész esetet be tudunk adni a számítógépbe” - mondta. „Néhány évvel ezelőtt a számítógépek nem értették az emberi nyelvet”.
Sok orvos azonban nem használja ki a gépekben rejlő lehetőségeket. Az új tanulmány eredményein való kezdeti megdöbbenés után Dr. Rodman úgy döntött, hogy egy kicsit mélyebbre hatol az adatokban, és megnézi az orvosok és a ChatGPT közötti üzenetek lementett naplóit. Az orvosoknak látniuk kellett a chatbot diagnózisait és érvelését, akkor miért nem teljesítettek jobban a chatbotot használók? Kiderült, hogy az orvosokat gyakran nem győzte meg a chatbot, amikor az rámutatott valamire, ami ellentmondott a diagnózisuknak. Ehelyett inkább ragaszkodtak a saját elképzelésükhöz a helyes diagnózisról. "Nem hallgattak az MI-re, amikor az olyan dolgokat mondott nekik, amivel nem értettek egyet” - mondta Dr. Rodman.
Ez valószínűleg így van, mondta Laura Zwaan, aki a rotterdami Erasmus Medical Centerben a klinikai érvelést és a diagnosztikai hibákat tanulmányozza, és nem vett részt a vizsgálatban. "Az emberek általában túlságosan magabiztosak, amikor azt hiszik, hogy igazuk van” - mondta. De volt egy másik probléma is: az orvosok közül sokan nem tudták, hogyan kell a lehető legjobban használni a chatbotot. Dr. Chen elmondta, hogy amikor belekukkantott az orvosok chatnaplóiba, „úgy kezelték, mint egy keresőmotort az irányított kérdésekhez: 'A májzsugor a rák kockázati tényezője? Mik a lehetséges diagnózisok a szemfájdalomra?' Az orvosoknak csak egy töredéke volt az, aki rájött, hogy szó szerint bemásolhatja a teljes kórtörténetet a chatbotba, és megkérheti, hogy adjon átfogó választ a teljes kérdésre” - tette hozzá Dr. Chen. "Az orvosoknak csak egy töredéke látta át valójában, hogy a chatbot milyen meglepően okos és hogy teljes, részletes válaszokat tud adni.”