iStock AI in medicina sbaglia diagnosi più dei medici in carne e ossa

Può l’intelligenza artificiale sostituire i medici? A quanto pare no, nonostante l’AI sia entrata a far parte degli strumenti preziosi a disposizione dei “camici bianchi”. A dirlo è il risultato di una ricerca, condotto dall’Università degli Studi di Milano e dell’ASST Santi Paolo e Carlo del capoluogo lombardo. Gli studiosi hanno messo alla prova due tra i più noti Large Language Models (LLMs), ossia ChatGPT e Gemini, confrontando le loro performance con quelle dei medici. Ecco cosa hanno scoperto.

Medici e AI a confronto

I ricercatori di Milano hanno condotto quello che è il primo studio sperimentale in materia. Lo scopo era capire se ChatGPT e Gemini, considerati i tools più conosciuti e diffusi al momento nel settore dell’AI, fosse in grado di effettuare diagnosi accurate in materia neurologica. I risultati della sperimentazione, pubblicati sul Journal of Medical Informatics Research, hanno dimostrato che i medici specialisti sono tuttora in grado di diagnosticare patologie con maggiore accuratezza (75%) rispetto ai due LLMS, che si sono fermati rispettivamente al 54% nel caso di ChatGPT e al 46% nel caso di Gemini. Questo non significa che entrambi non possano rappresentare una preziosa risorsa, che però – almeno per il momento – necessita ancora di essere affiancata da personale specialistico.

Quanto è affidabile l’AI in medicina

L’intelligenza artificiale è già molto utilizzata in medicina, ma soprattutto come strumento per il calcolo o l’analisi di una grande mole di dati, grazie alla sua capacità di elaborazione in tempi molto più rapidi rispetto a quanto non possa fare un essere umano. Diverso, però, è il discorso se si tratta di valutarne l’affidabilità e la qualità nell’indicazione clinica e diagnostica.

La capacità di diagnosi di ChatGPT e Gemini

La ricerca milanese è stata svolta interessando complessivamente 28 pazienti, ai quali è stato garantito l’anonimato. Si è trattato di pazienti seguiti dalla Clinica Neurologica presso l’Ospedale San Paolo dell’ASST Santi Paolo e Carlo. I due strumenti di AI, ChatGPT e Gemini, sono stati testati nella loro capacità diagnostica nel contesto di una prima visita neurologica. È emerso che ChatGPT ha “azzeccato” la diagnosi in oltre la metà dei casi, mentre Gemini si è fermato poco al di sotto del 50%, ma soprattutto che i medici hanno dimostrato di poter individuare la corretta diagnosi nel 75% dei casi. Entrambi i modelli di LLMS hanno registrato anche una tendenza a sovra-prescrivere esami diagnostici, in circa il 17-25% dei casi.

L’AI rimane uno strumento dalle grandi potenzialità

“Questo studio dimostra che, sebbene i LLM come ChatGPT e Gemini abbiano un potenziale interessante come strumenti di supporto, al momento non sono ancora pronti per prendere decisioni cliniche autonome, soprattutto in ambiti complessi come la neurologia”, ha spiegato Natale Maiorana, neuropsicologo e primo autore dello studio. La ricerca, comunque, ha fatto ricorso a una versione generalista dell’AI e pubblica, senza che l’AI fosse stata “addestrata in modo specifico in ambito medico”. Quello che emerge è che l’intelligenza artificiale può essere utile, ma va inserita in modo responsabile nei processi clinici, con una forte supervisione umana”, ha aggiunto Sara Marceglia, professoressa di Bioingegneria all’Università degli Studi di Milano e coordinatrice della ricerca. Secondo i ricercatori, dunque, l’intelligenza artificiale conferma il suo elevato potenziale, anche se necessita di ulteriori sviluppi adeguati al contesto e personalizzati.

Il medico è (tuttora) insostituibile

I medici, dunque, rimangono fondamentali, nonostante l’AI costituisca uno strumento prezioso in medicina: “L’intelligenza artificiale è una risorsa promettente, ma oggi non può sostituire il giudizio clinico umano. Il nostro studio apre la strada a una nuova stagione di ricerca per integrare queste tecnologie in modo efficace e sicuro nella neurologia e più in generale nella medicina. Sarà ovviamente necessario inserire una specifica formazione e certificazione per l’uso dell’intelligenza artificiale nel percorso curriculare degli studenti di medicina e degli specializzandi”, ha concluso Alberto Priori, direttore della struttura di Neurologia dell’Ospedale San Paolo ASST Santi Paolo e Carlo, direttore del Centro di Ricerca ‘Aldo Ravelli’ dell’Università degli Studi di Milano e ideatore dello studio.

Dalla diagnosi alla prevenzione: quando serve ChatGPT

Al momento, intanto, l’AI viene impiegata in medicina, come in altri campi, soprattutto sfruttando le sue capacità di calcolo rapido. In questa direzione gli studi stanno compiendo passi da gigante. Di recente, infatti, è stato creato un nuovo modello di AI, in grado di effettuare “previsioni” sulle probabilità di andare incontro a malattie. Si chiama Delphi-2M e viene ritenuto un prezioso strumento di prevenzione. Analizzando la storia clinica di una persona e il suo stile di vita, infatti, potrebbe indicare quali sono i rischi di salute del paziente stesso. A metterlo a punto sono stati gli esperti del Laboratorio Europeo di Biologia Molecolare (EMBL), del Centro tedesco di ricerca sul cancro (DKFZ) e dell’Università di Copenhagen.

L’AI potrà individuare le malattie dei prossimi 20

Come spiega Nature, su cui è stato pubblicato il risultato della sperimentazione, il nuovo modello di AI potrà indicare la probabilità che un soggetto ha di sviluppare 1.258 malattie, con circa 10 (e in alcuni casi 20) anni di anticipo rispetto alla loro insorgenza. Al momento la “previsione” non sarebbe personalizzata, ma generalizzata rispetto a modelli standard, che tengano conto di fattori comuni, come l’età, lo stile di vita, malattie pregresse comuni, ecc. Rappresenterebbe, comunque, un primo passo in questa direzione.