Un recente studio pubblicato su JAMA Internal Medicine ha mostrato che un chatbot basato su ChatGPT-4, ha superato medici e studenti di medicina interna in due centri medici accademici nel ragionamento clinico. Tuttavia, nonostante il successo in alcune aree, il chatbot ha mostrato più frequentemente ragionamenti errati rispetto a medici e studenti. In pratica ha prodotto allucinazioni ossia risposte che sembrano corrette formalmente ma sono in realtà errate. Questo sottolinea il potenziale dell’IA come strumento di supporto nella pratica clinica, anche se al momento non può ancora sostituire il ragionamento umano.
In sinetesi ChatGPT-4 ha ottenuto punteggi più alti nel ragionamento clinico rispetto a medici e residenti. Tuttavia il chatbot ha commesso più errori di ragionamento rispetto ai medici e agli studenti che hanno partecipato al test.
L’IA ha quindi il potenziale di migliorare l’efficienza e il supporto nella pratica clinica, ma non sostituisce il ragionamento umano che deve sempre intervenire per supervisionare i risultati prodotti dall’AI, intervenendo in caso di allucinazioni. Sono necessari ulteriori studi per capire come integrare al meglio l’IA nella pratica clinica.
Di base, e questo succede per qualsiasi job: ogni job è costituito da diversi task. In alcuni task l’AI può essere utile, in altri no o almeno ancora no. Inoltre, al momento, non è possibile eliminare totalmente il rischio di allucinazioni prodotte dai LLM e quindi quanto prodotto dall’AI va almeno controllato per evitare errori macroscopici.