GPT-4V: criticità da risolvere per essere implementato nella pratica clinica

Prima di integrare modelli come GPT-4V nella pratica clinica, è necessario condurre approfondite valutazioni sulle motivazioni delle indicazioni del modello. Lo sostiene una ricerca pubblicata su NPJ Digital Medicine secondo la quale il sistema, pur rispondendo correttamente anche nei casi in cui i medici sbagliano – con una precisione superiore al 78% -, fornirebbe motivazioni errate alle sue scelte, soprattutto per quel che riguarda la comprensione delle immagini.

I modelli di IA GPT-4

La tecnologia GPT-4 (generative pre-trained trasformator 4), si basa sull’intelligenza artificiale generativa dei modelli di linguaggio di grandi dimensioni (Large language models – LLM), che da quando è stata lanciata, a fine 2022, ha raggiunto notevoli prestazioni anche in vari campi della medicina come la capacità di sintetizzare evidenze emerse, l’assistenza alla ricerca bibliografica, la risposta a domande dei medici e l’abbinamento dei pazienti ai trials clinici. Tuttavia, la maggior parte di questi LLM utilizza solo un campo di testo, mentre l’attività clinica spesso richiede l’integrazione di descrizioni testuali e di risultati di test di imaging.

OpenAI ha di recente rilasciato la versione GPT-4 with Vision (GPT-4V), un LLM che consente agli utenti di analizzare sia immagini che testo. Nel valutare l’accuratezza di GPT-4V nel rispondere a domande in campo medico con risposte a scelta multipla, la tecnologia, in alcuni casi, ha superato studenti di medicina e persino i medici, quando non potevano consultare la letteratura. Tuttavia, l’accuratezza a scelta multipla potrebbe non riflettere l’effettiva competenza di GPT-4V e non vi è alcuna garanzia che le scelte finali corrette siano basate su fondamenti razionali accurati.

L’analisi del processo decisionale di GPT-4V

Per valutare se il processo decisionale di GPT-4V si basi su fondamenti razionali solidi, piuttosto che su congetture arbitrarie, Qiao Jin, dei National Institutes of Health di Bethesda (USA), e colleghi hanno condotto un’analisi completa delle motivazioni che GPT-4V fornisce relativamente alla comprensione delle immagini, oltre che della capacità di ricordare conoscenze mediche e del ragionamento multimodale, passo dopo passo, che il sistema mette in atto quando si misura con i quiz sulle immagini del New England Journal of Medicine (NEJM), progettati per testare le conoscenze e le capacità diagnostiche dei medici.

I risultati della valutazione hanno confermato che GPT-4V, a livello di precisione nel rispondere a domande a risposta multipla, ha performance comparabili ai medici umani, avendo risposto correttamente all’81,6% dei quesiti rispetto al 77,8% delle risposte corrette dei medici. La tecnologia GPT-4V si comporta bene anche nei casi in cui i medici rispondono in modo errato, con una precisione del 78,3%. Tuttavia, un’indagine più approfondita ha mostrato che GPT-4V può sbagliare nelle motivazioni che giustificano la risposta finale, seppur corretta: questi errori si sono verificati prevalentemente nella comprensione delle immagini (27,2%), rispetto al ricordare conoscenze mediche (8,9%) e alle capacità di ragionamento (12,4%).

Riferimenti:

Jin Q. et al., Hidden flaws behind expert-level accuracy of multimodal GPT-4 vision in medicine. NPJ Digit Med (2024); 7(1):190