IA per estrapolare gli outcome riferiti dai pazienti che soffrono di IBD

I metodi basati sui Large Language Models (LLM) sono accurati e generalizzabili per estrapolare i risultati riferiti dai pazienti (PRO). Questi strumenti, applicati anche alle malattie infiammatorie intestinali (IBD), mantengono un’eccellente accuratezza tra gli operatori, nonostante l’eterogeneità nelle annotazioni. L’adozione diffusa di tali modelli, dunque, ha il potenziale per migliorare la ricerca sulle IBD e l’assistenza ai pazienti. Lo evidenzia uno studio pubblicato su Gastro Hep Advances da un team guidato da Perseus Patel, dell’Università della California di San Francisco (USA).
Large Language Models in sanità
L’elaborazione tradizionale del linguaggio naturale (tNLP), con approcci basati su regole, consente di trasformare il testo libero presente nelle note dei pazienti in dati pronti per l’analisi. Tuttavia, su questo processo può pesare un’accuratezza variabile, oltre a richiedere un intenso lavoro. Di recente, i LLM, preaddestrati per comprendere le relazioni contestuali nel linguaggio, stanno dando risultati promettenti nell’analisi delle informazioni cliniche.
L’Organizzazione Mondiale della Sanità (OMS), nelle linee guida sull’intelligenza artificiale applicata alla salute, evidenzia che le potenziali applicazioni dei modelli LMM nell’assistenza sanitaria sono simili a quelle di altre forme di IA. Tuttavia, il modo in cui i LMM vengono utilizzati è nuovo, con vantaggi e rischi che le società, i sistemi sanitari e gli utenti potrebbero non essere ancora preparati ad affrontare. Tra i vantaggi riferiti dall’OMS, vi sono i benefici a livello di diagnosi e assistenza clinica, la possibilità dell’utilizzo degli strumenti da parte del paziente, l’educazione medica e la possibilità di svolgere attività burocratiche.
Nello studio, il team ha confrontato l’efficacia di tNLP rispetto agli LLM per l’estrazione di tre PRO relativi alle IBD: dolore addominale, diarrea, sangue nelle feci, come primo passo per consentire una migliore ricerca e un miglioramento della qualità della vita nelle persone con IBD. Inoltre, data l’importanza di questi strumenti per mantenere elevate prestazioni tra le istituzioni, i ricercatori hanno convalidato esternamente il modello, in modo da valutarne l’interoperabilità.
Uso dei LLM per estrapolare dati su pazienti con IBD
Per l’indagine, il team si è basato sulle informazioni presenti in forma di testo libero nella cartella clinica elettronica. Le note cliniche per ciascun PRO utilizzavano protocolli preimpostati. I modelli sono stati sviluppati e testati internamente presso l’Università della California di San Francisco, per essere, poi, convalidati esternamente presso la Stanford University, sempre in California. I basati su tNLP e LLM sono stati confrontati a livello di accuratezza, sensibilità, specificità, valore predittivo positivo e negativo.
Dai risultati è emerso che l’affidabilità tra gli osservatori era superiore al 90%. I modelli tNLP più performanti hanno mostrato accuratezze del 92%, per quel che riguardava il dolore addominale, dell’82%, per la diarrea, e dell’80%, per il sangue nelle feci, rispetto al modello LLM, dove le percentuali sono state, rispettivamente, del 96%, 88% e 90%. Nella convalida esterna, inoltre, i modelli tNLP non sono riusciti a generalizzare le informazioni, tanto che l’accuratezza registrata è stata del 61-62%, mentre il sistema basato sull’IA ha mantenuto accuratezze superiori al 90%. Infine, il team non ha rilevato bias basati su dati demografici o diagnosi.
Riferimenti:
Large language models outperform traditional natural language processing mothods in extracting patient-reported outcomes in inflammatory bowel disease. Gastro Hep Advances (2025);4:100563
WHO. Ethics and governance of artificial intelligence for health. Guidance on large multi-modal models.
https://iris.who.int/bitstream/handle/10665/375579/9789240084759-eng.pdf?sequence=1