Modelli predittivi per infarto e ictus nei pazienti con diabete di tipo 2 basati su dati sanitari
28.02.2025 | Popular Science
La digitalizzazione e la disponibilità di grandi moli di dati sanitari aprono nuove opportunità per strategie di prevenzione e trattamento mirate. Un recente studio pubblicato su Cardiovascular Diabetology ha sviluppato e validato modelli predittivi per infarto miocardico (MI) e ictus nei pazienti con diabete di tipo 2, utilizzando dati ad alta dimensione provenienti da richieste di assicurazione sanitaria. L’obiettivo principale dello studio era confrontare le performance predittive dei metodi di regressione tradizionali con le tecniche di machine learning all’avanguardia, incluse le reti neurali profonde (deep learning).
Lo studio ha utilizzato i dati delle richieste di assicurazione sanitaria tedesche dal 2014 al 2019, includendo 287 variabili derivate dalla letteratura scientifica come potenzialmente rilevanti per la previsione del rischio a 3 anni di MI e ictus. Per la validazione dei modelli, è stato adottato un approccio di train-test split, confrontando le performance di metodi logistici con e senza selezione progressiva, LASSO-regularization, random forests (RF), gradient boosting (GB), multi-layer perceptrons (MLP) e feature-tokenizer transformers (FTT). Le performance dei modelli sono state valutate in termini di discriminazione, utilizzando le curve di precisione-richiami (AUPRC) e le curve ROC (AUROC), e di calibrazione.
I dati hanno riguardato 371.006 pazienti con diabete di tipo 2 (età media 67,2 anni), di cui il 3,5% (13.030 pazienti) aveva avuto un infarto e il 3,4% (12.701 pazienti) aveva avuto un ictus. I risultati hanno mostrato che i modelli nulli (senza predizioni) avevano AUPRC pari a 0,035 per l’infarto e 0,034 per l’ictus, mentre per l’infarto, i modelli basati su machine learning hanno raggiunto valori tra 0,082 (MLP) e 0,092 (GB), e per l’ictus, i valori erano tra 0,061 (MLP) e 0,073 (GB). Per quanto riguarda le AUROC, i modelli nulli hanno avuto un valore di 0,5, mentre i modelli più avanzati, come RF, MLP e FTT, hanno raggiunto valori di 0,70 per l’infarto e 0,66 (MLP) a 0,69 (GB) per l’ictus.
Tutti i modelli hanno mostrato una buona calibrazione, ma la discriminazione dei modelli basati su richieste di assicurazione sanitaria ha raggiunto un limite massimo attorno a 0,09 di AUPRC e 0,7 di AUROC. Sebbene il modello AUROC fosse comparabile con i modelli epidemiologici esistenti che incorporano informazioni cliniche, la comparazione di altre metriche potenzialmente più rilevanti, come AUPRC, sensibilità e valore predittivo positivo, è stata ostacolata dalla mancanza di reportistica nella letteratura. L’osservazione che i metodi di machine learning, inclusi quelli di deep learning, non abbiano superato i metodi tradizionali suggerisce che la ricchezza e la complessità delle caratteristiche siano state già sfruttate prima che la scelta dell’algoritmo potesse diventare determinante per massimizzare le performance.
In conclusione, lo studio suggerisce che, nonostante i limiti intrinseci, l’uso di modelli di regressione trasparenti basati su richieste di assicurazione sanitaria rimane una promettente soluzione a basso costo e scalabile per la previsione e stratificazione del rischio cardiovascolare nella popolazione. La ricerca futura potrebbe concentrarsi sull’impatto di approcci diversi nella derivazione delle caratteristiche sui limiti prestazionali raggiungibili.