Individuare chi è a rischio di diabete senza esami invasivi potrebbe essere presto possibile

I risultati di uno studio pubblicato su BMJ supportano l’uso di modelli di apprendimento automatico, in particolare XGBoost, per l’identificazione precoce di individui a rischio di sviluppare il diabete di tipo 2.

“Abbiamo voluto confrontare le prestazioni di cinque algoritmi di apprendimento automatico per predire il diabete mellito in base a fattori legati allo stile di vita (dieta e attività fisica) in maniera non invasiva e facilmente accessibile” afferma Efrain Riveros Perez, dell’Augusta University Medical College of Georgia, Augusta, Georgia, USA, autore principale dello studio.

I ricercatori hanno analizzato i dati di 29.509 adulti non in gravidanza disponibili al pubblico dal National Health and Nutrition Examination Survey (NHANES), un sondaggio rappresentativo a livello nazionale progettato per valutare lo stato di salute e nutrizionale della popolazione statunitense. L’esito primario era la previsione del diabete mellito di tipo 2 (T2DM) tramite risposte auto-riportate basate su modelli di apprendimento automatico.

Le prestazioni di cinque algoritmi di apprendimento automatico, ovvero regressione logistica, macchina a vettori di supporto (SVM), random forest, XGBoost e CatBoost, sono state valutate per mezzo di accuratezza, sensibilità, specificità, valore predittivo positivo, valore predittivo negativo e area sotto la curva caratteristica operativa del ricevitore (AUC). Le misure di esito secondarie erano l’importanza delle caratteristiche e il confronto delle prestazioni del modello.

XGBoost ha mostrato le prestazioni predittive complessive più elevate (AUC 0,8168), seguito da random forest e regressione logistica (AUC intorno a 0,79). In termini di accuratezza, regressione logistica, XGBoost e random forest hanno avuto prestazioni simili, attestandosi a circa l’85%.

Mentre la maggior parte dei modelli ha dimostrato un’elevata specificità (>97%), l’SVM si è distinto per avere la massima sensibilità (58,57%), sebbene con una minore accuratezza (62,44%). Questo compromesso sottolinea la forza dell’SVM nell’identificare più casi veri positivi, sebbene a costo di una minore precisione di classificazione complessiva.

 Il modello random forest, nonostante mostrasse una minore sensibilità (7,15%), ha fornito una delle prestazioni più equilibrate in termini di specificità e interpretabilità. “Nonostante la limitata sensibilità osservata nella maggior parte dei modelli, la loro elevata specificità li rende preziosi per lo screening precoce in contesti clinici e di sanità pubblica, dove possono essere integrati con valutazioni di follow-up o approcci che ottimizzano l’equilibrio tra sensibilità e specificità per una migliore stratificazione del rischio” concludono gli autori.

Fonte: BMJ Open. 2025

https://bmjopen.bmj.com/content/15/3/e096595

Contenuti simili

I più visti