Paper scientifici usati per addestrare l’IA: un fenomeno in crescita

Gli editori di riviste scientifiche starebbero vendendo, ad aziende tech, l’accesso alle ricerche, per addestrare i modelli di intelligenza artificiale. Il fenomeno ha suscitato le reazioni di alcuni ricercatori, visto che gli accordi vengono stipulati all’oscuro degli autori, e sta sollevando interrogativi sull’uso delle pubblicazioni, a volte protette da copyright, per addestrare i chatbot di intelligenza artificiale (IA) in fase di sviluppo. A parlarne è un commento pubblicato su Nature da Elizabeth Gibney che ha intervistato vari esperti, arrivando alla conclusione che se una ricerca non è stata ancora utilizzata per addestrare modelli linguistici di grandi dimensioni (LLM), probabilmente lo sarà presto.

Utilità dei paper per i modelli LLM

I modelli linguistici di grandi dimensioni (LLM) vengono addestrati con enormi volumi di dati, spesso estratti da Internet, che consentono ai modelli di generare testi fluidi, immagini o codici informatici. Per via della densità di informazioni contenute, i paper scientifici sono preziosi per chi costruisce questi modelli. Inoltre, l’addestramento su così tante informazioni scientifiche conferisce ai modelli LLM una migliore capacità di ragionare su questi argomenti.

Per questo, la tendenza ad acquistare set di dati di alta qualità è in crescita – si parla di milioni di dollari in accordi tra editori e aziende che sviluppano l’IA. Secondo gli esperti, tutto ciò che è disponibile per la lettura online, che si trovi o meno in un database ad accesso aperto, è molto probabile che sia già stato inserito in un LLM; e se un articolo è già stato utilizzato per addestrare un modello, non c’è modo di rimuoverlo.

Informazioni segrete

Alcuni sviluppatori di IA mantengono intenzionalmente aperti i loro set di dati, ma molte aziende tengono segreta la gran parte dei dati utilizzati per l’addestramento. I database open source come PubMed, secondo gli esperti sono fonti molto usate di dati, alle quali si aggiungono gli articoli di riviste a pagamento che hanno abstract gratuiti.

Dimostrare che un LLM abbia utilizzato un singolo articolo è difficile e anche se fosse possibile, non è chiaro cosa accadrebbe di conseguenza. Gli editori sostengono che, se gli sviluppatori utilizzano testo protetto da copyright nella formazione e non hanno richiesto una licenza, si tratta di violazione. Tuttavia, alcune argomentazioni sostengono che i modelli LLM non copiano nulla: raccolgono informazioni che vengono scomposte e usate per l’apprendimento, per generare nuovo testo.

Dubbi sul copyright

Per risolvere il problema ci vorrebbe un contenzioso. In un caso di copyright in corso negli Stati Uniti che potrebbe creare un precedente, il New York Times sta facendo causa a Microsoft e OpenAI accusando le aziende di utilizzare i suoi contenuti giornalistici per addestrare i loro modelli senza autorizzazione. I singoli autori, in ogni caso, hanno attualmente poco potere se l’editore del loro articolo decidesse di vendere l’accesso a un’opera protetta da copyright. Per gli articoli disponibili al pubblico, comunque, non esiste un modo standard per sapere se è stato utilizzato per addestrare LLM.

Riferimenti:

Gibney E. Has your paper been used to train an AI model? Probably. Nature (2024); 632(8026):715-716