IA e lingue africane, sul filo dell'esclusione e dell'omologazione
Giada Aquilino - Città del Vaticano
Il continente africano ospita oltre 2 mila lingue ma soltanto una manciata di esse è “gestita” dai modelli linguistici di grandi dimensioni, sistemi avanzati di intelligenza artificiale (IA) progettati cioè per comprendere, generare e interagire con il linguaggio umano. È quanto riscontrato da uno studio del 2025 pubblicato su “Proceedings of machine learning research” e rilanciato dalla rivista «African Business». Secondo l’analisi, solo quattro lingue, l’amarico, lo swahili, l’afrikaans e il malgascio, risultano prevalentemente supportate mentre il 98% non lo è.
I grandi modelli linguistici
«Ci sono poche lingue ricche di risorse, per le quali c’è una profusione di contenuti testuali ma anche di immagini o suoni intesi come trascrizioni di parlato», spiega Roberto Navigli, che alla Sapienza Università di Roma è docente di Natural language processing, materia che insegna agli studenti come utilizzare e creare modelli linguistici di grandi dimensioni. «Nel mondo abbiamo circa 7.000 lingue. La questione, in particolare per le lingue africane, è che le poche aziende che lavorano sui grandi modelli linguistici non sono interessate a sviluppare tecnologie che affrontino uno dei problemi chiave, quello delle lingue per cui c’è meno disponibilità di risorse, cioè meno contenuti sul web», constata il docente, co-fondatore e direttore scientifico dello spin-off universitario “Babelscape”, partner del progetto europeo Iris Africa (Intelligent and responsible innovation with GenAI for societal impact). Per “addestrare” un grande modello linguistico, va avanti Navigli, sono necessarie «grandi quantità di testi nelle lingue di interesse: l’inglese ovviamente è la principale, ma ci sono tante altre lingue per cui c’è una buona quantità di contenuti. Le lingue africane invece “soffrono” molto, perché c’è pochissimo scritto: teniamo conto che servono scritti di vari tipi, generi, domini, più ne abbiamo e maggiore è la capacità del modello di elaborare in quella determinata lingua». Quindi, riassume lo scienziato, «da una parte mancano dati e risorse e ciò rende più difficile l’addestramento in quelle lingue. Dall’altra servono innovazioni, particolarmente importanti per l’Africa, che portino questi modelli a utilizzare meno dati ma ad essere comunque validi». C’è poi un altro aspetto, evidenzia il docente: «Se ci affidiamo solo alle aziende private e al concetto di scopo commerciale rischiamo di lasciare indietro intere popolazioni».
Rischi di oggi
Nella recente enciclica Magnifica humanitas di Leone XIV emerge il rischio che l’IA produca nuove forme di esclusione, dipendenza e disuguaglianza, soprattutto quando il controllo delle infrastrutture digitali e dei dati è concentrato — si evidenzia nei paragrafi 67 e 95 — nelle mani di «pochi», in particolare attori «economici e tecnologici» che, di fatto, ne «fissano le condizioni di accesso, le regole della visibilità e le possibilità stesse di partecipazione». Per le lingue africane «è un rischio assolutamente reale e non riguarda il futuro ma il presente», riflette Navigli. «Dobbiamo preoccuparci già oggi del problema e per farlo c’è bisogno di lavorare su modelli linguistici che abbiano la capacità di interloquire con gli utenti anche in queste lingue». Di qui, aggiunge, la necessità di puntare su ricerca e innovazione e «non necessariamente di perseguire un criterio economico», perché il pericolo più urgente è che interi gruppi di parlanti possano essere esclusi dalla rivoluzione dell’IA.
Le distorsioni che si creano
In effetti, osserva, lo «sono già». Non solo: «Quegli utenti che avranno invece il “privilegio”, il vantaggio di essere inclusi — perché magari parlano una delle poche lingue africane, come lo swahili, che è considerato nella maggior parte dei modelli linguistici — soffriranno comunque delle distorsioni e dei problemi: è infatti dimostrato scientificamente che, proprio perché i dati in queste lingue sono carenti o meno utilizzati, quello che succede è un fenomeno che in inglese si definisce transfer learning, cioè si apprende sostanzialmente trasferendo informazione da una lingua a un’altra. Dato che l’inglese è la lingua predominante, ciò che sta avvenendo è che la cultura dei Paesi che utilizzano lingue minoritarie o meno rappresentate nei modelli linguistici viene vista “con gli occhiali” dell’anglofono, creando una distorsione. In fondo la lingua è lo strumento che utilizziamo per esprimere la nostra cultura e quindi il rischio non è solo di escludere i parlanti africani, ma anche di distorcerne la cultura».
I bias
Al paragrafo 100 di Magnifica humanitas si sottolinea proprio come le risposte dei sistemi di IA riflettano «i parametri culturali di chi li ha progettati e addestrati». «Sono dei pregiudizi, dei bias: non sono espliciti ma il risultato di un addestramento incentrato sulla lingua inglese. E quindi questo trasferimento di conoscenza che avviene dall’inglese a un’altra lingua, ad esempio africana, inevitabilmente porta un pregiudizio, una distorsione del risultato che otteniamo richiedendo di interloquire o di ottenere dati o informazioni nella lingua africana».
Modelli aperti che non trascurino Paesi e popolazioni
Per superare tale stallo, «è fondamentale lavorare a modelli aperti, come ad esempio il modello Minerva, che è il modello nazionale, italiano, di riferimento: lo adatteremo alle lingue africane per aumentarne le prestazioni». Si tratta di un modello linguistico IA targato Sapienza Università di Roma, perché l’intelligenza artificiale — ci tiene a ribadire Navigli, che ne guida il gruppo di ricerca — «non può essere affidata solo alle aziende private, che perseguono un obiettivo economico: è importante che la comunità mondiale, a partire da quella scientifica, ovviamente con dei finanziamenti ad hoc, faccia lo sforzo di portare tutti più in alto possibile, non trascurando interi Paesi e popolazioni».
Grazie per aver letto questo articolo. Se vuoi restare aggiornato ti invitiamo a iscriverti alla newsletter cliccando qui.