Un gruppo di ricerca italiano ha creato un sistema di riconoscimento vocale e traduzione del parlato completamente costruito senza ricorrere a modelli preesistenti delle grandi aziende tecnologiche. Il progetto, nato dalle divisioni SpeechTek e Machine Translation della fondazione Bruno Kessler, presenta un modello addestrato interamente con dati open source e mira a fornire uno strumento accessibile, tracciabile e replicabile. Questo risultato segna un passo avanti nel campo dell’intelligenza artificiale applicata al linguaggio in Italia, affrontando temi fondamentali come la trasparenza nei dati e la tutela della privacy.
Sviluppo e caratteristiche del modello speech-to-text e traduzione
Il sistema si basa su un modello chiamato “Fama“, realizzato con più di 150.000 ore di dati audio pubblici, tutti con licenze permissive che consentono l’uso libero. È stata inoltre arricchita la base con dati sintetici ottenuti tramite processi automatici di trascrizione e traduzione tra italiano e inglese, raccolti nel dataset Mosel. Questo approccio garantisce ampiezza e varietà senza dipendere da risorse proprietarie.
Il codice sorgente e tutte le procedure di allenamento sono resi pubblici e accompagnati da documentazione chiara, così da permettere a ricercatori, sviluppatori o aziende di replicare esattamente le operazioni compiute o di adattare il sistema alle proprie esigenze. Gli esperti alla guida del progetto sottolineano come questa trasparenza rappresenti un elemento fondamentale: la condivisione di metodo e materiali consolida il valore tecnico e scientifico del lavoro e crea le condizioni per miglioramenti continui da parte di tutta la comunità.
Leggi anche:
Il contesto italiano e la prospettiva europea
Proprio il fatto che un laboratorio italiano abbia creato un modello di questo livello indica una maturità tecnologica spesso sottovalutata. I coordinatori del progetto hanno precisato che Fama compete a livello globale e si conforma pienamente alle normative europee più recenti in materia di dati e intelligenza artificiale. Questo è rilevante se si considera la crescente attenzione alle regole per la trasparenza e la responsabilità degli algoritmi, fattori chiave per l’adozione e diffusione di queste tecnologie in Europa.
L’esperienza accumulata durante la realizzazione di Fama può estendersi anche oltre il bilinguismo iniziale italiano-inglese. Il lavoro svolto sulla raccolta e sulla gestione delle risorse ha creato le basi per sviluppare una piattaforma vocale poliglotta, sempre open source. Questo presuppone la possibilità futura di riconoscere e tradurre altre lingue con strumenti accessibili a tutti, contribuendo a superare barriere linguistiche a basso costo.
L’importanza delle risorse computazionali e della collaborazione
Per addestrare il modello è stato necessario un enorme sforzo dal punto di vista dei calcoli. Il centro di supercalcolo Cineca ha fornito la potenza necessaria, rendendo possibile la gestione di milioni di operazioni e la modellazione approfondita del linguaggio parlato. Senza questa infrastruttura, sarebbe stato impensabile costruire un sistema di così larga scala nel contesto italiano.
La collaborazione tra fondazione Bruno Kessler, centri di ricerca e centri di calcolo ha mostrato che è possibile produrre soluzioni di alta qualità in un ambiente aperto e condiviso, svincolandosi da soluzioni chiuse e vincolate a grandi colossi tecnologici. Si apre quindi uno spazio nuovo per un’intelligenza artificiale che non sia solo efficiente, ma anche più accessibile e controllabile nella forma di applicazioni pratiche.
Impatti e potenzialità future
Questo progetto rappresenta un passo in avanti verso lo sviluppo di strumenti digitali equi e accessibili, allineati con il principio di un’intelligenza artificiale che possa essere riprodotta e usata senza barriere. In questo modo, si offre agli sviluppatori un modello affidabile con cui realizzare assistenti vocali, applicazioni di traduzione automatica, o altri strumenti collegati alla comunicazione tra lingue diverse. Inoltre garantisce trasparenza e possibilità di verifica sul funzionamento e la provenienza dei dati.
La disponibilità di un modello open source così avanzato, frutto di ricerca italiana, rappresenta un’opportunità per ampliare la comunità di chi lavora nella trasformazione vocale e per esplorare in futuro iniziative multilingue o settori specializzati come la didattica o l’assistenza alle persone con difficoltà linguistiche o uditive. Il progetto Fama sarà un punto di partenza per costruire un ecosistema digitale più inclusivo e anche liberare risorse creative e scientifiche bloccate da logiche più chiuse.