Un modello vocale open source sviluppato in italia per riconoscere e tradurre inglese e italiano su larga scala

Un modello vocale open source sviluppato in italia per riconoscere e tradurre inglese e italiano su larga scala

Un team italiano della fondazione Bruno Kessler ha sviluppato Fama, un sistema open source di riconoscimento vocale e traduzione basato su dati pubblici, garantendo trasparenza, privacy e conformità alle normative europee.
Un Modello Vocale Open Source Un Modello Vocale Open Source
Un team italiano della fondazione Bruno Kessler ha sviluppato "Fama", un sistema open source di riconoscimento vocale e traduzione del parlato basato su dati pubblici, che garantisce trasparenza, privacy e replicabilità, ponendo le basi per un'IA linguistica accessibile e inclusiva. - Gaeta.it

Un gruppo di ricerca italiano ha creato un sistema di riconoscimento vocale e traduzione del parlato completamente costruito senza ricorrere a modelli preesistenti delle grandi aziende tecnologiche. Il progetto, nato dalle divisioni SpeechTek e Machine Translation della fondazione Bruno Kessler, presenta un modello addestrato interamente con dati open source e mira a fornire uno strumento accessibile, tracciabile e replicabile. Questo risultato segna un passo avanti nel campo dell’intelligenza artificiale applicata al linguaggio in Italia, affrontando temi fondamentali come la trasparenza nei dati e la tutela della privacy.

Sviluppo e caratteristiche del modello speech-to-text e traduzione

Il sistema si basa su un modello chiamato “Fama“, realizzato con più di 150.000 ore di dati audio pubblici, tutti con licenze permissive che consentono l’uso libero. È stata inoltre arricchita la base con dati sintetici ottenuti tramite processi automatici di trascrizione e traduzione tra italiano e inglese, raccolti nel dataset Mosel. Questo approccio garantisce ampiezza e varietà senza dipendere da risorse proprietarie.

Il codice sorgente e tutte le procedure di allenamento sono resi pubblici e accompagnati da documentazione chiara, così da permettere a ricercatori, sviluppatori o aziende di replicare esattamente le operazioni compiute o di adattare il sistema alle proprie esigenze. Gli esperti alla guida del progetto sottolineano come questa trasparenza rappresenti un elemento fondamentale: la condivisione di metodo e materiali consolida il valore tecnico e scientifico del lavoro e crea le condizioni per miglioramenti continui da parte di tutta la comunità.

Il contesto italiano e la prospettiva europea

Proprio il fatto che un laboratorio italiano abbia creato un modello di questo livello indica una maturità tecnologica spesso sottovalutata. I coordinatori del progetto hanno precisato che Fama compete a livello globale e si conforma pienamente alle normative europee più recenti in materia di dati e intelligenza artificiale. Questo è rilevante se si considera la crescente attenzione alle regole per la trasparenza e la responsabilità degli algoritmi, fattori chiave per l’adozione e diffusione di queste tecnologie in Europa.

L’esperienza accumulata durante la realizzazione di Fama può estendersi anche oltre il bilinguismo iniziale italiano-inglese. Il lavoro svolto sulla raccolta e sulla gestione delle risorse ha creato le basi per sviluppare una piattaforma vocale poliglotta, sempre open source. Questo presuppone la possibilità futura di riconoscere e tradurre altre lingue con strumenti accessibili a tutti, contribuendo a superare barriere linguistiche a basso costo.

L’importanza delle risorse computazionali e della collaborazione

Per addestrare il modello è stato necessario un enorme sforzo dal punto di vista dei calcoli. Il centro di supercalcolo Cineca ha fornito la potenza necessaria, rendendo possibile la gestione di milioni di operazioni e la modellazione approfondita del linguaggio parlato. Senza questa infrastruttura, sarebbe stato impensabile costruire un sistema di così larga scala nel contesto italiano.

La collaborazione tra fondazione Bruno Kessler, centri di ricerca e centri di calcolo ha mostrato che è possibile produrre soluzioni di alta qualità in un ambiente aperto e condiviso, svincolandosi da soluzioni chiuse e vincolate a grandi colossi tecnologici. Si apre quindi uno spazio nuovo per un’intelligenza artificiale che non sia solo efficiente, ma anche più accessibile e controllabile nella forma di applicazioni pratiche.

Impatti e potenzialità future

Questo progetto rappresenta un passo in avanti verso lo sviluppo di strumenti digitali equi e accessibili, allineati con il principio di un’intelligenza artificiale che possa essere riprodotta e usata senza barriere. In questo modo, si offre agli sviluppatori un modello affidabile con cui realizzare assistenti vocali, applicazioni di traduzione automatica, o altri strumenti collegati alla comunicazione tra lingue diverse. Inoltre garantisce trasparenza e possibilità di verifica sul funzionamento e la provenienza dei dati.

La disponibilità di un modello open source così avanzato, frutto di ricerca italiana, rappresenta un’opportunità per ampliare la comunità di chi lavora nella trasformazione vocale e per esplorare in futuro iniziative multilingue o settori specializzati come la didattica o l’assistenza alle persone con difficoltà linguistiche o uditive. Il progetto Fama sarà un punto di partenza per costruire un ecosistema digitale più inclusivo e anche liberare risorse creative e scientifiche bloccate da logiche più chiuse.

Change privacy settings
×