Qualche mese fa Meta ha presentato SeamlessM4T, il suo modello AI di traduzione multimodale che supporta quasi 100 lingue diverse per il testo e 36 per il parlato.
Si tratta del primo modello di traduzione AI multimodale e multilingue all-in-one che consente alle persone di comunicare senza sforzo attraverso il parlato e il testo in diverse lingue.
SeamlessM4T supporta:
- Riconoscimento vocale per quasi 100 lingue;
- Traduzione da parlato a testo per quasi 100 lingue di ingresso e di uscita;
- Traduzione vocale, con supporto di quasi 100 lingue di input e 36 lingue di output;
- Traduzione da testo a testo per quasi 100 lingue;
- Traduzione da testo a voce, con supporto di quasi 100 lingue di ingresso e 35 lingue di uscita.
Secondo quanto affermano i ricercatori, Seamless è “il primo sistema disponibile al pubblico che consente una comunicazione espressiva interlinguistica in tempo reale” e comprende tre modelli, ovvero SeamlessExpressive, SeamlessStreaming, SeamlessM4T v2.
Il primo è un modello per preservare l’espressione nella traduzione da parlato a parlato. L’obiettivo è trasferire nella traduzione dettagli espressivi quali tono, volume, velocità del parlato e pause.
Il secondo avvia la traduzione di un discorso mentre l’oratore sta ancora parlando e fornisce una traduzione quasi istantanea con un ritardo di soli due secondi circa.
Il terzo modello, SeamlessM4T v2, funge da base per gli altri due, presentandosi come una versione aggiornata rispetto al modello precedente. La nuova architettura fornisce “una migliore coerenza tra testo e output vocale”, secondo il documento.
Ogni traccia tradotta sarà contrassegnata da una filigrana audio, “un segnale impercettibile all’orecchio umano, ma comunque rilevabile all’interno dell’audio utilizzando un modello di rilevatore”. Un accorgimento utile per prevenire attacchi di phishing vocale, video falsi e altre applicazioni dannose.
I modelli AI di Meta sembrano essere pronti per arrivare al grande pubblico, intanto i suoi modelli sono stati pubblicati su Hugging Face e GitHub.

Una risposta