Google può tradurre automaticamente più lingue. Google Translate quasi raddoppierà, passando da 133 a 243 lingue, inizialmente per le lingue di origine. La società di dati ha dato l’annuncio giovedì. Lo spettro spazia da lingue con un gran numero di parlanti, come il cantonese o il punjabi (in una variante della scrittura Shamukhi) a dialetti meno comuni come il basso francone meridionale o il dialetto Hunsruk del Rio Grande parlato nel Brasile meridionale.
annuncio
“Ora utilizziamo l’intelligenza artificiale per espandere la gamma di lingue supportate”, ha scritto il dipendente di Google Isaac Caswell sul blog aziendale. “Con il modello linguistico di grandi dimensioni PaLM2, stiamo introducendo 110 nuove lingue in Google Translate, la nostra più grande espansione finora.” Proprio l’anno scorso, Google Translate ha ampliato il proprio vocabolario a 33 lingue, 131 all’epoca, oltre alle versioni tradizionali e semplificate del cinese scritto. Questa volta il cantonese viene aggiunto separatamente. Provare questo è stato particolarmente difficile, dice Caswell, “perché il cantonese spesso si sovrappone al mandarino nella scrittura”. Ciò non semplifica la ricerca automatica dei testi cantonesi e la loro integrazione nel Large Language Model (LLM).
Anche la lingua rumena, parlata da secoli anche in Germania e Austria, ha rappresentato una sfida per i programmatori, perché è ampiamente parlata in tutta Europa con molti dialetti. Il risultato è un LLM che produce una miscela di cui non si parla così: è basata sul lino meridionale, ma contiene anche elementi del ramo settentrionale e dei rami balcanici.
Un quarto delle nuove lingue sono di origine africana. Ora esiste una variante separata del portoghese parlata solo da una minoranza di tutti i parlanti portoghesi: la versione linguistica comune del Portogallo. Sono incluse anche diverse lingue creole, ad esempio dalla Giamaica, dalle Mauritius, dalla Papua Nuova Guinea e dalle Seychelles. I nuovi arrivati politicamente esplosivi includono il tibetano, l’osseto e la lingua dei tartari di Crimea. Google ne ha uno Elenco delle nuove lingue supportate pubblicato.
Sfida della GUI
Non è ancora possibile definire nuove visualizzazioni nelle interfacce utente. Ciò significa traduzioni Fuori posto Possibile con nuove lingue, ma non ancora In Nuove lingue. I pacchetti di traduzione offline non possono ancora essere trovati nell’app. Resta da vedere come Google progetterà l’interfaccia per molte lingue. L’azienda si è posta l’obiettivo di tradurre automaticamente, un giorno, 1.000 lingue l’una nell’altra. Ciò significa che supporterà circa una lingua su sette.
Sebbene le lingue siano in costante estinzione, ne esistono ancora più di 7.000. Tuttavia, la distinzione precisa tra lingua e dialetto è difficile e spesso (politicamente) controversa. In Germania sono particolarmente a rischio di estinzione lo yiddish, il frisone settentrionale, lo zingaro, il satrlando, il sorabo e l’utico meridionale.
Allucinazioni: masticiamo?
Google afferma di aver finalmente soddisfatto la richiesta di lunga data delle Isole Faroe di supporto per Google Translate. Ma il riconoscimento linguistico non funziona ancora nella pratica. La frase faroese “Mær gongst væl, takk, og tygum?” (“Sto bene, grazie, e tu?”) Google Translate attualmente lo traduce erroneamente in islandese. Il risultato è questo male dadaista: “Vorrei, per favore, mormorare e lasciarci masticare?”
Succedono cose strane quando comunichi a Google Translate erroneamente o accidentalmente la lingua di origine sbagliata. Perché Google non ha ancora insegnato alla sua intelligenza artificiale il coraggio necessario per colmare le lacune, ad esempio sotto forma di messaggio di errore “Non capisco”. Dovrebbe essere “Mær gongst væl, takk, og tygum?” Tradotto dal “tedesco” all’inglese, il risultato dice: “Contiamo, no, e ci chiediamo?” Al contrario, se l’inglese viene identificato in modo errato, il sistema allucina questa sorpresa tedesca: “Cosa succederà a te, a tuo padre e a tuo figlio?”
(S)
“Lifelong beer expert. General travel enthusiast. Social media enthusiast. Zombie expert. Communicator.”