Google e Alexa ignorano le lingue minori?
notiziaImmagine principale: Astana, la capitale del Kazakistan. Circa la metà dei 18 milioni di persone del paese parla kazako. Credito: Alex J. Butler via Flickr, CC BY 2.0
Immagina se l'inglese non fosse la lingua universale di Internet. Cosa succederebbe se non potessi leggere questo articolo online ad eccezione di una versione storpiata da Google Traduttore? E se Alexa non avesse capito niente? Ora immagina di essere entrato in contatto con Google e Amazon e hai chiesto loro di aggiungere l'inglese ai loro sistemi ... e hanno detto "No grazie - fai da te".
Il denaro parla
Il kazako è una lingua parlata da circa la metà dei 18 milioni di persone in Kazakistan, un vasto paese dell'Asia centrale che confina sia con la Russia che con la Cina - e sebbene sia vasto, la sua popolazione relativamente scarsa può essere trascurata da giganti della tecnologia come Google.
”Come mercato commerciale, il Kazakistan non è molto interessante per Google perché non genera la giusta quantità di denaro dalla pubblicità,” dice Rauan Kenzhekhanuly, fondatore della WikiBilim Public Foundation, senza scopo di lucro, che nel 2011 ha creato una versione in lingua kazaka di Wikipedia, un enorme atto iniziale di traduzione che si è rivelato fondamentale.
Rauan Kenzhekhanuly, fondatore della WikiBilim Public Foundation. Credito: Jamie Carter
(Immagine: © Jamie Carter)Da allora è stato la forza trainante di un tentativo di potenziare il Kazakistan negli strumenti di traduzione automatica online. ”È molto importante che le lingue piccole siano in grado di dare accesso a qualsiasi sito Web e di tradurre siti Web e articoli nella tua lingua,” dice, prima di sottolineare come l'inglese endemico e il russo sono una lingua scritta in kazako. ”All'università, anche se studi letteratura e lingua kazaka, sarai obbligato a trovare libri di testo in russo o inglese.”
L'ambivalenza di Google nei confronti delle culture ai margini è un comportamento piuttosto standard, e forse comprensibile. Alcuni anni fa le Isole Faroe hanno inviato una petizione a Google per includere le Isole Faroe, che ospitano solo 30.000 persone, su Google Street View, quindi hanno usato pecore per farlo accadere.
Perso nella traduzione
Per essere giusti per il Kazakistan, ci sono voluti alcuni passi drastici per incontrare il mondo a metà strada. Dopo aver ricevuto 7.000 articoli in kazako su Wikipedia, Kenzhekhanuly ha guidato un progetto per aumentarlo a 210.000 per compiacere Google.
”Abbiamo iniziato a comunicare con Google, ma hanno spiegato che in realtà non fanno nulla per portare lingue minori nel servizio Google Translate,” lui dice. ”Hanno detto che tocca a te - devi fornirci tonnellate di testo - e hanno chiesto 10.000 articoli.”
Dopo aver superato di molto quella cifra per le traduzioni speculari dal kazako in inglese (e ritorno) grazie al lavoro di 350 volontari in Kazakistan, il sistema di Google è stato in grado di costruire le sue prime traduzioni. Il kazako è ora disponibile come semplice sistema text-to-text su Google Translate, anche se non tradurrà interi siti web, parlato in kazako, né tradurrà tramite una fotocamera utilizzando l'app Google Translate (utilizzata principalmente per la traduzione dei menu).
Facile come l'ABC
C'è un altro passo piuttosto drastico che il Kazakistan ha preso per rendere il suo linguaggio più facile da integrare nel resto del mondo: sta cambiando il suo intero alfabeto. Lavorando sulla presunzione che l'alfabeto cirillico russo usato per scrivere il kazako sia sia un postumo di sbornia da parte dell'Unione Sovietica, sia scoraggiante per i visitatori di lingua inglese, nel 2017 il governo ha annunciato piani di transito per usare completamente l'alfabeto romano entro il 2025.
Il presidente del Kazakhstan Nursultan Nazarbayev ha annunciato lo scorso anno che il Kazakistan passerebbe all'alfabeto romano. Credito: Jamie Carter
(Immagine: © Jamie Carter)È già in uso nelle scuole, il che non sorprende poiché il decreto recitava: “Per il futuro dei nostri figli dovremmo prendere questa decisione e crearla come una condizione di ingresso per la nostra più ampia integrazione globale.”
Rivoluzione russa
Nonostante le concessioni linguistiche del Kazakistan al mondo della tecnologia, i progressi nella traduzione automatica ridurranno i problemi di traduzione nel prossimo futuro. Essendo stato parte dell'URSS per 55 anni fino al 1991, quello che il Kazakistan sta combattendo in parte in termini linguistici è il continuo dominio domestico della lingua russa; che è ironico, perché proprio questa estate una compagnia britannica fu la prima a rompere la traduzione storicamente complicata da russo a inglese.
”In russo, una parola potrebbe avere 12 variazioni di significato, con le inflessioni usate al posto di un ordine delle parole, ma in inglese sono solo tre o quattro e un ordine di parole fisso,” dice Mihai Vlad, VP di Machine Translation presso SDL con sede nel Regno Unito. ”Quindi la tecnologia generica di traduzione automatica non è sufficiente per una lingua come il russo; hai bisogno di un motore che indirizzi i modi specifici di fraseggio.”
Astana ha alcune delle architetture più moderne del mondo, eppure lotta per attirare l'interesse di Google e di altri giganti della tecnologia. Credito: Jamie Carter
(Immagine: © Jamie Carter)La soluzione si è rivelata Neural Machine Translation (NMT), che è stata anche responsabile dei recenti progressi nel riconoscimento di immagini e nel riconoscimento vocale. ”Ciò che è diverso è il modo in cui le parole vengono convertite in numeri,” spiega Vlad. ”Ogni parola viene codificata in una serie di numeri e quei numeri vengono passati attraverso una rete neurale che utilizza la moltiplicazione della matrice e si finisce con l'incorporamento di parole che essenzialmente cattura il significato della parola o frase.”
Le lingue latine si sono rivelate molto più facili da mappare, ma il tedesco, il russo e la maggior parte delle lingue asiatiche hanno richiesto NMT - motori di mappatura delle lingue essenzialmente personalizzati - per renderli leggibili dalle macchine.
Che dire del riconoscimento vocale?
Se avere una Wikipedia in lingua kazaka e ottenere il kazako su Google Traduttore sta aiutando a mantenere viva e fiorente la lingua piccola, che dire di Alexa, Assistente Google e Siri? Finora la crescita globale del riconoscimento vocale è stata nell'assistente vocale hardware, non nel software, con tutti i grandi giocatori limitati nelle lingue che gestiscono:
Alexa: Inglese, tedesco e giapponese.
Assistente Google: Inglese, francese, tedesco, italiano, giapponese e spagnolo
Siri: Inglese, arabo, cinese, danese, olandese, finlandese, francese, tedesco, ebraico, italiano, giapponese, coreano, malese, norvegese, portoghese, russo, spagnolo, svedese, tailandese e turco
”Ci piacerebbe essere parte di queste tecnologie e in questo momento stiamo lavorando per portare il kazako nel sistema speech-to-speech,” dice Kenzhekhanuly. Questo non è solo il modo in cui le persone in Kazakistan possono indulgere in novità senza senso come ottenere un Echo per impostare i timer da cucina e chiedere informazioni sul tempo: la posta in gioco è molto più alta. Si tratta di accedere al futuro della tecnologia.
”Se hai la tua lingua inclusa nella sintesi vocale, avrai accesso alle piattaforme che accedono agli smartphone, ma anche alle auto intelligenti.”
Rauan Kenzhekhanuly
”Se hai la tua lingua inclusa nella sintesi vocale, avrai accesso alle piattaforme che accedono agli smartphone, ma anche alle auto intelligenti,” dice Kenzhekhanuly. Ad esempio, le auto senza conducente del futuro comunicheranno sicuramente con i loro "autisti" principalmente usando la voce, ma se saranno affidate alle case automobilistiche e alle aziende tecnologiche, solo le lingue più grandi del mondo - cinese mandarino, inglese e spagnolo - saranno soddisfatti.
Di ritorno in Kazakistan, i lavori continueranno a fondere la lingua kazaka nel tessuto di Internet - e in particolare Google Translate - perché Kenzhekhanuly è convinto della sua importanza vitale nell'era moderna.
”Non è perfetto, ma la bellezza della tecnologia è che sta migliorando costantemente,” lui dice. ”Come un pezzo di tecnologia, non c'è altro che sia più vicino a imitare il cervello umano, ed è per questo che è così importante per il Kazako essere parte di esso - queste piattaforme non sono solo piattaforme di informazione, ma anche piattaforme linguistiche.”
TechRadar di Serie Next Up è portato in associazione con Honor