La tecnologia di riconoscimento vocale sta svolgendo un ruolo sempre più importante nelle nostre vite, sia che chiediamo alla nostra Amazon Echo di riprodurre la nostra playlist Spotify preferita o di ottenere una riduzione delle notizie dall'Assistente Google integrato nei nostri smartphone.

Sebbene la tecnologia di riconoscimento vocale sia esistita in qualche forma dagli anni '50, è solo negli ultimi anni che ha trovato un'applicazione pratica sotto forma di assistenti vocali incorporati in smartphone, altoparlanti e altro.

L'ultima ondata di innovazioni nel riconoscimento vocale è arrivata grazie ai balzi compiuti nell'intelligenza artificiale negli ultimi anni, con giganti della tecnologia come Google, Amazon e Apple che appoggiavano il loro uso di reti neurali nello sviluppo dei loro assistenti vocali.

Apprendimento automatico

Ciò che distingue gli assistenti vocali come Amazon Alexa, Apple Siri e Google Assistant a parte le prime iterazioni della tecnologia di riconoscimento vocale è il fatto che essi imparano costantemente, raccolgono schemi vocali, vocabolario e sintassi con ogni interazione.

La maggior parte degli assistenti vocali in questi giorni ha anche il riconoscimento vocale, che consente loro di distinguere tra diversi utenti - e con la potenza di queste enormi aziende tecnologiche e motori di ricerca dietro di loro, gli assistenti vocali stanno migliorando tutto il tempo.

Tuttavia, mentre la tecnologia è migliorata in modo irrefutabile da quando è stata introdotta sui dispositivi dei consumatori, i limiti con intelligenza artificiale e apprendimento automatico hanno fatto sì che gli assistenti vocali fossero ancora relativamente rozzi in termini di suoni che possono interpretare e rispondere a.

Sembra plausibile

Ciò potrebbe essere in parte dovuto all'enfasi del riconoscimento vocale rispetto al riconoscimento acustico; dopo tutto, una grande quantità delle informazioni sonore che il nostro cervello recepisce quotidianamente proviene da suoni non verbali, come il clacson delle corna delle macchine o un cane che abbaia.

Sebbene l'origine del linguaggio sia pensata per anticipare gli esseri umani moderni, potenzialmente si estende fino al passato Homo Ergaster (1.5-1.9 milioni di anni fa), i nostri antenati furono in grado di identificare e processare il suono molto prima.

Mentre la comunicazione verbale gioca un ruolo importante nella nostra comprensione razionale del mondo che ci circonda, è un suono non verbale che spesso suscita una risposta emotiva, evolutivamente radicata - sappiamo con pochissimo contesto che un animale ringhiante ci sta avvisando di arretrare, mentre un pianto il bambino ha bisogno di attenzione Un forte scoppio ci fa sentire spaventati, e noi sussultiamo, alzando le mani per proteggere le nostre teste.

Non solo, ma il suono non verbale gioca un ruolo enorme nel modo in cui comunichiamo tra loro; per esempio, in risposta al bambino che piange, un genitore potrebbe emettere un rumore calmante, proprio come potremmo gridare a un animale ringhiante per cercare di spaventarlo via.

Quindi, se il suono non verbale è così importante per la nostra comprensione del mondo e del modo in cui comunichiamo, perché gli assistenti a comando vocale hanno così appeso il linguaggio?

La missione di Audio Analytic

Un'azienda britannica pensa che sia giunto il momento per i nostri dispositivi connessi di apprendere l'arte di ascoltare il suono puro - Audio Analytic è una società di riconoscimento del suono basata a Cambridge che si dedica al miglioramento della tecnologia intelligente in casa.

Guidata dal CEO e fondatore Dott. Chris Mitchell, la ricerca di Audio Analytic sul riconoscimento del suono e sull'intelligenza artificiale significa che gli assistenti vocali come Amazon Alexa potrebbero presto ricevere un importante strato extra di informazioni uditive: contesto.

Dopo aver completato un dottorato di ricerca, concentrandosi sull'insegnamento ai computer su come riconoscere i generi musicali, Mitchell si rese conto che non c'erano aziende che lavoravano principalmente nel riconoscimento del suono. Così ha iniziato con una lista di tutti i suoni che poteva pensare e le loro caratteristiche e con ciò, ha impostato Audio Analytic.

Anche se Audio Analytic è nato nel campo della sicurezza aziendale, Mitchell ce lo ha detto “la società ha trovato un mercato nello spazio elettronico dei consumatori” come dispositivi connessi è diventato più comune nella famiglia media.

Con così tanti microfoni collegati che entrano nelle nostre case attraverso altoparlanti intelligenti come Amazon Echo, Google Home e Apple HomePod, a “mondo di possibilità” improvvisamente aperto per l'azienda - con particolare attenzione alla sicurezza domestica intelligente.

Come rende la mia casa più sicura?

Quindi, in che modo la tecnologia di riconoscimento del suono può migliorare i dispositivi di sicurezza intelligenti? Bene, un esempio è se un ladro cerca di irrompere in casa, rompendo una finestra nel processo. Se il tuo altoparlante intelligente ha la capacità di interpretare il suono e identificare correttamente l'amplificazione, la lunghezza d'onda e la frequenza sonora della rottura del vetro, può quindi inviarti una notifica, così come inviare un segnale ad altri dispositivi collegati in casa.

Funziona particolarmente bene quando si dispone di dispositivi di sicurezza intelligenti come Hive Hub 360, che incorporano la tecnologia di riconoscimento del suono di Audio Analytic. Ciò significa che può riconoscere suoni diversi come il cane che abbaia al suono delle finestre che si rompono, e di conseguenza , può attivare altri dispositivi Hive.

Quindi, se una finestra si rompe in casa, è possibile impostare automaticamente le luci Hive per accendere e spaventare un potenziale intruso. La cosa davvero intelligente di questa tecnologia è che non ti informa su ogni suono della tua casa, solo su quelli che ritiene importanti, grazie allo smistamento di diversi suoni o "ideofoni" in enormi librerie sonore di Audio Analytic.

  • Le migliori serrature intelligenti: proteggete la vostra casa con una moderna serratura intelligente

Che dire degli assistenti AI?

Oltre alla sicurezza domestica, l'altro risultato di una migliore tecnologia di riconoscimento del suono è rappresentato da assistenti vocali più intelligenti e più empatici, come spiega Mitchell: “Se potessi dare a un assistente vocale un senso di consapevolezza, benessere e tutte le altre cose che conosco provengono dal suono, allora la loro personalità può essere estesa, così come la loro reattività e la loro utilità.”

Ripensa al bambino che piange e immagina di avere la libreria sonora di Audio Analytic integrata in Amazon Echo Dot nella stanza di tuo figlio. Sono le 1 di mattina e ti ritrovi a letto quando ricevi una notifica sul tuo smartphone che ti dice che l'Echo Dot ha rilevato il suono di un bambino che piange.

Alexa accende le luci nel tuo corridoio in modo da poterti trovare al buio, mentre l'Echo Dot suona musica rilassante nella stanza del bambino. Forse Alexa parla persino con la piccola, rassicurandola che sei sulla buona strada, o forse le legge una favola, calmando il tuo bambino fino a quando non arrivi lì e fai dondolare la schiena per dormire.

Sia che tu trovi questo dolce, o distopico all'estremo, dipende in gran parte dai tuoi sentimenti verso la tecnologia AI, ma un riconoscimento chiaramente sano ha il potenziale per rendere gli assistenti vocali come Alexa più comprensivi, più umani e infinitamente più intelligenti.

Guardando al futuro

Puoi prendere l'analogia del bambino che piange ancora di più quando consideri la connessione tra suoni diversi. Sebbene l'attenzione di Audio Analytic sia stata finora focalizzata sul suono individuale, Mitchell crede che il futuro dell'azienda risieda nell'identificazione e contestualizzazione di più suoni insieme.

“Immagina che il bambino pianga, e abbia tossito molto, e starnutendo molto ... improvvisamente inizi a creare un'immagine molto più ricca ... così, le combinazioni di tutti questi effetti sonori e il contesto [loro] potrebbero rendere davvero utili Caratteristiche,” lui dice.

Se un assistente vocale è in grado di identificare i suoni di pianto, tosse e starnuti, non è un grande salto suggerire che un giorno sarà in grado di collegare questi suoni insieme e dedurre una possibile causa - in questo caso, l'assistente vocale potrebbe supporre il bambino non si sente bene con il raffreddore e potrebbe suggerire dei rimedi, portare il numero per il medico o ordinargli qualche medicina per la tosse.

Questo tipo di pensiero razionale arriva naturalmente agli esseri umani, ma sono ancora all'inizio per entità artificialmente intelligenti; tuttavia, fornite agli assistenti di intelligenza artificiale gli strumenti giusti (ad es. ampie librerie soniche) e non c'è motivo per cui questa non potrebbe essere una possibilità in futuro.

Il problema con l'intelligenza artificiale

Naturalmente, l'idea di un assistente vocale che fa diagnosi farà scattare campane d'allarme per molte persone - dopo tutto, l'intelligenza artificiale non è neanche lontanamente una corrispondenza per il cervello umano in termini di ragionamento e intelligenza emotiva.

L'intelligenza artificiale non può competere con milioni di anni di evoluzione e condizionamento sociale, e il pregiudizio implicito a livello di dati e modelli algoritmici significa che gli assistenti vocali raccolgono razza, genere e pregiudizi ideologici, rendendo difficile per noi riporre la nostra fiducia in loro completamente.

Tuttavia, gli assistenti vocali potenziati dall'apprendimento automatico stanno migliorando ogni giorno, e potrebbe non passare molto tempo prima che Alexa diventi un po 'più umana, soprattutto se i suoi algoritmi sono meglio addestrati a interpretare sia i dati sonori che quelli linguistici.

E se questo non significa più inciampare nei giocattoli nel buio, allora contarci.

  • I migliori altoparlanti intelligenti 2018: quale si dovrebbe acquistare?