|
|
|
|||||||||
|
Tecnologie vocali: stato e prospettive Giulio Maltese 1. Riconoscimento e sintesi della voce: l’approccio statisticoAnche se il riconoscimento e la sintesi della voce sono da decenni tra gli obiettivi principali dei ricercatori della computer science, l’uso generalizzato di queste tecnologie in applicazioni d’uso comune è molto recente. L’approccio che oggi domina la scena nel mondo industriale e accademico ha cominciato a svilupparsi agli inizi degli anni ’70, con l’introduzione della tecnologia basata sugli Hidden Markov Models (HMM), introdotta da alcune istituzioni scientifiche e industriali tra cui l’IBM. Si tratta di un approccio basato sulla statistica, in cui a ogni istante è necessario stimare un gran numero di probabilità: probabilità di emissione di un suono data la conformazione assunta dall’apparato fonatorio del parlatore, probabilità che il parlatore voglia dire una certa parola dato il contesto della frase, e così via. In una parola, le moderne tecnologie vocali si basano su modelli statistici, che simulano con grande accuratezza il riconoscimento e la sintesi della voce da parte degli esseri umani. I parametri di tali modelli (le varie probabilità) vengono stimati analizzando ingenti quantità di dati: parlato digitalizzato o testi. I sistemi di questo tipo, dunque, “imparano” dai dati, rivelandosi quindi molto più semplici da costruire di sistemi schematizzabili con la dicitura “intelligenza artificiale” e riconducibili alla necessità di simulare con una “stratificazione” di conoscenze (fonetica, sintattica, semantica, pragmatica) in un sistema software ciò che avviene nella mente umana. Storicamente, l’approccio statistico ha finito col prevalere sia nel riconoscimento che nella sintesi vocale. Per quanto riguarda quest’ultimo aspetto, lo stato dell’arte è oggi rappresentato dalla cosiddetta “sintesi concatenativa,” in cui le parole e le frasi sintetiche vengono formate concatenando delle unità elementari di parlato con tecniche basate, appunto, sugli HMM.
2. Sistemi per la dettatura di testiÈ questa l’area dove storicamente è nata – anche in IBM - la disciplina del riconoscimento della voce, e che fino alla metà degli anni Novanta ha rappresentato il centro dell’interesse. Giova ricordare qui che numerosi sono i gradi di libertà di un sistema di riconoscimento della voce. Esso può operare su piccoli o grandi vocabolari; può richiedere o meno al parlatore un addestramento iniziale (sistemi dipendenti o indipendenti dal parlatore), può riconoscere in tempo reale o differito. Il parlatore può essere obbligato a fare delle pause tra le parole (parlato discreto) o può parlare in maniera naturale (parlato continuo). Infine, il dominio linguistico può essere più o meno ricco e vasto e dare pertanto luogo a maggiore o minore complessità di riconoscimento. Procedendo di pari passo all’enorme sviluppo delle potenze di calcolo disponibili, negli anni Ottanta e Novanta si sono via via realizzati sistemi di riconoscimento sempre più complessi, sino a giungere, intorno alla metà degli anni Novanta, a sistemi per la dettatura in parlato continuo, in modalità indipendente dal parlatore e su vocabolari di decine o centinaia di migliaia di parole. È stato così possibile costruire sistemi di riconoscimento adatti alla dettatura di testi di vario tipo (corrispondenza d’ufficio, relazioni, verbali, documenti di vario genere). Notevole fortuna hanno inoltre avuto applicazioni settoriali, come sistemi per la dettatura di referti medici, in cui la circoscrivibilità del dominio linguistico unitamente a una certa standardizzazione delle formule ha permesso la realizzazione di sistemi di dettatura in grado di ottenere tassi di accuratezza di riconoscimento sorprendentemente alti. Nel campo della dettatura di testi, la IBM è presente con la famiglia di prodotti ViaVoice®. Affermatasi come una delle migliori realizzazioni di sistemi di dettatura in parlato continuo, la tecnologia ViaVoice® è alla base del sistema di resocontazione oggi in uso presso la Camera dei Deputati della Repubblica Italiana.[1]
3. Sistemi per la trascrizione di notiziari e di parlato spontaneo Nella seconda metà degli anni Novanta, l’interesse scientifico-tecnologico nell’ambito dei sistemi di trascrizione si è spostato verso la realizzazione di sistemi in grado di trascrivere in tempo reale notiziari audio/video o, addirittura, oratori in conferenze e/o assemblee. È chiara la maggiore complessità presentata da questo genere di riconoscimento: il parlatore non cerca di adattarsi al riconoscitore, del quale può ben ignorare l’esistenza, e si esprime in “parlato spontaneo,” ovvero in maniera più complessa del parlato continuo, per quanto riguarda il riconoscimento. Inoltre il parlatore non sta dettando e pertanto, com’è ovvio, non pronuncia esplicitamente la punteggiatura. Per converso, le ricadute in termini di potenzialità applicative sono notevoli: sottotitolazione di notiziari video, sommarizzazione di notiziari per successivo information retrieval, disponibilità di una bozza di un discorso in tempo reale, e così via. Vi è oggi un certo interesse, scientifico e applicativo, sulla possibilità di realizzare in questo campo sistemi sempre più potenti ed efficaci.[2]
4. Sviluppo di telefonia e Internet: un nuovo ruolo per le tecnologie vocali Gli anni Novanta e l’inizio del nuovo secolo hanno visto una crescita vertiginosa di Internet e della telefonia. Nel 2000-2001 sono stati venduti 405 milioni di telefoni cellulari in tutto il mondo, e il limite di un miliardo di possessori di un cellulare potrebbe venire superato ben entro il 2002.[3] In centinaia di milioni è inoltre valutabile il numero di utenti abituali di Internet, divenuta ormai la struttura portante della società dell’informazione. Per restare competitivi nel mondo del commercio elettronico (e-business) i costruttori debbono essere in grado di semplificare e migliorare le relazioni coi loro clienti, consentendo l’accesso alle informazioni in ogni momento e in ogni luogo. A loro volta i clienti chiedono sempre maggiori capacità di accesso self-service alle informazioni e possibilità di instaurare transazioni commerciali senza dover passare attraverso l’interfaccia d’un computer. La modalità di accesso “sempre e comunque” sposta il tipico accesso alla rete a una varietà di altri devices tra i quali il telefono gioca in questi anni un ruolo di primo piano. Ciò ben si sposa col fatto che la qualità dei sistemi di riconoscimento e sintesi della voce è ormai divenuta tale da dimostrarne l’efficacia anche attraverso il canale telefonico. Nelle tecnologie vocali l’interesse del mercato, nonché di fornitori e ricercatori, si è spostato pertanto verso la realizzazione di sistemi capaci di riconoscere la voce su linea telefonica. Questi possono essere classificati in più modi, ad esempio a seconda del dialogo (o dell’interfaccia vocale) che offrono agli utenti o a seconda dei contenuti dell’applicazione. Il dialogo può essere “vincolato” o “naturale” a seconda che all’utente venga chiesto di fare la sua richiesta secondo una modalità predefinita (ad es. dire nome e cognome in un centralino vocale telefonico) o venga lasciato libero di formularla in “linguaggio naturale.” In questo caso la richiesta dovrà essere interpretata da un motore di Natural Language Understanding (NLU) per trasformarla in un’appropriata richiesta al relativo database. In entrambi i casi il sistema risponderà all’utente tramite le azioni richieste e/o la sintesi vocale. L’applicazione può poi essere mirata ad avere un determinato contenuto informativo o transazionale (connessione al numero telefonico di un utente di un centralino corporate, accesso a un database come l’orario dei voli con capacità di eseguire a voce la transazione fino all’acquisto del biglietto) o essere di tipo generalista, come un vero e proprio “portale vocale,” dove informazioni gratuite possono essere offerte insieme a servizi a pagamento. IBM è presente in questo settore con la famiglia di prodotti middleware WebSphere™ Voice Server con i quali è possibile realizzare applicazioni basate su speech mediante standard industriali quali VoiceXML e Java,™ connesse alla rete telefonica mediante le funzioni di un sistema IVR (Interactive Voice Response) come WebSphere™ Voice Response. Nel mondo cominciano già ad esservi alcune rilevanti realizzazioni di sistemi con tecnologia IBM. L’azienda di servizi finanziari T. Rowe Price, con sede a Baltimora (USA) utilizza un sistema basato su WebSphere™ Voice Server e su tecniche di NLU per consentire ai suoi clienti di fare interrogazioni sul proprio stato finanziario e/o effettuare movimenti senza dover richiedere l’assistenza di un operatore ma semplicemente ponendo domande in linguaggio naturale, come vorrei avere il mio estratto conto, per favore, oppure quali sono i fondi nel mio portafoglio?[4] Non va infine dimenticato che non sempre è possibile o accettabile (limitazioni di memoria, applicazioni consultate da utenti di varia provenienza) avere un sistema disponibile in una sola lingua alla volta. Negli ultimi anni sono stati realizzati sistemi multilingua, in cui con uno stesso insieme di simboli fonetici si rappresentano i suoni di più lingue e i parametri dei modelli vengono stimati a partire da dati appartenenti a più lingue. Pur se il tasso di riconoscimento subisce una piccola flessione rispetto alle prestazioni che avrebbero i sistemi monolingua, i risultati complessivi rendono interessanti ed efficienti le applicazioni basate su questo approccio.
5. Interfacce vocali embedded Un settore di grande interesse per il futuro dello speech è costituito dal mondo dei sistemi che non nascono necessariamente come telefoni o computer, ma che ciononostante possono beneficiare dall’avere al loro interno (embedded) interfacce vocali onde offrire la possibilità della comunicazione vocale. Un tipico esempio di tali sistemi è dato da un GPS o da un car navigation system: il guidatore ha notevole e ovvia utilità nel poter interagire a voce col sistema. Le tecniche per ovviare alla rumorosità dell’abitacolo di un’automobile costituiscono la maggiore complessità di queste applicazioni, unitamente alla non elevata capacità di elaborazione dei chip. Nel mondo embedded particolare attenzione è rivolta ai cosiddetti Personal Digital Assistant (PDA), i quali costituiscono un altro esempio di sistemi in cui si stanno cominciando a realizzare interfacce vocali per l’attivazione di numerose applicazioni. In questi giorni IBM è presente al CeBIT di Hannover con – tra le molte soluzioni – due applicazioni vocali, entrambe funzionanti su un PDA: con la prima, che gira su un browser VoiceXML multimodale sviluppato da IBM, è possibile inviare SMS a voce, mentre l’altra permette di chiedere il play di un motivo musicale scelto tra migliaia, dimostrando così la potenzialità del riconoscimento su grandi vocabolari sia pure su un hardware con risorse limitate.[5]
Prospettive Se la direzione verso la quale stiamo andando sempre più velocemente è quella di una crescente miniaturizzazione e “indossabilità” dei computer, dell’integrazione più a breve termine tra PDA e telefoni cellulari, dell’importanza sempre maggiore dell’accesso alle informazioni “sempre e dovunque,” lo speech diverrà sempre più importante in questa trasformazione tecnologica nella misura in cui riuscirà a facilitare e automatizzare la comunicazione uomo-macchina. Al momento, grandi aspettative sono riposte sull’espansione del mercato dei telefoni cellulari e sui telefoni di terza generazione con particolare riguardo alle capacità tecnologiche che questi ingloberanno, e che li renderanno sempre più simili a un’integrazione tra telefono e computer in un solo device di ridotte dimensioni. In questo quadro, le soluzioni basate su tecnologie di speech dovranno essere semplici, robuste e flessibili. Esse troveranno impiego in una crescente varietà di sistemi, come telefoni cellulari, PDA, computer, smart chips di vario utilizzo in casa, macchina, ufficio. La dettatura tornerà in auge grazie alle aumentate risorse di calcolo dei devices. Tra le sfide che il futuro pone due sembrano particolarmente importanti. Anzitutto la necessità di estendere le tecnologie esistenti in termini di robustezza, affidabilità e varietà delle lingue offerte. In secondo luogo la capacità di formare speech scientists sufficientemente numerosi e preparati, capaci di tradurre in realtà il balzo in avanti che il mercato e lo sviluppo delle tecnologie di base richiedono. Una stretta collaborazione tra istituzioni scientifiche e industriali appare la risposta più efficace.[6] In questa prospettiva, IBM, che opera nelle tecnologie vocali con centinaia di unità in numerosi paesi, e con una copertura di decine di lingue in vari segmenti applicativi,[7] è senz’altro in grado di recitare un ruolo di primo piano negli anni a venire. * Giulio Maltese è Research Staff Member presso il Laboratorio IBM di Roma. [1] Si veda: S. Zorzi, “L’utilizzo della tecnica del riconoscimento vocale nella redazione dei resoconti integrali di base dei lavori della Camera dei Deputati,” Intersteno 2001, Hannover, http://www.intersteno.it. [2] L’IBM partecipa col prototipo Hub4 alla valutazione comparativa sotto l’egida della DARPA (Defense Advanced Research Projects Agency). Si veda E. Eide et al., “Transcription of Broadcast News with a Time Constraint: IBM’s 10xRT Hub4 System,” Atti della International Conference on Spoken Language Processing, 2000, Pechino. [3] Y. Neuvo, “Mobile Future,” Atti di EuroSpeech 2001, Aalborg, Danimarca. [4] Per maggiori informazioni si veda http://www.ibm.com/software/speech/enterprise/wvs-trpr.html. [5] Si veda http://www-5.ibm.com/de/pressroom/cebit2002/english/highlights/hl_ibm_voice_technol.html [6] S. Greenberg, “Whither Speech Technology? A Twenty-First Century Perspective,” Atti di EuroSpeech 2001, Aalborg, Danimarca. [7] Maggiori informazioni sulle attività della IBM nel campo delle tecnologie vocali si trovano all’indirizzo http://www.software.ibm.com/speech. |
![]()
|
|||||||||
|
|
||||||||||
|
|
||||||||||