06 Luglio 2017
Baidu, il gigante delle ricerche numero uno in Cina considerato alla pari della stessa Google, ha recentemente annunciato la terza generazione del proprio motore di sintetizzazione vocale, frutto di anni di lavoro. Combinando tecnologie diverse come il Deep Learning e l'AI, il nuovo sistema permette di convertire testo in parlato in maniera molto più veloce e naturale, rispondendo alla crescente richiesta di assistenti vocali.
Il suo nome è Deep Voice e la prima versione riusciva a riprodurre solo frasi di breve durata richiedendo ore e ore per riuscire ad imparare nuovi accenti e timbriche. A maggio scorso debutta la versione 2, che accorcia notevolmente i tempi di apprendimento e supporta un maggior numero di sfumature linguistiche.
Con Deep Voice 3 viene raggiunto un nuovo primato. Secondo quanto dichiarato dalla società, questa terza versione può imparare fino a 2500 tipi di voci o dialetti, elaborando i dati in soli 30 minuti.
Avere un sistema in grado di generare efficacemente un'ampia varietà di voci apre la porta a molti casi di utilizzo, fino ad oggi quasi impossibili da riprodurre. Ad esempio, ogni personaggio di un audio libro può essere interpretato in un certo modo, o nel mondo dei videogiochi, la voce di un lui o di una lei possono migliorare notevolmente l'esperienza d'uso.
Gli esempi mostrati nel comunicato stampa di Baidu (che trovate anche nel link alla fonte), non permettono ancora una riproduzione "umana" dei toni, ma tra i prossimi obbiettivi futuri, ci sarà anche quello di rendere la timbrica meno sintetica e più vicina ad una voce naturale. Tornando al presente, Baidu cercherà innanzitutto di creare un sistema che possa dominare le sfumature di una molteplicità di accenti o personaggi. Mentre 2.500 è il limite attuale, il team di sviluppo è convinto di poter arrivare con una versione futura, ad utilizzare un set di dati più grande, arrivando ad immagazzinare 10,000 tipi di voci in un lasso di tempo uguale o inferiore a quello di Deep Voice 3.
Commenti
Il sintetizzatore di Google è a malapena decente, molto meglio quello di Ivona (voce giorgio) acquistata tempo fà da Amazon.. e morta li, qualcuno sa dirmi se l'hanno mai migliorata? o esiste uno spin-off ecc? ancora la uso per farmi leggere i libri quando non ne ho la possibilità, ora credo che Amazon la usi come motore di sintesi per Alexa.
By two!
gola profonda 3, già visto
Questo è un altro ambito di ricerca molto importante.
Il sintetizzatore vocale di Google è veramente molto buono, decisamente espressivo e pronuncia le frasi con la giusta enfasi tenendo conto della punteggiatura con solo pochissimi errori.
Però ha il limite di non tener traccia del contesto.