Tutti i prezzi sono validi al momento della pubblicazione. Se fai click o acquisti qualcosa, potremmo ricevere un compenso.

Il colosso cinese Baidu annuncia Deep Voice 3, nuovo motore di sintetizzazione vocale

25 Ottobre 2017 4

Baidu, il gigante delle ricerche numero uno in Cina considerato alla pari della stessa Google, ha recentemente annunciato la terza generazione del proprio motore di sintetizzazione vocale, frutto di anni di lavoro. Combinando tecnologie diverse come il Deep Learning e l'AI, il nuovo sistema permette di convertire testo in parlato in maniera molto più veloce e naturale, rispondendo alla crescente richiesta di assistenti vocali.

Il suo nome è Deep Voice e la prima versione riusciva a riprodurre solo frasi di breve durata richiedendo ore e ore per riuscire ad imparare nuovi accenti e timbriche. A maggio scorso debutta la versione 2, che accorcia notevolmente i tempi di apprendimento e supporta un maggior numero di sfumature linguistiche.

Con Deep Voice 3 viene raggiunto un nuovo primato. Secondo quanto dichiarato dalla società, questa terza versione può imparare fino a 2500 tipi di voci o dialetti, elaborando i dati in soli 30 minuti.


Avere un sistema in grado di generare efficacemente un'ampia varietà di voci apre la porta a molti casi di utilizzo, fino ad oggi quasi impossibili da riprodurre. Ad esempio, ogni personaggio di un audio libro può essere interpretato in un certo modo, o nel mondo dei videogiochi, la voce di un lui o di una lei possono migliorare notevolmente l'esperienza d'uso.

Gli esempi mostrati nel comunicato stampa di Baidu (che trovate anche nel link alla fonte), non permettono ancora una riproduzione "umana" dei toni, ma tra i prossimi obbiettivi futuri, ci sarà anche quello di rendere la timbrica meno sintetica e più vicina ad una voce naturale. Tornando al presente, Baidu cercherà innanzitutto di creare un sistema che possa dominare le sfumature di una molteplicità di accenti o personaggi. Mentre 2.500 è il limite attuale, il team di sviluppo è convinto di poter arrivare con una versione futura, ad utilizzare un set di dati più grande, arrivando ad immagazzinare 10,000 tipi di voci in un lasso di tempo uguale o inferiore a quello di Deep Voice 3.


4

Commenti

Regolamento Commentando dichiaro di aver letto il regolamento e di essere a conoscenza delle informazioni e norme che regolano le discussioni sul sito. Clicca per info.
Caricamento in corso. Per commentare attendere...
kedwir

Il sintetizzatore di Google è a malapena decente, molto meglio quello di Ivona (voce giorgio) acquistata tempo fà da Amazon.. e morta li, qualcuno sa dirmi se l'hanno mai migliorata? o esiste uno spin-off ecc? ancora la uso per farmi leggere i libri quando non ne ho la possibilità, ora credo che Amazon la usi come motore di sintesi per Alexa.

Liuk

By two!

felicstzechet

gola profonda 3, già visto

Federico

Questo è un altro ambito di ricerca molto importante.
Il sintetizzatore vocale di Google è veramente molto buono, decisamente espressivo e pronuncia le frasi con la giusta enfasi tenendo conto della punteggiatura con solo pochissimi errori.
Però ha il limite di non tener traccia del contesto.

Recensione e Riprova Google Pixel Buds Pro, rinate con l'aggiornamento

24H con Oppo Find N2 Flip, la sfida a Samsung è servita | VIDEO

Abbiamo provato i nuovi Galaxy Z Fold4 e Z Flip4, ecco le novità! | VIDEO

Copertura 5G, a che punto siamo davvero? La nostra esperienza in città