L'Intelligenza artificiale emette una voce più chiara e comprensibile di quella umana. Il perché non si sa (foto Ansa-Blitzquotidiano)
Le voci generate dall’IA sono più chiare e comprensibili rispetto a quelle umane, soprattutto in ambienti rumorosi, ma il perchè per gli esperti rimane un mistero.
E’ quanto emerge dallo studio pubblicato sulla rivista Jasa, dell’Acoustical Society of America, e condotto da Patti Adank e Han Wang, due ricercatori rispettivamente dell’University College London e dell’Università di Roehampton.
Le voci sintetiche, come le segreterie telefoniche, i sistemi di risposta automatizzata fino a Siri e Alexa, sono presenti da tempo nelle nostre vite. Con il progredire dell’Intelligenza Artificiale sono stati sviluppati i cloni vocali in grado di ricreare una riproduzione fedele della voce di una persona a partire da pochi secondi di registrazione.
La differenza tra i due sistemi è nella quantità di campionamento necessaria. “Le voci sintetiche come Siri – osserva Patti Adank – richiedono a un doppiatore di trascorrere ore in una cabina di registrazione. Al contrario, un clone vocale può essere creato a partire da soli 10 secondi di parlato, ampliando significativamente il numero di voci potenzialmente utilizzabili e, di conseguenza, il numero di applicazioni”.