L'Intelligenza artificiale emette una voce più chiara e comprensibile di quella umana. Il perché non si sa

Le voci generate dall’IA sono più chiare e comprensibili rispetto a quelle umane, soprattutto in ambienti rumorosi, ma il perchè per gli esperti rimane un mistero.

Lo studio dell’Acoustical Society of America

E’ quanto emerge dallo studio pubblicato sulla rivista Jasa, dell’Acoustical Society of America, e condotto da Patti Adank e Han Wang, due ricercatori rispettivamente dell’University College London e dell’Università di Roehampton.

L’Intelligenza artificiale emette una voce più chiara e comprensibile di quella umana. Il perché non si sa (foto Ansa-Blitzquotidiano)

Le voci sintetiche, come le segreterie telefoniche, i sistemi di risposta automatizzata fino a Siri e Alexa, sono presenti da tempo nelle nostre vite. Con il progredire dell’Intelligenza Artificiale sono stati sviluppati i cloni vocali in grado di ricreare una riproduzione fedele della voce di una persona a partire da pochi secondi di registrazione.

La differenza tra i due sistemi è nella quantità di campionamento necessaria. “Le voci sintetiche come Siri – osserva Patti Adank – richiedono a un doppiatore di trascorrere ore in una cabina di registrazione. Al contrario, un clone vocale può essere creato a partire da soli 10 secondi di parlato, ampliando significativamente il numero di voci potenzialmente utilizzabili e, di conseguenza, il numero di applicazioni”.