Clau per emportar
- Les empreses estan lluitant per trobar maneres de fer que la parla generada per ordinador soni més realista.
- NVIDIA ha presentat recentment eines que poden capturar el so de la parla natural perquè et permeten entrenar una IA amb la teva pròpia veu.
- L'entonació, l'emoció i la musicalitat són les característiques que encara manquen a les veus d'ordinador, diu un expert.
El discurs generat per ordinador aviat pot semblar molt més humà.
El fabricant de peces d'ordinador NVIDIA ha presentat recentment eines que poden capturar el so de la parla natural permetent-vos entrenar una IA amb la vostra veu. El programari també pot pronunciar les paraules d'un parlant mitjançant la veu d'una altra persona. Forma part d'una empenta creixent per fer que la parla de l'ordinador sigui més realista.
"La tecnologia avançada d'IA de veu permet als usuaris parlar de manera natural, combinant moltes consultes en una sola frase i eliminant la necessitat de repetir els detalls de la consulta original constantment", Michael Zagorsek, director d'operacions de l'empresa de reconeixement de veu SoundHound., va dir a Lifewire en una entrevista per correu electrònic.
"L'addició de diversos idiomes, ara disponible a la majoria de plataformes d'IA de veu, fa que els assistents de veu digitals siguin accessibles en més geografies i per a més poblacions", va afegir.
Robospeech Rising
L'Alexa d'Amazon i el Siri d'Apple sonen molt millor que el discurs de l'ordinador de fa una dècada, però no els confondran amb veus humanes autèntiques en cap moment.
Per fer que la parla artificial soni més natural, l'equip d'investigació de text a veu de NVIDIA va desenvolupar un model RAD-TTS. El sistema permet als individus ensenyar un model de text a veu (TTS) amb la seva veu, inclosos el ritme, la tonalitat, el timbre i altres factors.
La companyia va utilitzar el seu nou model per crear una narració de veu més conversacional per a la seva sèrie de vídeos I Am AI.
"Amb aquesta interfície, el nostre productor de vídeo podria gravar-se llegint el guió del vídeo i després utilitzar el model d'IA per convertir el seu discurs en la veu de la narradora femenina. Amb aquesta narració de referència, el productor podria dirigir l'IA com un actor de veu ajustant el discurs sintetitzat per emfatitzar paraules específiques i modificar el ritme de la narració per expressar millor el to del vídeo", va escriure NVIDIA al seu lloc web.
Més difícil del que sembla
Fer que la parla generada per ordinador soni natural és un problema complicat, diuen els experts.
"Cal gravar centenars d'hores de la veu d'algú per crear-ne una versió per ordinador", va dir a Lifewire Nazim Ragimov, director general de l'empresa de programari de text a veu Kukarella, en una entrevista per correu electrònic. “I la gravació ha de ser de gran qualitat, gravada en un estudi professional. Com més hores de parla de qualitat es carreguin i es processin, millor serà el resultat."
La síntesi de veu es pot utilitzar en jocs, per ajudar persones amb discapacitats vocals o per ajudar els usuaris a traduir entre idiomes amb la seva pròpia veu.
L'entonació, l'emoció i la musicalitat són les característiques que encara manquen a les veus d'ordinador, va dir Ragimov.
Si l'IA pot afegir aquests enllaços que f alten, el discurs generat per ordinador serà "indistingible de les veus dels actors reals", va afegir. "Això és un treball en curs. Altres veus podran competir amb els presentadors de ràdio. Aviat veuràs veus que poden cantar i llegir audiollibres."
La tecnologia de la parla és cada cop més popular en una àmplia gamma d'empreses.
"La indústria de l'automòbil ha adoptat recentment la IA de veu com una manera de crear experiències de conducció més segures i connectades", va dir Zagorsek.
"Des d'aleshores, els assistents de veu s'han tornat cada cop més omnipresents a mesura que les marques busquen maneres de millorar les experiències dels clients i satisfer la demanda de mètodes d'interacció més fàcils, segurs, còmodes, eficients i higiènics amb els seus productes i serveis".
Típicament, la IA de veu converteix les consultes en respostes en un procés de dos passos que comença transcrivint la parla a text mitjançant el reconeixement automàtic de la veu (ASR) i després introdueix aquest text a un model de comprensió del llenguatge natural (NLU).
L'enfocament de SoundHound combina aquests dos passos en un sol procés per fer un seguiment de la parla en temps real. L'empresa afirma que aquesta tècnica permet als assistents de veu entendre el significat de les consultes dels usuaris, fins i tot abans que la persona acabi de parlar.
Els futurs avenços en la parla de l'ordinador, inclosa la disponibilitat d'una varietat d'opcions de connectivitat, des de només incrustat (no cal connexió al núvol) fins a híbrids (incrustat més núvol) i només al núvol, "oferiran més opcions a les empreses de tots els sectors. en termes de cost, privadesa i disponibilitat de poder de processament", va dir Zagoresk.
NVIDIA va dir que els seus models d'IA de notícies van més enllà del treball de veu en off.
"El text a veu es pot utilitzar en jocs, per ajudar persones amb discapacitats vocals o per ajudar els usuaris a traduir entre idiomes amb la seva pròpia veu", va escriure la companyia. "Fins i tot pot recrear les actuacions de cantants emblemàtics, coincidint no només amb la melodia d'una cançó, sinó també amb l'expressió emocional darrere de la veu."