Com la IA podria fer que la parla de l'ordinador sigui més natural

👤 Autora Abigail Brown 📧 brown@technologyhumans.com.
⏱ Public 2023-12-17 06:42.
🖍 Última modificació 2025-01-24 12:04.

Clau per emportar

Les empreses estan lluitant per trobar maneres de fer que la parla generada per ordinador soni més realista.
NVIDIA ha presentat recentment eines que poden capturar el so de la parla natural perquè et permeten entrenar una IA amb la teva pròpia veu.
L'entonació, l'emoció i la musicalitat són les característiques que encara manquen a les veus d'ordinador, diu un expert.

El discurs generat per ordinador aviat pot semblar molt més humà.

El fabricant de peces d'ordinador NVIDIA ha presentat recentment eines que poden capturar el so de la parla natural permetent-vos entrenar una IA amb la vostra veu. El programari també pot pronunciar les paraules d'un parlant mitjançant la veu d'una altra persona. Forma part d'una empenta creixent per fer que la parla de l'ordinador sigui més realista.

"La tecnologia avançada d'IA de veu permet als usuaris parlar de manera natural, combinant moltes consultes en una sola frase i eliminant la necessitat de repetir els detalls de la consulta original constantment", Michael Zagorsek, director d'operacions de l'empresa de reconeixement de veu SoundHound., va dir a Lifewire en una entrevista per correu electrònic.

"L'addició de diversos idiomes, ara disponible a la majoria de plataformes d'IA de veu, fa que els assistents de veu digitals siguin accessibles en més geografies i per a més poblacions", va afegir.

Robospeech Rising

L'Alexa d'Amazon i el Siri d'Apple sonen molt millor que el discurs de l'ordinador de fa una dècada, però no els confondran amb veus humanes autèntiques en cap moment.

Per fer que la parla artificial soni més natural, l'equip d'investigació de text a veu de NVIDIA va desenvolupar un model RAD-TTS. El sistema permet als individus ensenyar un model de text a veu (TTS) amb la seva veu, inclosos el ritme, la tonalitat, el timbre i altres factors.

La companyia va utilitzar el seu nou model per crear una narració de veu més conversacional per a la seva sèrie de vídeos I Am AI.

"Amb aquesta interfície, el nostre productor de vídeo podria gravar-se llegint el guió del vídeo i després utilitzar el model d'IA per convertir el seu discurs en la veu de la narradora femenina. Amb aquesta narració de referència, el productor podria dirigir l'IA com un actor de veu ajustant el discurs sintetitzat per emfatitzar paraules específiques i modificar el ritme de la narració per expressar millor el to del vídeo", va escriure NVIDIA al seu lloc web.

Més difícil del que sembla

Fer que la parla generada per ordinador soni natural és un problema complicat, diuen els experts.

"Cal gravar centenars d'hores de la veu d'algú per crear-ne una versió per ordinador", va dir a Lifewire Nazim Ragimov, director general de l'empresa de programari de text a veu Kukarella, en una entrevista per correu electrònic. “I la gravació ha de ser de gran qualitat, gravada en un estudi professional. Com més hores de parla de qualitat es carreguin i es processin, millor serà el resultat."

La síntesi de veu es pot utilitzar en jocs, per ajudar persones amb discapacitats vocals o per ajudar els usuaris a traduir entre idiomes amb la seva pròpia veu.

L'entonació, l'emoció i la musicalitat són les característiques que encara manquen a les veus d'ordinador, va dir Ragimov.

Si l'IA pot afegir aquests enllaços que f alten, el discurs generat per ordinador serà "indistingible de les veus dels actors reals", va afegir. "Això és un treball en curs. Altres veus podran competir amb els presentadors de ràdio. Aviat veuràs veus que poden cantar i llegir audiollibres."

La tecnologia de la parla és cada cop més popular en una àmplia gamma d'empreses.

"La indústria de l'automòbil ha adoptat recentment la IA de veu com una manera de crear experiències de conducció més segures i connectades", va dir Zagorsek.

"Des d'aleshores, els assistents de veu s'han tornat cada cop més omnipresents a mesura que les marques busquen maneres de millorar les experiències dels clients i satisfer la demanda de mètodes d'interacció més fàcils, segurs, còmodes, eficients i higiènics amb els seus productes i serveis".

Típicament, la IA de veu converteix les consultes en respostes en un procés de dos passos que comença transcrivint la parla a text mitjançant el reconeixement automàtic de la veu (ASR) i després introdueix aquest text a un model de comprensió del llenguatge natural (NLU).

L'enfocament de SoundHound combina aquests dos passos en un sol procés per fer un seguiment de la parla en temps real. L'empresa afirma que aquesta tècnica permet als assistents de veu entendre el significat de les consultes dels usuaris, fins i tot abans que la persona acabi de parlar.

Els futurs avenços en la parla de l'ordinador, inclosa la disponibilitat d'una varietat d'opcions de connectivitat, des de només incrustat (no cal connexió al núvol) fins a híbrids (incrustat més núvol) i només al núvol, "oferiran més opcions a les empreses de tots els sectors. en termes de cost, privadesa i disponibilitat de poder de processament", va dir Zagoresk.

NVIDIA va dir que els seus models d'IA de notícies van més enllà del treball de veu en off.

"El text a veu es pot utilitzar en jocs, per ajudar persones amb discapacitats vocals o per ajudar els usuaris a traduir entre idiomes amb la seva pròpia veu", va escriure la companyia. "Fins i tot pot recrear les actuacions de cantants emblemàtics, coincidint no només amb la melodia d'una cançó, sinó també amb l'expressió emocional darrere de la veu."

Recomanat:

Com la IA podria fer que la parla de l'ordinador sigui més natural

Taula de continguts:

Clau per emportar

Robospeech Rising

Més difícil del que sembla

Recomanat:

La nova pantalla de tinta E en color podria fer que la vostra propera tauleta sigui més llegible

VR podria fer que l'agricultura sigui més atractiva per als habitants de la ciutat

Una xarxa quàntica podria fer que Internet sigui més segur

Per què crec que fer que USB-C sigui per defecte és més difícil del que sembla

Els auriculars més lleugers i petits podrien fer que la realitat virtual sigui més immersiva

Com baixar Google Maps fora de línia al vostre dispositiu Android

Mac Migration Assistant pot moure dades de PC Windows

Revisió del projector empresarial BenQ MW612: brillant i compatible amb 3D

Revisió de la bomba de compressor d'aire portàtil Audew: compacte, funcional i fiable

Gestiona les dades d'Excel amb bases de dades, taules, registres i camps

Els 8 millors suports de projector, provats per Lifewire

La llista completa de dreceres de teclat d'Apple Mail

Les 7 millors càmeres de vídeo del 2022

Els 5 millors hoverboards del 2022

Què és el mode fosc d'Android? I com activar-lo

Apple anuncia un augment significatiu de l'ús de materials reciclats

Com arreglar un iPad desactivat

Com instal·lar Node JS a Windows

Com arreglar un iPad desactivat connectant-se a iTunes

Com utilitzar la fórmula del MES a Excel