Aviat, potser no sabràs que estàs parlant amb un ordinador

👤 Autora Abigail Brown 📧 [email protected].
⏱ Public 2023-12-17 06:42.
🖍 Última modificació 2025-01-24 12:04.

Clau per emportar

S'acosta ràpidament el dia en què no podreu distingir la parla generada per ordinador de la realitat.
Google ha presentat recentment LaMDA, un model que podria permetre converses més naturals.
Produir un discurs semblant a un humà també requereix una gran quantitat de poder de processament.

Ara mateix, és fàcil saber quan estàs parlant amb un ordinador, però això pot canviar aviat gràcies als avenços recents en IA.

Google ha presentat recentment LaMDA, un model experimental que, segons la companyia, podria augmentar la capacitat dels seus assistents d'IA de conversa i permetre converses més naturals. LaMDA té com a objectiu conversar amb normalitat sobre gairebé qualsevol cosa sense cap tipus de formació prèvia.

És un d'un nombre creixent de projectes d'IA que et poden fer preguntar-te si estàs parlant amb un ésser humà.

"La meva estimació és que durant els propers 12 mesos, els usuaris començaran a estar exposats i a acostumar-se a aquestes noves veus més emocionals", James Kaplan, director general de MeetKai, un assistent de veu virtual d'IA conversacional i cercador. motor, va dir en una entrevista per correu electrònic.

"Un cop això passi, el discurs sintetitzat d'avui sonarà als usuaris com el discurs de principis dels anys 2000 ens sona avui."

Assistents de veu amb personatge

LaMDA de Google es basa en Transformer, una arquitectura de xarxa neuronal inventada per Google Research. A diferència d' altres models lingüístics, el LaMDA de Google es va entrenar en diàleg real.

Una part del repte de fer un discurs d'IA amb so natural és la naturalesa oberta de les converses, va escriure Eli Collins de Google en una publicació al bloc.

"Una xerrada amb un amic sobre un programa de televisió podria convertir-se en una discussió sobre el país on es va rodar el programa abans d'establir un debat sobre la millor cuina regional d'aquest país", va afegir.

Les coses es mouen ràpidament amb la parla del robot. Eric Rosenblum, soci director de Tsingyuan Ventures, que inverteix en IA conversacional, va dir que alguns dels problemes més fonamentals de la parla assistida per ordinador estan pràcticament resolts.

Per exemple, la taxa de precisió en la comprensió de la parla ja és molt alta en serveis com les transcripcions fetes pel programari Otter.ai o les notes mèdiques preses per DeepScribe.

"La següent frontera, però, és molt més difícil", va afegir.

"Retenir la comprensió del context, que és un problema que va molt més enllà del processament del llenguatge natural, i l'empatia, com ara els ordinadors que interactuen amb els humans, han d'entendre la frustració, la ira, la impaciència, etc. S'estan treballant tots dos problemes, però tots dos estan molt lluny de ser satisfactoris."

Les xarxes neuronals són la clau

Per generar veus reals, les empreses utilitzen tecnologia com les xarxes neuronals profundes, una forma d'aprenentatge automàtic que classifica les dades a través de capes, Matt Muldoon, president nord-americà de ReadSpeaker, una empresa que desenvolupa programari de text a veu, va dir en una entrevista per correu electrònic.

"Aquestes capes refinen el senyal, ordenant-lo en classificacions més complexes", va afegir. "El resultat és un discurs sintètic que sona estranyament com un humà."

Una altra tecnologia en desenvolupament és Prosody Transfer, que consisteix a combinar el so d'una veu de text a veu amb l'estil de parla d'una altra, va dir Muldoon. També hi ha aprenentatge de transferència, que redueix la quantitat de dades d'entrenament necessàries per produir una nova veu neuronal de text a veu.

Kaplan va dir que produir un discurs semblant a un humà també requereix una gran quantitat de poder de processament. Les empreses estan desenvolupant xips d'acceleradors neuronals, que són mòduls personalitzats que funcionen conjuntament amb processadors normals.

"La següent etapa serà posar aquests xips en un maquinari més petit, ja que actualment ja es fa per a les càmeres quan es requereix IA per a la visió", va afegir. "No passarà gaire abans que aquest tipus de capacitat informàtica estigui disponible als propis auriculars."

Un repte per desenvolupar un discurs basat en IA és que tothom parla de manera diferent, de manera que els ordinadors solen tenir dificultats per entendre'ns.

"Penseu en els accents de Geòrgia vs. Boston i Dakota del Nord, i si l'anglès és o no la vostra llengua principal", va dir en un correu electrònic Monica Dema, que treballa en analítiques de cerca per veu a MDinc. "Pensant globalment, és costós fer això per a totes les regions d'Alemanya, la Xina i l'Índia, però això no vol dir que no es pugui fer o no es pugui fer."

Recomanat:

Aviat, potser no sabràs que estàs parlant amb un ordinador

Taula de continguts:

Clau per emportar

Assistents de veu amb personatge

Les xarxes neuronals són la clau

Recomanat:

IPhone poden acceptar aviat els pagaments amb targeta, fent que l'efectiu quedi obsolet

Potser més monitors d'ordinador haurien de ser quadrats

El vostre ordinador amb Windows 11 aviat executarà aplicacions d'Android

Per què potser voldreu quedar-vos amb Google Fotos

HP 15-BS013DX: un ordinador portàtil amb pantalla tàctil assequible amb una mica de flare premium

Com encendre o apagar el vostre MacBook

Com afegir una impressora a Windows 10

Com duplicar un iPhone a un Mac

Com restaurar els missatges de WhatsApp

Com canviar els temes al Firefox

Instagram i Facebook permeten als usuaris amagar els m'agrada. Què hi ha per a tu?

Com trobar tots els missatges no llegits a Yahoo Mail

Aprèn a filtrar missatges similars a Gmail

Twitter Blue es troba a l'App Store per 2,99 $

De Mixer a Facebook Gaming: com QueenEliminator es va mantenir al capdavant

Per què els identificadors digitals poden no ser convenients encara

Com el Bolt de Logitech destaca les inseguretats de Bluetooth

Les millors funcions ocultes del Samsung Galaxy Note 9

Com la IA podria fer que la parla de l'ordinador sigui més natural

Com configurar Pixel Buds