Aviat, potser no sabràs que estàs parlant amb un ordinador

Taula de continguts:

Aviat, potser no sabràs que estàs parlant amb un ordinador
Aviat, potser no sabràs que estàs parlant amb un ordinador
Anonim

Clau per emportar

  • S'acosta ràpidament el dia en què no podreu distingir la parla generada per ordinador de la realitat.
  • Google ha presentat recentment LaMDA, un model que podria permetre converses més naturals.
  • Produir un discurs semblant a un humà també requereix una gran quantitat de poder de processament.
Image
Image

Ara mateix, és fàcil saber quan estàs parlant amb un ordinador, però això pot canviar aviat gràcies als avenços recents en IA.

Google ha presentat recentment LaMDA, un model experimental que, segons la companyia, podria augmentar la capacitat dels seus assistents d'IA de conversa i permetre converses més naturals. LaMDA té com a objectiu conversar amb normalitat sobre gairebé qualsevol cosa sense cap tipus de formació prèvia.

És un d'un nombre creixent de projectes d'IA que et poden fer preguntar-te si estàs parlant amb un ésser humà.

"La meva estimació és que durant els propers 12 mesos, els usuaris començaran a estar exposats i a acostumar-se a aquestes noves veus més emocionals", James Kaplan, director general de MeetKai, un assistent de veu virtual d'IA conversacional i cercador. motor, va dir en una entrevista per correu electrònic.

"Un cop això passi, el discurs sintetitzat d'avui sonarà als usuaris com el discurs de principis dels anys 2000 ens sona avui."

Assistents de veu amb personatge

LaMDA de Google es basa en Transformer, una arquitectura de xarxa neuronal inventada per Google Research. A diferència d' altres models lingüístics, el LaMDA de Google es va entrenar en diàleg real.

Una part del repte de fer un discurs d'IA amb so natural és la naturalesa oberta de les converses, va escriure Eli Collins de Google en una publicació al bloc.

Image
Image

"Una xerrada amb un amic sobre un programa de televisió podria convertir-se en una discussió sobre el país on es va rodar el programa abans d'establir un debat sobre la millor cuina regional d'aquest país", va afegir.

Les coses es mouen ràpidament amb la parla del robot. Eric Rosenblum, soci director de Tsingyuan Ventures, que inverteix en IA conversacional, va dir que alguns dels problemes més fonamentals de la parla assistida per ordinador estan pràcticament resolts.

Per exemple, la taxa de precisió en la comprensió de la parla ja és molt alta en serveis com les transcripcions fetes pel programari Otter.ai o les notes mèdiques preses per DeepScribe.

"La següent frontera, però, és molt més difícil", va afegir.

"Retenir la comprensió del context, que és un problema que va molt més enllà del processament del llenguatge natural, i l'empatia, com ara els ordinadors que interactuen amb els humans, han d'entendre la frustració, la ira, la impaciència, etc. S'estan treballant tots dos problemes, però tots dos estan molt lluny de ser satisfactoris."

Les xarxes neuronals són la clau

Per generar veus reals, les empreses utilitzen tecnologia com les xarxes neuronals profundes, una forma d'aprenentatge automàtic que classifica les dades a través de capes, Matt Muldoon, president nord-americà de ReadSpeaker, una empresa que desenvolupa programari de text a veu, va dir en una entrevista per correu electrònic.

"Aquestes capes refinen el senyal, ordenant-lo en classificacions més complexes", va afegir. "El resultat és un discurs sintètic que sona estranyament com un humà."

Una altra tecnologia en desenvolupament és Prosody Transfer, que consisteix a combinar el so d'una veu de text a veu amb l'estil de parla d'una altra, va dir Muldoon. També hi ha aprenentatge de transferència, que redueix la quantitat de dades d'entrenament necessàries per produir una nova veu neuronal de text a veu.

Kaplan va dir que produir un discurs semblant a un humà també requereix una gran quantitat de poder de processament. Les empreses estan desenvolupant xips d'acceleradors neuronals, que són mòduls personalitzats que funcionen conjuntament amb processadors normals.

"La següent etapa serà posar aquests xips en un maquinari més petit, ja que actualment ja es fa per a les càmeres quan es requereix IA per a la visió", va afegir. "No passarà gaire abans que aquest tipus de capacitat informàtica estigui disponible als propis auriculars."

Un repte per desenvolupar un discurs basat en IA és que tothom parla de manera diferent, de manera que els ordinadors solen tenir dificultats per entendre'ns.

"Penseu en els accents de Geòrgia vs. Boston i Dakota del Nord, i si l'anglès és o no la vostra llengua principal", va dir en un correu electrònic Monica Dema, que treballa en analítiques de cerca per veu a MDinc. "Pensant globalment, és costós fer això per a totes les regions d'Alemanya, la Xina i l'Índia, però això no vol dir que no es pugui fer o no es pugui fer."

Recomanat: