Les converses amb el vostre ordinador poden ser més realistes

👤 Autora Abigail Brown 📧 brown@technologyhumans.com.
⏱ Public 2023-12-17 06:42.
🖍 Última modificació 2025-01-24 12:04.

Clau per emportar

Meta està utilitzant la intel·ligència artificial per crear programes que poden expressar emocions amb la parla.
L'equip d'IA de l'empresa va dir que ha fet avenços en el modelatge de vocalitzacions expressives, com ara rialles, badalls, plors i "xerrada espontània" en temps real.
La IA també s'està utilitzant per millorar el reconeixement de veu.

Aviat podríeu tenir una xerrada més natural amb el vostre ordinador, gràcies al poder de la intel·ligència artificial (IA).

Meta va dir que ha fet un avenç significatiu en el seu esforç per crear sistemes de parla més realistes generats per IA. L'equip d'IA de l'empresa va dir que ha fet avenços en la capacitat de modelar vocalitzacions expressives, com ara rialles, badalls i crits, a més de la "xerrada espontània" en temps real.

"En qualsevol conversa, les persones intercanvien plens de senyals no verbals, com ara entonacions, expressió emocional, pauses, accents, ritmes, tots els quals són importants per a les interaccions humanes", va escriure l'equip a la publicació recent del bloc.. "Però els sistemes d'IA actuals no aconsegueixen captar aquests senyals rics i expressius perquè només aprenen del text escrit, que captura el que diem però no com ho diem."

Discurs més intel·ligent

A la publicació del bloc, l'equip de Meta AI va dir que està treballant per superar les limitacions dels sistemes tradicionals d'IA que no poden entendre els senyals no verbals en la parla, com ara entonacions, expressions emocionals, pauses, accents i ritmes.. Els sistemes es frenen perquè només poden aprendre del text escrit.

Però el treball de Meta difereix dels esforços anteriors perquè els seus models d'IA poden utilitzar models de processament del llenguatge natural per capturar tota la naturalesa del llenguatge parlat. Els investigadors del meta diuen que els nous models poden permetre que els sistemes d'IA transmetin el sentiment que volen transmetre, com ara l'avorriment o la ironia.

"En un futur proper, ens centrarem en l'aplicació de tècniques sense text per crear aplicacions posteriors útils sense necessitat d'etiquetes de text intensives en recursos ni de sistemes de reconeixement automàtic de veu (ASR), com ara la resposta a preguntes (p. ex., "Com està temps?"), ", va escriure l'equip a la publicació del blog. "Creiem que la prosòdia en la parla pot ajudar a analitzar millor una frase, que al seu torn facilita la comprensió de la intenció i millora el rendiment de la resposta a les preguntes."

AI Powers Comprehension

No només els ordinadors milloren a l'hora de comunicar el significat, sinó que també s'utilitza la IA per millorar el reconeixement de la veu.

Els científics informàtics han estat treballant en el reconeixement de la parla des d'almenys l'any 1952, quan tres investigadors de Bell Labs van crear un sistema que podia reconèixer uns dígits numèrics, va dir el director de tecnologia d'AI Dynamics, Ryan Monsurate, en un correu electrònic a Lifewire. A la dècada de 1990, els sistemes de reconeixement de veu estaven disponibles comercialment, però encara tenien un percentatge d'errors prou alt com per desanimar l'ús fora de dominis d'aplicació molt específics, com ara l'assistència sanitària.

"Ara que els models d'aprenentatge profund han permès que els models de conjunt (com els de Microsoft) assoleixin un rendiment sobrehumà en el reconeixement de la parla, tenim la tecnologia per permetre la comunicació verbal independent del parlant amb ordinadors a escala", va dir Monsurate. "La següent etapa inclourà reduir el cost perquè tothom que faci servir Siri o els assistents d'IA de Google tinguin accés a aquest nivell de reconeixement de veu."

AI és útil per al reconeixement de veu perquè pot millorar amb el temps mitjançant l'aprenentatge, va dir a Lifewire Ariel Utnik, director d'ingressos i director general de l'empresa de veu d'IA Verbit.ai, en una entrevista per correu electrònic. Per exemple, Verbit afirma que la seva tecnologia d'IA interna detecta i filtra el soroll i els ecos de fons i transcriu els altaveus independentment de l'accent per generar transcripcions i subtítols detallats i professionals de vídeo i àudio en directe i gravats.

Però Utnik va dir que la majoria de les plataformes de reconeixement de veu actuals només tenen una precisió del 75-80%.

"La IA mai substituirà completament els humans, ja que la revisió personal per part dels transcriptors, correctors i editors és necessària per garantir una transcripció final d' alta qualitat i precisió", va afegir.

Un millor reconeixement de veu també es podria utilitzar per prevenir els pirates informàtics, va dir en un correu electrònic Sanjay Gupta, vicepresident global de desenvolupament corporatiu i de productes de l'empresa de reconeixement de veu Mitek Systems. La investigació indica que d'aquí a dos anys, el 20 per cent de tots els atacs d'adquisició de comptes amb èxit utilitzaran l'augment de veu sintètic, va afegir.

"Això significa que a mesura que la tecnologia deep fake es torna més sofisticada, hem de crear simultàniament seguretat avançada que pugui combatre aquestes tàctiques juntament amb les falsificacions profundes d'imatge i vídeo", va dir Gupta. "La lluita contra la falsificació de veu requereix una tecnologia de detecció de vivacitat, capaç de distingir entre una veu en directe i una versió enregistrada, sintètica o generada per ordinador d'una veu."

Correcció 2022-05-04: S'ha corregit l'ortografia del nom de Ryan Monsurate al paràgraf 9.

Recomanat:

Les extensions del vostre navegador us poden fer més rastrejables

Les extensions que trieu afegir al vostre navegador poden fer-vos més únic i més fàcil de fer el seguiment de persones amb la informació adequada, però els experts diuen que això no és nou

Les cintes, les pel·lícules i els vinils no poden ser mai més habituals

Treu a f altar mitjans antics com cassets, vinils i pel·lícules fotogràfiques? Malauradament, un ressorgiment complet pot ser impossible, ja que hem perdut les habilitats per produir-los en massa

El vostre ordinador pot utilitzar una memòria més nova i més ràpida?

Esbrineu en quins casos podríeu utilitzar una memòria més ràpida o més nova al vostre sistema informàtic actual

El portàtil Go de Microsoft és més lleuger, més barat, més petit, més nou

La línia d'ordinadors portàtils Surface Go recentment anunciada de Microsoft ofereix una combinació convincent de funcions i portabilitat a partir de 549 dòlars, però els models més barats no tenen components

Skullcandy Crusher ANC Review: els auriculars amb cancel·lació de soroll més baixos que es poden comprar amb diners

El Skullcandy Crusher ANC ofereix més baixos que bategen el crani que qualsevol altre auricular amb cancel·lació de soroll del mercat. Després de 26 hores de proves, vaig quedar bocabadat amb els baixos prodigiosos, però decepcionat per la tecnologia de cancel·lació de soroll

Les converses amb el vostre ordinador poden ser més realistes

Taula de continguts:

Clau per emportar

Discurs més intel·ligent

AI Powers Comprehension

Recomanat:

Les extensions del vostre navegador us poden fer més rastrejables

Les cintes, les pel·lícules i els vinils no poden ser mai més habituals

El vostre ordinador pot utilitzar una memòria més nova i més ràpida?

El portàtil Go de Microsoft és més lleuger, més barat, més petit, més nou

Skullcandy Crusher ANC Review: els auriculars amb cancel·lació de soroll més baixos que es poden comprar amb diners

Animeu el text una paraula a la vegada a PowerPoint

Com sincronitzar el vostre controlador Xbox amb una Xbox One o un PC

Diagnòstic d'un fusible d'amplificador d'àudio de cotxe cremat

Afegir una segona bateria de cotxe per a un àudio de gamma alta

7 maneres de guanyar diners reproduint videojocs a Twitch

Com crear una fórmula de cerca d'Excel amb diversos criteris

Com reproduir música a l'Apple Watch

Com copiar i enganxar estils de text en un Mac

Com fer una cerca booleana a Google

Com restablir tots els models d'iPod nano

Boot Camp afegeix suport per a Windows Precision Touchpad

El Logitech Mx Master 3 és el ratolí que Apple hauria d'haver fet

Les noves notes ràpides d'Apple podrien canviar la manera d'organitzar la informació

M'agradaria que hi hagués més a FaceTime a Android

El text en directe d'iOS 15 us permet mirar el món que us envolta