Clau per emportar
- Meta està utilitzant la intel·ligència artificial per crear programes que poden expressar emocions amb la parla.
- L'equip d'IA de l'empresa va dir que ha fet avenços en el modelatge de vocalitzacions expressives, com ara rialles, badalls, plors i "xerrada espontània" en temps real.
- La IA també s'està utilitzant per millorar el reconeixement de veu.
Aviat podríeu tenir una xerrada més natural amb el vostre ordinador, gràcies al poder de la intel·ligència artificial (IA).
Meta va dir que ha fet un avenç significatiu en el seu esforç per crear sistemes de parla més realistes generats per IA. L'equip d'IA de l'empresa va dir que ha fet avenços en la capacitat de modelar vocalitzacions expressives, com ara rialles, badalls i crits, a més de la "xerrada espontània" en temps real.
"En qualsevol conversa, les persones intercanvien plens de senyals no verbals, com ara entonacions, expressió emocional, pauses, accents, ritmes, tots els quals són importants per a les interaccions humanes", va escriure l'equip a la publicació recent del bloc.. "Però els sistemes d'IA actuals no aconsegueixen captar aquests senyals rics i expressius perquè només aprenen del text escrit, que captura el que diem però no com ho diem."
Discurs més intel·ligent
A la publicació del bloc, l'equip de Meta AI va dir que està treballant per superar les limitacions dels sistemes tradicionals d'IA que no poden entendre els senyals no verbals en la parla, com ara entonacions, expressions emocionals, pauses, accents i ritmes.. Els sistemes es frenen perquè només poden aprendre del text escrit.
Però el treball de Meta difereix dels esforços anteriors perquè els seus models d'IA poden utilitzar models de processament del llenguatge natural per capturar tota la naturalesa del llenguatge parlat. Els investigadors del meta diuen que els nous models poden permetre que els sistemes d'IA transmetin el sentiment que volen transmetre, com ara l'avorriment o la ironia.
"En un futur proper, ens centrarem en l'aplicació de tècniques sense text per crear aplicacions posteriors útils sense necessitat d'etiquetes de text intensives en recursos ni de sistemes de reconeixement automàtic de veu (ASR), com ara la resposta a preguntes (p. ex., "Com està temps?"), ", va escriure l'equip a la publicació del blog. "Creiem que la prosòdia en la parla pot ajudar a analitzar millor una frase, que al seu torn facilita la comprensió de la intenció i millora el rendiment de la resposta a les preguntes."
AI Powers Comprehension
No només els ordinadors milloren a l'hora de comunicar el significat, sinó que també s'utilitza la IA per millorar el reconeixement de la veu.
Els científics informàtics han estat treballant en el reconeixement de la parla des d'almenys l'any 1952, quan tres investigadors de Bell Labs van crear un sistema que podia reconèixer uns dígits numèrics, va dir el director de tecnologia d'AI Dynamics, Ryan Monsurate, en un correu electrònic a Lifewire. A la dècada de 1990, els sistemes de reconeixement de veu estaven disponibles comercialment, però encara tenien un percentatge d'errors prou alt com per desanimar l'ús fora de dominis d'aplicació molt específics, com ara l'assistència sanitària.
"Ara que els models d'aprenentatge profund han permès que els models de conjunt (com els de Microsoft) assoleixin un rendiment sobrehumà en el reconeixement de la parla, tenim la tecnologia per permetre la comunicació verbal independent del parlant amb ordinadors a escala", va dir Monsurate. "La següent etapa inclourà reduir el cost perquè tothom que faci servir Siri o els assistents d'IA de Google tinguin accés a aquest nivell de reconeixement de veu."
AI és útil per al reconeixement de veu perquè pot millorar amb el temps mitjançant l'aprenentatge, va dir a Lifewire Ariel Utnik, director d'ingressos i director general de l'empresa de veu d'IA Verbit.ai, en una entrevista per correu electrònic. Per exemple, Verbit afirma que la seva tecnologia d'IA interna detecta i filtra el soroll i els ecos de fons i transcriu els altaveus independentment de l'accent per generar transcripcions i subtítols detallats i professionals de vídeo i àudio en directe i gravats.
Però Utnik va dir que la majoria de les plataformes de reconeixement de veu actuals només tenen una precisió del 75-80%.
"La IA mai substituirà completament els humans, ja que la revisió personal per part dels transcriptors, correctors i editors és necessària per garantir una transcripció final d' alta qualitat i precisió", va afegir.
Un millor reconeixement de veu també es podria utilitzar per prevenir els pirates informàtics, va dir en un correu electrònic Sanjay Gupta, vicepresident global de desenvolupament corporatiu i de productes de l'empresa de reconeixement de veu Mitek Systems. La investigació indica que d'aquí a dos anys, el 20 per cent de tots els atacs d'adquisició de comptes amb èxit utilitzaran l'augment de veu sintètic, va afegir.
"Això significa que a mesura que la tecnologia deep fake es torna més sofisticada, hem de crear simultàniament seguretat avançada que pugui combatre aquestes tàctiques juntament amb les falsificacions profundes d'imatge i vídeo", va dir Gupta. "La lluita contra la falsificació de veu requereix una tecnologia de detecció de vivacitat, capaç de distingir entre una veu en directe i una versió enregistrada, sintètica o generada per ordinador d'una veu."
Correcció 2022-05-04: S'ha corregit l'ortografia del nom de Ryan Monsurate al paràgraf 9.