Clau per emportar
- Un nou model d'aprenentatge automàtic al·lucina una imatge de l'aparició d'una frase en un idioma per facilitar la traducció.
- El sistema d'IA, anomenat VALHALLA, va ser dissenyat per imitar la manera com els humans perceben el llenguatge.
- El nou sistema forma part d'un moviment creixent per utilitzar la IA per entendre el llenguatge.
El mètode humà de visualitzar imatges mentre tradueixes paraules podria ajudar a que la intel·ligència artificial (IA) t'entengui millor.
Un nou model d'aprenentatge automàtic al·lucina una imatge de com és una frase en un idioma. Segons un article de recerca recent, la tècnica utilitza visualització i altres pistes per ajudar amb la traducció. Forma part d'un moviment creixent per utilitzar la IA per entendre el llenguatge.
"La manera com la gent parla i escriu és única perquè tots tenim tons i estils lleugerament diferents", va dir Beth Cudney, professora d'anàlisi de dades a la Universitat de Maryville, que no va participar en la investigació, a Lifewire en una entrevista per correu electrònic.. "Entendre el context és difícil perquè és com tractar amb dades no estructurades. Aquí és on el processament del llenguatge natural (PNL) és útil. La PNL és una branca de la IA que aborda les diferències en com ens comuniquem mitjançant la comprensió lectora automàtica. La diferència clau en la PNL, com a branca de la IA, no se centra només en els significats literals de les paraules que parlem o escrivim, sinó que mira el significat."
Vés a preguntar a l'Alice
El nou sistema d'IA, anomenat VALHALLA, creat per investigadors del MIT, IBM i la Universitat de Califòrnia a San Diego, va ser dissenyat per imitar la manera com els humans perceben el llenguatge. Segons els científics, l'ús d'informació sensorial, com ara multimèdia, combinada amb paraules noves i desconegudes, com ara targetes flash amb imatges, millora l'adquisició i la retenció del llenguatge.
Aquests sistemes estan augmentant el poder dels chatbots que actualment només estan entrenats i capaços de converses específiques…
L'equip afirma que el seu mètode millora la precisió de la traducció automàtica en lloc de la traducció només de text. Els científics van utilitzar una arquitectura de codificador-descodificador amb dos transformadors, un tipus de model de xarxa neuronal adequat per a dades dependents de la seqüència, com el llenguatge, que pot prestar atenció a les paraules clau i la semàntica d'una frase. Un transformador genera una al·lucinació visual i l' altre realitza una traducció multimodal utilitzant les sortides del primer transformador.
"En escenaris del món real, és possible que no tingueu una imatge respecte a la frase font", va dir Rameswar Panda, un dels membres de l'equip d'investigació, en un comunicat de premsa. "Així, la nostra motivació era bàsicament: en lloc d'utilitzar una imatge externa durant la inferència com a entrada, podem utilitzar l'al·lucinació visual, la capacitat d'imaginar escenes visuals, per millorar els sistemes de traducció automàtica?"
Comprensió de l'AI
Una investigació considerable se centra a avançar en la PNL, va assenyalar Cudney. Per exemple, Elon Musk va cofundar Open AI, que està treballant en GPT-3, un model que pot conversar amb un humà i que és prou intel·ligent per generar codi de programari en Python i Java.
Google i Meta també estan treballant per desenvolupar IA conversacional amb el seu sistema anomenat LAMDA. "Aquests sistemes estan augmentant el poder dels chatbots que actualment només estan entrenats i capaços de converses específiques, cosa que probablement canviarà la cara de l'assistència al client i els taulells d'ajuda", va dir Cudney.
Aaron Sloman, el cofundador CLIPr, una empresa de tecnologia d'IA, va dir en un correu electrònic que els grans models de llenguatge com el GPT-3 poden aprendre de molt pocs exemples de formació per millorar els resums de text basats en comentaris humans. Per exemple, va dir, pots donar un problema matemàtic a un gran model de llenguatge i demanar a la IA que pensi pas a pas.
"Podem esperar que s'extreguin coneixements i raonaments més grans dels grans models lingüístics a mesura que aprenem més sobre les seves habilitats i limitacions", va afegir Sloman. "També espero que aquests models de llenguatge creïn processos més semblants als humans a mesura que els modelistes desenvolupin millors maneres d'ajustar els models per a tasques específiques d'interès."
El professor d'informàtica de Georgia Tech, Diyi Yang, va predir en una entrevista per correu electrònic que veurem més ús dels sistemes de processament del llenguatge natural (NLP) a la nostra vida diària, que van des d'assistents personalitzats basats en PNL fins a ajudar amb correus electrònics i trucades telefòniques, a sistemes de diàleg coneixedors per a la recerca d'informació en viatges o assistència sanitària."A més de sistemes d'IA justos que poden realitzar tasques i ajudar els humans d'una manera responsable i sense prejudicis", va afegir Yang.
Enormes models d'IA que utilitzen bilions de paràmetres com ara GPT-3 i DeepText continuaran treballant cap a un model únic per a totes les aplicacions d'idiomes, va predir Stephen Hage, enginyer d'aprenentatge automàtic de Dialexa, en una entrevista per correu electrònic. Va dir que també hi haurà nous tipus de models creats per a usos específics, com ara compres en línia per ordres per veu.
"Un exemple podria ser un comprador que digui 'Mostra'm aquesta ombra d'ulls en blau mitjanit amb més halo' per mostrar aquesta ombra als ulls de la persona amb cert control sobre com s'aplica", va afegir Hage..