AI ara pot entendre els vostres vídeos mirant-los

Taula de continguts:

AI ara pot entendre els vostres vídeos mirant-los
AI ara pot entendre els vostres vídeos mirant-los
Anonim

Clau per emportar

  • Els investigadors diuen que poden ensenyar la IA a etiquetar vídeos mirant i escoltant.
  • El sistema d'IA aprèn a representar dades per capturar conceptes compartits entre dades visuals i d'àudio.
  • Forma part d'un esforç per ensenyar a la IA a entendre conceptes que els humans no tenen problemes per aprendre, però que els ordinadors troben difícils d'entendre.

Image
Image

Un nou sistema d'intel·ligència artificial (IA) podria veure i escoltar els vostres vídeos i etiquetar les coses que estan passant.

Els investigadors del MIT han desenvolupat una tècnica que ensenya la IA a capturar accions compartides entre vídeo i àudio. Per exemple, el seu mètode pot entendre que l'acte d'un nadó que plora en un vídeo està relacionat amb la paraula parlada "plorar" en un clip de so. Forma part d'un esforç per ensenyar a la IA com entendre conceptes que els humans no tenen problemes per aprendre, però que als ordinadors els costa d'entendre.

"El paradigma d'aprenentatge predominant, l'aprenentatge supervisat, funciona bé quan teniu conjunts de dades ben descrits i complets", va dir l'expert en IA Phil Winder a Lifewire en una entrevista per correu electrònic. "Malauradament, els conjunts de dades poques vegades estan complets perquè el món real té un mal costum de presentar situacions noves."

IA més intel·ligent

Els ordinadors tenen dificultats per esbrinar els escenaris quotidians perquè necessiten analitzar dades en lloc de so i imatges com els humans. Quan una màquina "veu" una foto, ha de codificar aquesta foto en dades que pot utilitzar per realitzar una tasca com una classificació d'imatges. La IA es pot encallar quan les entrades tenen diversos formats, com ara vídeos, clips d'àudio i imatges.

"El principal repte aquí és, com pot una màquina alinear aquestes diferents modalitats? Com a humans, això és fàcil per a nos altres", va dir Alexander Liu, investigador del MIT i primer autor d'un article sobre el tema, en un comunicat de notícies. "Veiem un cotxe i després escoltem el so d'un cotxe que passa, i sabem que són el mateix. Però per a l'aprenentatge automàtic, no és tan senzill."

L'equip de Liu va desenvolupar una tècnica d'IA que, segons diuen, aprèn a representar dades per capturar conceptes compartits entre dades visuals i d'àudio. Amb aquest coneixement, el seu model d'aprenentatge automàtic pot identificar on s'està duent a terme una acció específica en un vídeo i etiquetar-lo.

El nou model pren dades en brut, com ara vídeos i els seus corresponents subtítols de text, i les codifica extraient funcions o observacions sobre objectes i accions del vídeo. A continuació, mapeja aquests punts de dades en una quadrícula, coneguda com a espai d'inserció. El model agrupa dades similars com a punts únics a la graella; cadascun d'aquests punts de dades, o vectors, està representat per una paraula individual.

Per exemple, un videoclip d'una persona fent malabars es pot assignar a un vector etiquetat com "malabarisme".

Els investigadors van dissenyar el model perquè només pugui utilitzar 1.000 paraules per etiquetar vectors. El model pot decidir quines accions o conceptes vol codificar en un sol vector, però només pot utilitzar 1.000 vectors. El model tria les paraules que creu que representen millor les dades.

"Si hi ha un vídeo sobre porcs, el model pot assignar la paraula "porc" a un dels 1.000 vectors. Aleshores, si el model escolta algú que diu la paraula "porc" en un clip d'àudio, encara hauria d'utilitzar el mateix vector per codificar-ho", va explicar Liu.

Els vostres vídeos, descodificats

Uns millors sistemes d'etiquetatge com el desenvolupat pel MIT podrien ajudar a reduir el biaix en la IA, va dir Marian Beszedes, cap de recerca i desenvolupament de l'empresa de biometria Innovatrics, a Lifewire en una entrevista per correu electrònic. Beszedes va suggerir que la indústria de dades pot veure els sistemes d'IA des d'una perspectiva de procés de fabricació.

"Els sistemes accepten dades en brut com a entrada (matèries primeres), les preprocessen, les ingereixen, prenen decisions o prediccions i emeten anàlisis (productes acabats)," va dir Beszedes. "Aquest flux de procés l'anomenem "fàbrica de dades" i, com altres processos de fabricació, hauria d'estar subjecte a controls de qualitat. La indústria de les dades ha de tractar el biaix de la IA com un problema de qualitat.

"Des de la perspectiva del consumidor, les dades mal etiquetades fan que, per exemple, la cerca en línia d'imatges o vídeos específics sigui més difícil", va afegir Beszedes. "Amb l'IA desenvolupada correctament, podeu etiquetar automàticament, molt més ràpid i més neutral que amb l'etiquetatge manual."

Image
Image

Però el model del MIT encara té algunes limitacions. D'una banda, la seva investigació es va centrar en dades de dues fonts alhora, però al món real, els humans es troben amb molts tipus d'informació simultàniament, va dir Liu

"I sabem que 1.000 paraules funcionen en aquest tipus de conjunt de dades, però no sabem si es pot generalitzar a un problema del món real", va afegir Liu.

Els investigadors del MIT diuen que la seva nova tècnica supera molts models similars. Si la intel·ligència artificial es pot entrenar per entendre vídeos, és possible que eventualment puguis ometre't de veure els vídeos de vacances del teu amic i obtenir un informe generat per ordinador.

Recomanat: