Redes neurales profundas rivalizan con el cerebro primate en reconocimiento de objetos

Imágenes de ejemplo de tres de las siete categorías utilizadas en la medición de reconocimiento de categorías de objetos en redes neurales y macacos  (crédito: Cadieu et al./ PLoS Comput Biol).

Imágenes de ejemplo de tres de las siete categorías utilizadas en la medición de reconocimiento de categorías de objetos en redes neurales y macacos (crédito: Cadieu et al./ PLoS Comput Biol).

Un nuevo estudio realizado por investigadores del MIT ha dado como resultado que, por vez primera, una de las más recientes generaciones de “redes neurales profundas” rivalice con la habilidad del cerebro primate en el reconocimiento de objetos a vista rápida.

Ya que las redes neurales actuales han sido diseñadas basándose en la actual comprensión de los neurocientíficos de la manera en que el cerebro reconoce objetos, el éxito de estas redes recientes sugiere que los científicos tienen una comprensión bastante exacta de como funciona el reconocimiento de objetos, dijo James DiCarlo, profesor de neurociencia y director del Departamento de Ciencias Cognoscitivas y del Cerebro en el MIT y uno de los autores del artículo publicado en pasado 18 de diciembre en la revista PLoS Computational Biology.

Los primates reconocen visualmente y determinan la categoría de un objeto incluso con un vistazo y hasta hoy esta característica había sido imposible de reproducir en los sistemas artificiales.

Charles Cadieu y sus colegas del MIT midieron la capacidad de reconocimiento de objetos al implantar arreglos de electrodos en la corteza temporal inferior de monos macacos y en el área V4, una parte del sistema visual que alimenta a la corteza. Esto permitió a los investigadores ver la representación neural –la población de neuronas que respondieron– para cada objeto que miraron los animales.

Cuando se compararon estos resultados con las representaciones creadas por las redes neurales profundas, la exactitud del modelo se determinó al comparar si agrupaba objetos similares dentro de la representación.

Esta mejora en nuestra comprensión de la manera en que el cerebro del primate funciona podría llevarnos a desarrollar una mejor inteligencia artificial y proporcionar un  mejor entendimiento de como funciona el procesamiento visual de los primates.

“El hecho de que los modelos predigan las respuestas neurales y la distancia de los objetos demuestra que estos modelos representan nuestra mejor comprensión actual sobre lo que sucede en esta previamente parte misteriosa del cerebro”, dijeron los autores.

Más poder de procesamiento y más información

Dos factores principales se pueden tomar en cuenta para el éxito actual con redes neurales, indica Cadieu. El primero es el gran avance en la disponibilidad de poder de cómputo, utilizando para ello unidades de procesamiento gráfico relativamente barato (GPUs). El segundo factor es que los investigadores tienen ahora acceso a bases de datos más grandes para alimentar sus algoritmos y así “entrenarlos”. Estos grupos de datos contienen millones de imágenes, cada uno clasificado en distintos niveles y categorías de identificación por humanos. Por ejemplo, una foto de un perro será etiquetado como animal, canino, perro domesticado y la raza de perro.

Cadieu indica que los investigadores no saben exactamente la manera en que estas redes distinguen objetos distintos. “Eso es un punto a favor y uno en contra”, dijo. “Resulta algo muy bueno que no tengamos que conocer exactamente la manera en que se distinguen estos objetos. Sin embargo, un gran punto en contra es que es muy difícil inspeccionar estas redes, buscar dentro y ver lo que realmente hicieron. Ahora que vemos que están funcionando bien, tendremos que trabajar en comprender lo que sucede dentro de ellas.”

DiCarlo planea ahora generar modelos que puedan simular otros aspectos del procesamiento visual, incluyendo la detección del movimiento y el reconocimiento de formas en tres dimensiones. Incluso esperan tener la capacidad de generar modelos que incluyan proyecciones de retroalimentación que existen en el sistema visual humano. Las redes actuales sólo logran modelar las proyecciones “hacia adelante” desde la retina hacia la corteza inferior temporal, pero hay al menos 10 veces más de conexiones que van desde la corteza inferior temporal hacia al resto del sistema.

El proyecto fue financiado por Instituto Nacional del Ojo, Fundación Nacional de Ciencia, y la Agencia de Proyectos de Investigación Avanzados de Defensa DARPA.

El artículo original de la investigación lo encuentras en:

http://www.ploscompbiol.org/article/info:doi/10.1371/journal.pcbi.1003963