Microsoft anunció el lanzamiento de Magma, su nuevo modelo de base diseñado para realizar tareas de Inteligencia Artificial (IA) multimodal tanto en formato digital como en físico.
Según explicó la compañía tecnológica en un comunicado, este modelo es capaz de procesar información visual y de lenguaje para planificar y ejecutar acciones en consecuencia, desde la navegación de una interfaz de usuario hasta la manipulación de robots. Esto es debido a que el modelo es capaz de unificar la inteligencia verbal, espacial y temporal, para «navegar por tareas y entornos complejos», explican en el texto.
De acuerdo a Microsoft, Magma es «una extensión» de los modelos de visión-lenguaje (VL). Explicaron en concreto que no sólo mantiene la capacidad de comprensión entre la visión y el lenguaje, sino que también es capaz de planificar y actuar en case al mundo «visual-espacial», es decir, dispone de inteligencia espacial.
Por tanto, dispone de las habilidades necesarias para completar tareas que van desde la navegación de una interfaz gráfica de usuario (IU) hasta la manipulación de robots, detalló la tecnológica mencionando que el modelo está preentrenado en grandes cantidades de conjuntos de datos VL heterogéneos, que contienen videos, datos robóticos e imágenes.