Microsoft ha ampliado la familia de modelos de inteligencia artificial Phi 3.5, con tres propuestas que han sido diseñadas para ofrecer altas capacidades de razonamiento y comprensión de texto y visual. Phi 3.5 mini-instruct, Phi 3.5 MoE-instruct y Phi 3.5 vision-instruct son los tres nuevos modelos que amplían la serie Phi 3 de modelos de lenguaje multimodales, que Microsoft ha compartido directamente en Hugging Face. Phi-3.5 vision es un modelo abierto multimodal diseñado para ofrecer razonamiento basado en datos de calidad, tanto en texto como de imágenes y vídeos. Tiene un tamaño de 4.200 millones de parámetros y admite una ventana de contexto de 128.000 tokens. Microsoft lo dirige a tareas como la comprensión de una imagen, de gráficos y tablas, la comparación de varias imágenes o el resumen de varios clips. Por su parte, Phi 3.5 mini es un modelo ligero, de 3.800 millones de parámetros que soporta una ventana de contexto de 128.000 tokens, dirigido principalmente a tareas que demandan una alta capacidad de razonamiento, como la generación de código o la resolución de problemas matemáticos. El tercer modelo, Phi 3.5 MoE, también se dirige a tareas que requieren altas capacidades de razonamiento. Es un modelo construido con varios modelos, cada uino diseñado para una tarea diferente, y tiene en conjunto 42.000 millones de parámetros con una ventana de contexto de 128.000 tokens, aunque opera con 6.600 millones de parámetros activos.