La tecnología detrás de las imágenes animadas en 3D de Google Fotos

La herramienta genera automáticamente imágenes con profundidad para lograr una experiencia más inmersiva. El uso de algoritmos y modelos de aprendizaje automático en el desarrollo de esta técnica

Guardar
Las imágenes se editarán para
Las imágenes se editarán para dar un efecto de profundidad

En diciembre, Google Fotos incorporó las fotografías cinemáticas que se pueden generar de forma automática desde la aplicacion. Las fotos cinematográficas pueden convertir una foto 2D en una animación 3D para generar una experiencia más envolvente. Los usuarios ya pueden comenzar a verlas dentro del apartado fotos recientes de la app.

Ahora la compañía explicó en su blog oficial cómo es la tecnología detrás de esta herramienta que permite revivir recuerdos con esta capa adicional de movimiento.

Una combinación de algoritmos y modelos de machine learning

Las fotografías cinematográficas requieren de un mapa de profundidad para proporcionar información sobre la estructura 3D de una escena. Las técnicas para calcular la profundidad en un smartphone se basan en la captura simultánea de varias fotos desde diferentes puntos de vista.

Ahora bien, para generar ese efecto en fotos que no fueron tomadas de este modo, se entrenó una red neuronal convolucional con arquitectura de codificador-decodificador para predecir un mapa de profundidad a partir de una sola imagen RGB. Usando solo una vista, el modelo aprendió a estimar la profundidad usando señales monoculares, como los tamaños relativos de los objetos, perspectiva lineal, desenfoque de desenfoque, etc.

La compañía creó su propio conjunto de datos para entrenar el modelo de profundidad monocular usando fotos capturadas en un equipo personalizado de 5 cámaras, así como otro conjunto de datos de fotos de retrato capturadas en Pixel 4.

En estas áreas, la foto
En estas áreas, la foto parece estar estirada, parte del proceso de producción de las imágenes cinemáticas

La combinación de varios conjuntos de datos de esta manera expone el modelo a una mayor variedad de escenas y hardware de la cámara, con el objetivo de mejorar sus predicciones al analizar fotos que se toman en entornos naturales.

Para mitigar errores en el mapa de profundidad se aplicó un filtrado que optimiza los bordes y también se empeló un modelo de segmentación de DeepLab entrenado en el conjunto de datos Open Images.

Uno de los desafíos en la reconstrucción de escenas en 3D es lograr una imagen que muestre los cambios de profundidad manteniendo una textura adecuada y sin ruidos. Para eso también se recurre a la inteligencia artificial.

El último paso es enmarcar la foto. “En general, la escena 3D reproyectada no encaja perfectamente en un rectángulo con orientación vertical, por lo que también fue necesario encuadrar la salida con la relación de aspecto correcta y al mismo tiempo conservar las partes clave de la imagen de entrada. Para lograr esto, usamos una red neuronal profunda que predice la prominencia por píxel de la imagen completa. Al encuadrar la cámara virtual en 3D, el modelo identifica y captura tantas regiones destacadas como sea posible, al tiempo que garantiza que la malla renderizada ocupe por completo cada cuadro de video de salida”, se remarca en el blog.

MÁS SOBRE ESTE TEMA:

Guardar