A principios de 2020 veíamos algo similar, pero la mejora respecto a entonces es enorme.
Como puede ver en el video de abajo, el detalle es tremendo (especialmente en las letras de la placa del barco en el minuto 1:18).
El motor se llama ADOP (Approximate Differentiable One-Pixel Point Rendering) y se expone en la web ArXiv de la Universidad de Cornell, desde donde detallan que el escenario se genera a partir de fotografías tomadas arbitrariamente.
Renderizado neuronal diferenciable que se basa en puntos para el refinamiento de escenas y la síntesis de vistas novedosas. La entrada es una estimación inicial de la nube de puntos y los parámetros de la cámara. La salida son imágenes sintetizadas de poses de cámara arbitrarias. La representación de la nube de puntos la realiza un renderizador diferenciable que utiliza una rasterización de puntos de un píxel de resolución múltiple. Los gradientes espaciales de la rasterización discreta se aproximan mediante el nuevo concepto de geometría fantasma.
Después del renderizado, la pirámide de la imagen neuronal se pasa a través de una red neuronal profunda para realizar cálculos de sombreado y rellenar huecos. Un mapeador de tonos diferenciable, basado en la física, convierte la salida intermedia en la imagen de destino.
Dado que todas las etapas de la canalización son diferenciables, optimizamos todos los parámetros de la escena, es decir, modelo de cámara, pose de cámara, posición del punto, color del punto, mapa del entorno, pesos de la red de representación, viñeteado, función de respuesta de la cámara, exposición por imagen y balance de blancos por imagen.
Demostramos que nuestro sistema es capaz de sintetizar visiones novedosas más nítidas y consistentes que los enfoques existentes porque la reconstrucción inicial se refina durante el entrenamiento. La eficiente rasterización de puntos de un píxel nos permite utilizar modelos de cámara arbitrarios y mostrar escenas con más de 100 millones de puntos en tiempo real.
Un motor adicional se encarga de ir modificando la tonalidad de cada fotografía para que el resultado quede uniforme.
Rodolfo Rosini, fundador de la inversora ConceptionX, ha difundido el vídeo mencionando algunas posibles aplicaciones de esta tecnología.
Con escenarios reproducibles a resoluciones tan altas piensa en replicar conciertos o eventos de gran envergadura, o crear escenarios realistas en videojuegos o películas.
También podemos pensar en las posibilidades de estos motores usando fotografías tomadas con smartphones avanzados, con sensores LiDAR.
Podríamos ser capaces de generar un escenario tridimensional navegable de lo que queramos a base de unas cuantas fotografías tomadas alrededor.
O como dice Rosini, «poder rotar el ángulo de las fotos» que tengamos en nuestro carrete.