Google usó videos de youtube del desafío maniquí para entrenar a su ai

Tabla de contenido:

Lo que necesitas saber
Consigue más Pixel 3a
Google Pixel 3a

Lo que necesitas saber

Google está entrenando a su IA para crear mapas de profundidad que aíslen sujetos humanos en la escena usando solo una cámara.
Como punto de partida, Google usó 2000 videos de YouTube del Mannequin Challenge para entrenar a la IA.
Los resultados conducirán a la capacidad de agregar efectos a los videos, como el modo retrato, y se utilizarán para la Realidad Aumentada.

En una reciente publicación de blog, Google detalló cómo ha estado trabajando en la percepción de profundidad en videos donde se mueven tanto la cámara como el sujeto. Como punto de partida, el estudio necesitaba acceso a una gran cantidad de datos para entrenar la IA, y el primer paso lógico fue entrenarla para detectar personas en una escena donde la cámara se movía pero las personas estaban estáticas.

Como resultado, Google tenía el recurso perfecto para estos datos en forma de videos de YouTube que fueron filmados para el Mannequin Challenge. En este desafío, una persona o grupo de personas se quedaría completamente quieto mientras una cámara giraba en torno a su posición. Google utilizó 2000 videos del desafío para ayudar a entrenar a su IA para detectar figuras humanas en una variedad de escenas diferentes.

Algo que hace que este estudio sea aún más interesante es el hecho de que Google está enseñando a su IA a crear mapas de profundidad utilizando imágenes que se han filmado con una sola cámara. La mayoría de las veces, se deben usar varias cámaras para detectar la información de profundidad en una escena.

Google ya utiliza algo similar para las imágenes fijas para crear su efecto de modo vertical en los teléfonos Pixel. Sin embargo, esto solo se refiere a imágenes fijas. El nuevo método que Google ha estado desarrollando es entrenar a su IA para crear un mapa de profundidad en el que tanto la cámara como el sujeto se muevan dentro de una escena.

Al diversificarse en videos, abrirá funciones en el futuro para crear bokeh en escenas de video similares al modo retrato en su teléfono. Otro beneficio de este estudio será la mejora de los resultados para la realidad aumentada, como los Playmojis de Google Playground.

Otra posibilidad será la generación de imágenes en 3D a partir de escenas en 2D. Si bien el hardware de la cámara siempre ha sido esencial para la fotografía y la videografía, lo que Google ha hecho a lo largo de los años con el software muestra que, en el futuro, los algoritmos serán igual de importantes y ayudarán a proporcionar nuevas experiencias.