La necesidad

Las redes antagónicas generativas (GAN) son potentes redes neuronales utilizadas para la generación de imágenes.  Si bien pueden ejecutar tareas de finalización de imágenes para pequeñas regiones, las GAN fallan cuando se les solicita que generen las regiones de gran tamaño que faltan en una imagen.

La idea

El desarrollo de GAN ha adoptado enfoques divergentes que han permitido una variedad de tareas de finalización de imágenes. Sin embargo, creemos que las GAN necesitan una mayor capacidad generativa para rellenar con éxito las grandes regiones que faltan frente a lo que proporcionan los métodos actuales.

La solución

Hemos desarrollado una nueva arquitectura de GAN comodulada, o CoModGAN, que genera imágenes realistas basadas en pequeñas cantidades de información visual y lo hace mejor que los modelos anteriores.

Detalles técnicos de CoModGAN

Las redes antagónicas generativas ejecutan tareas de finalización de imágenes enfrentando dos redes neuronales (un generador y un discriminador) de manera que esta relación competitiva ayuda a entrenar a ambas redes. Mientras el generador se encarga de crear o finalizar una imagen, el discriminador analiza el grado de realismo de la imagen de salida en relación con un conjunto de datos de imágenes reales.

Recientemente, hemos visto el desarrollo de dos algoritmos de finalización de imágenes diferentes. Las GAN condicionales de imagen pueden rellenar pequeñas áreas que faltan en una imagen. Y las GAN incondicionales pueden generar imágenes totalmente nuevas. Pero si le pides a cualquiera de ellas que rellene una región grande de una imagen, fallan.

Desarrollamos una GAN comodulada, o CoModGAN, que une los éxitos de la capacidad generativa de los generadores incondicionales con los éxitos de la finalización de imágenes de los generadores condicionales de imagen.

CoModGAN, al igual que otras GAN, se entrena con pérdidas en el discriminador, pero a diferencia de otras puede ser más inteligente a la hora de rellenar grandes regiones perdidas de una imagen. Al mismo tiempo, proponemos una nueva métrica de puntuación discriminativa de inicio emparejado/no emparejado para medir con solidez el realismo de las imágenes generadas en comparación con las reales.

Esperamos que CoModGAN pueda ayudar a crear una IA que pueda ejecutar con más naturalidad y éxito las tareas de finalización de imágenes.

Proyectos relacionados con CoModGAN

Explora más historias del espacio de innovación

Explora las posibilidades de la AI

Convierte hoy la inteligencia artificial en una realidad para tu empresa.