
Proyectos de AI Lab
Infórmate sobre la innovación revolucionaria en IA con laboratorios prácticos, recursos de código y exploraciones a fondo.
CoModGAN
CoModGAN utiliza la inteligencia artificial para finalizar una imagen a la que le falta una cantidad significativa de información visual. Dos redes neuronales (un generador encargado de rellenar la información que falta y un discriminador que analiza el realismo de la nueva imagen) trabajan en conjunto para generar y verificar una imagen completa.
Prueba la demostración de CoModGAN
La necesidad
Las redes antagónicas generativas (GAN) son potentes redes neuronales utilizadas para la generación de imágenes. Si bien pueden ejecutar tareas de finalización de imágenes para pequeñas regiones, las GAN fallan cuando se les solicita que generen las regiones de gran tamaño que faltan en una imagen.
La idea
El desarrollo de GAN ha adoptado enfoques divergentes que han permitido una variedad de tareas de finalización de imágenes. Sin embargo, creemos que las GAN necesitan una mayor capacidad generativa para rellenar con éxito las grandes regiones que faltan frente a lo que proporcionan los métodos actuales.
La solución
Hemos desarrollado una nueva arquitectura de GAN comodulada, o CoModGAN, que genera imágenes realistas basadas en pequeñas cantidades de información visual y lo hace mejor que los modelos anteriores.
Uso de redes neuronales para rellenar la información que falta en las imágenes
Descubre cómo CoModGAN combina las modalidades condicional e incondicional de la imagen para mejorar la forma en que las GAN generan imágenes más realistas.

Arquitectura de CoModGAN
CoModGAN utiliza un generador que finaliza la imagen y un discriminador que evalúa el "realismo" del resultado del generador. Cuando el discriminador detecta una imagen que considera falsa, el generador puede utilizar esa nueva información para mejorar un poco y engañar al discriminador. Y el discriminador mejora a la hora de distinguir entre lo que es real y lo que es falso.
Detalles técnicos de CoModGAN
Las redes antagónicas generativas ejecutan tareas de finalización de imágenes enfrentando dos redes neuronales (un generador y un discriminador) de manera que esta relación competitiva ayuda a entrenar a ambas redes. Mientras el generador se encarga de crear o finalizar una imagen, el discriminador analiza el grado de realismo de la imagen de salida en relación con un conjunto de datos de imágenes reales.
Recientemente, hemos visto el desarrollo de dos algoritmos de finalización de imágenes diferentes. Las GAN condicionales de imagen pueden rellenar pequeñas áreas que faltan en una imagen. Y las GAN incondicionales pueden generar imágenes totalmente nuevas. Pero si le pides a cualquiera de ellas que rellene una región grande de una imagen, fallan.
Desarrollamos una GAN comodulada, o CoModGAN, que une los éxitos de la capacidad generativa de los generadores incondicionales con los éxitos de la finalización de imágenes de los generadores condicionales de imagen.
CoModGAN, al igual que otras GAN, se entrena con pérdidas en el discriminador, pero a diferencia de otras puede ser más inteligente a la hora de rellenar grandes regiones perdidas de una imagen. Al mismo tiempo, proponemos una nueva métrica de puntuación discriminativa de inicio emparejado/no emparejado para medir con solidez el realismo de las imágenes generadas en comparación con las reales.
Esperamos que CoModGAN pueda ayudar a crear una IA que pueda ejecutar con más naturalidad y éxito las tareas de finalización de imágenes.

Gen Studio en The Met
Gen Studio utiliza GAN para crear imágenes oníricas de obras de arte reales en el Museo Metropolitano de Arte. Esta búsqueda visual interactiva permite a todo el mundo ver y explorar la colección de nuevas maneras. Pix2Story se vale del procesamiento de lenguaje natural (NLP) para narrar historias. La IA examina una imagen, aplica un estilo de escritura y genera un relato, demostrando así cómo la IA puede favorecer la creatividad.

Snip Insights
Snip Insights permite que los usuarios encuentren información inteligente a partir de un recorte o una captura de pantalla. Los servicios de IA convierten una imagen capturada en texto traducido, y detectan y etiquetan automáticamente el contenido de la imagen.

Sketch2Code
Sketch2Code convierte dibujos manuscritos en prototipos en HTML. Los diseñadores comparten ideas en una pizarra y los cambios aparecen instantáneamente en el navegador, lo que ayuda a mejorar la colaboración entre el desarrollador, el programador y el cliente.

Crea soluciones innovadoras de AI
Descubre Azure AI, una cartera de servicios de AI diseñados para los desarrolladores y los científicos de datos. Aprovecha las décadas de investigación de punta, las prácticas de AI responsable y la flexibilidad que ofrece Azure AI para que crees e implementes tus propias soluciones de AI.