DragGAN: la app IA de manipulación de objetos que está retando a Photoshop
Una investigación conjunta entre investigadores del MIT, la Universidad de Pensilvania y Google dio como resultado una demostración del potencial de la Inteligencia Artificial (IA) generativa, en particular gracias a una plataforma de IA conocida como DragGAN. Este nuevo avance está permitiendo la edición compleja de imágenes e impulsando el desarrollo.
En términos generales, se trata de una versión extraordinariamente mejorada de la herramienta Deformar que encontramos en Photoshop: permite no sólo distorsionar libre y directamente los componentes de la imagen, sino también crear un renderizado totalmente nuevo de cualquier objeto visible en la fotografía.
Los creadores del desarrollo han publicado una serie de videos en el sitio web dedicado al proyecto en el que muestran, por ejemplo, como DragGAN es capaz de modificar la imagen de un león echado con el hocico cerrado para lograr que el animal aparezca como si estuviera dando un bostezo luego de la intervención.
Este es solo uno de sus usos. En otros materiales compartidos por los desarrolladores de DragGAN se muestra cómo el modelo es capaz de cambiar la expresión de una persona en un retrato con apenas agregar dos puntos de referencia o bien, modificar la iluminación de la escena para que se adapte a la posición del sol que elija el usuario.
IA generativa antagónica, la tecnología detrás de DragGAN
Más allá de los impresionantes resultados que DragGAN es capaz de entregar, lo realmente interesante está en la tecnología detrás de la herramienta así como en las prestaciones que ofrece su interfaz.
DragGAN funciona con el respaldo de una red generativa antagónica. Este tipo de redes también conocidas como GAN (por sus siglas en inglés) se caracterizan por enfrentar dos redes neuronales en una ‘competencia suma cero’, es decir, la pérdida o ganancia de una de las redes, se compensa con la pérdida o ganancia de la otra.
Así, en este sistema tenemos una red generativa que está enfocada en crear todo tipo de contenido en función de las solicitudes del usuario. Esta red se acompaña de una segunda red discriminadora que está entrenada en identificar y analizar el material producido por la red generativa para determinar si el resultado entregado es el mejor en función de los datos de aprendizaje y la solicitud del usuario.
De tal manera, y en términos simples, la red discriminatoria tiene como fin decidir si cada instancia de datos que analiza pertenece o no al conjunto de datos de entrenamiento. En este proceso, la red generativa hará decenas, cientos o hasta millones de intentos para cumplir los parámetros de la red discriminatoria y así entregar resultados más precisos.
Las GAN no son nada nuevo y se pueden encontrar en generadores de imágenes sofisticados como aquellos que son capaces de generar imágenes a pedido tan realistas que logran engañar a millones de personas. El gran aporte de DragGAN es su interfaz que hace de esta tecnología algo mucho más accesible y fácil de utilizar para obtener una imágen exacta creada con IA con toda clase de detalle.
En términos técnicos, DraGAN no solo difumina, elimina o tritura los píxeles existentes, sino que es capaz de crear un elemento totalmente nuevo partiendo de la misma información. Los investigadores explican: “Nuestro enfoque puede alucinar el contenido ocluido, como los dientes dentro de la boca de un león, y puede deformarse siguiendo la rigidez del objeto, como la flexión de una pata de caballo".
En la práctica esta herramienta puede ser un complemento valioso para sistemas como DALL-E 2, Stable Diffusion o Midjourney que son capaces de generar imágenes cada vez más realistas, pero que con DragGAN podrían afinar el contenido para entregar a los usuarios una imagen a medida con gran detalle.