El ilustrador de IA dibuja imágenes imaginativas para acompañar los subtítulos de texto


Por Chris Stokel-Walker

imágenes

La IA ahora puede crear imágenes a partir de una leyenda de texto

OpenAI

Una red neuronal utiliza leyendas de texto para crear imágenes extravagantes, como sillones con forma de aguacate, que demuestran que comprende cómo el lenguaje da forma a la cultura visual.

OpenAI, una empresa de inteligencia artificial que se asoció recientemente con Microsoft, desarrolló la red neuronal, a la que llama DALL-E. Esta es una versión del modelo de lenguaje GPT-3 de la empresa que permite la creación de grandes obras escritas basadas en indicaciones de texto breves, pero DALL-E produce imágenes en su lugar.

“El mundo no es solo texto”, dice Ilya Sutskever, cofundador de OpenAI. “Los humanos no solo hablamos: nosotros también vemos. Gran parte del contexto importante proviene de la investigación. "

Publicidad

DALL-E se entrena usando un conjunto de imágenes ya asociadas con indicaciones de texto, y luego usa lo que aprende para tratar de crear una imagen apropiada cuando se trata de eso. recibe un nuevo mensaje de texto.

Para ello, intenta averiguar el mensaje de texto y luego produce una imagen adecuada. Construye la imagen elemento por elemento en función de lo que se ha entendido del texto. Si se presentó con partes de una imagen preexistente junto con el texto, también tiene en cuenta los elementos visuales de esa imagen.

“Podemos darle al modelo un mensaje, como 'un reloj verde pentagonal', y dados los (elementos) anteriores, el modelo intenta predecir el siguiente”, dice Aditya Ramesh de OpenAI.

Por ejemplo, si se le da una foto de la cabeza de un Tirano saurio Rexy el mensaje de texto "a Tirano saurio Rex vistiendo un esmoquin ”, DALL-E puede dibujar el cuerpo del Tirano saurio Rex debajo de la cabeza y agregue la ropa adecuada.

La red neuronal, que se describe hoy en el sitio web de OpenAI, puede tropezar con indicaciones mal redactadas y tener dificultades para posicionar los objetos entre sí, o para contar.

"Cuanto más capaz es un sistema de fusionar conceptos de manera juiciosa, más probable es que el sistema de IA comprenda la semántica de la demanda y pueda demostrar creativamente esa comprensión", dice Mark Riedl de Georgia Instituto de Tecnología de Estados Unidos.

"No estoy seguro de cómo definir qué es la creatividad", dice Ramesh, quien admite estar impresionado con la variedad de imágenes producidas por DALL-E.

El modelo produce 512 imágenes para cada mensaje, que luego se filtran utilizando un modelo de computadora separado desarrollado por OpenAI, llamado CLIP, en lo que CLIP considera los 32 resultados "mejores".

CLIP está formado por 400 millones de imágenes disponibles en línea. "Encontramos pares de imagen a texto en Internet y formamos un sistema para predecir qué fragmentos de texto se asociarán con qué imágenes", dice Alec Radford de OpenAI, quien desarrolló CLIP.

"Es un trabajo realmente impresionante", dice Serge Belongie de la Universidad de Cornell, Nueva York. Él dice que se necesita más trabajo para examinar las implicaciones éticas de tal modelo, como el riesgo de crear imágenes completamente falsas, como las que involucran a personas reales.

Effie Le Moignan de la Universidad de Newcastle, Reino Unido, también califica el trabajo de impresionante. "Pero el problema con el lenguaje natural es que, si bien es inteligente, es muy cultural y sensible al contexto", dice.

Por ejemplo, Le Moignan se pregunta si DALL-E, cuando se enfrenta a una solicitud para producir una imagen del almirante Nelson con pantalones dorados de lamé, pondría al héroe militar en leggings o calzoncillos: evidencia potencial de la brecha entre el inglés británico y el estadounidense.

Obtenga más información sobre estos temas:

Sé el primero en comentar

Deja un comentario