Imagen: ¿Los generadores de texto a imagen de IA dejarán sin trabajo a los ilustradores?

rap«>Imagen de Google es el último ejemplo de IA aparentemente capaz de producir imágenes de alta calidad a partir de un mensaje de texto, pero no están listos para reemplazar a los ilustradores humanos.

Tecnología

| Un análisis

26 de mayo de 2022

Por alex wilkins

Imagen predeterminada de New Scientist — Ejemplos de imágenes creadas por Imagen AI de Google

Fotos/Google

Las empresas de tecnología están compitiendo para crear algoritmos de inteligencia artificial capaces de producir imágenes de alta calidad a partir de indicaciones de texto, y la tecnología aparentemente avanza tan rápido que algunos predicen que los ilustradores humanos y los fotógrafos de archivo pronto quedarán sin uso. En realidad, las limitaciones de estos sistemas de IA significan que probablemente pasará algún tiempo antes de que puedan ser utilizados por el público en general.

Los generadores de texto a imagen que utilizan redes neuronales han logrado un progreso notable en los últimos años. El último, Imagen de Google, llega inmediatamente después de DALL-E 2, que fue anunciado por OpenAI en abril.

Ambos modelos utilizan una red neuronal entrenada en una gran cantidad de ejemplos para categorizar la relación entre las imágenes y las descripciones textuales. Cuando recibe una nueva descripción textual, la red neuronal genera repetidamente imágenes, modificándolas hasta que coincidan mejor con el texto en función de lo que ha aprendido.

Aunque las imágenes presentadas por las dos empresas son impresionantes, los investigadores se preguntaron si los resultados fueron seleccionados para mostrar los sistemas en su mejor momento. «Tienes que mostrar tus mejores resultados», dice Hossein Malekmohamadi de la Universidad De Montfort en el Reino Unido.

Un problema al juzgar estas creaciones de IA es que las dos compañías se han negado a lanzar demostraciones públicas que permitirían a los investigadores y otros ponerlas a prueba. Esto se debe en parte a los temores de que la IA pueda usarse para crear imágenes engañosas, o simplemente que pueda generar resultados dañinos.

Los modelos se basan en conjuntos de datos extraídos de partes grandes y no moderadas de Internet, como el conjunto de datos LAION-400M, que, según Google, se sabe que contiene «imágenes pornográficas, insultos raciales y estereotipos sociales dañinos». Los investigadores detrás de Imagen dicen que debido a que no pueden garantizar que no heredará parte de este contenido problemático, no pueden hacerlo público.

OpenAI afirma mejorar el ‘sistema de seguridad’ de DALL-E 2 al ‘refinar los filtros de texto y ajustar el sistema automatizado de detección y respuesta para violaciones de la política de contenido’, mientras que Google busca abordar los desafíos mediante el desarrollo de un «vocabulario de daño potencial». Ninguna de las compañías pudo hablar con científico nuevo antes de la publicación de este artículo.

A menos que estos problemas puedan resolverse, parece poco probable que los principales equipos de investigación como Google u OpenAI lancen sus sistemas de texto a imagen para uso general. Es posible que los equipos más pequeños opten por lanzar una tecnología similar, pero la cantidad de potencia informática requerida para entrenar estos modelos en grandes conjuntos de datos tiende a limitar su trabajo a los grandes jugadores.

A pesar de esto, es probable que la competencia amistosa entre las grandes empresas signifique que la tecnología continúe avanzando rápidamente, ya que las herramientas desarrolladas por un grupo pueden incorporarse al modelo futuro de otro. Por ejemplo, los modelos de difusión, donde las redes neuronales aprenden a revertir el proceso de agregar píxeles aleatorios a una imagen en un esfuerzo por mejorarlos, se han mostrado prometedores en los modelos de aprendizaje automático durante el año pasado. Tanto DALL-E 2 como Imagen se basan en modelos de difusión, después de que la técnica haya demostrado ser exitosa en modelos menos potentes, como el generador de imágenes Glide de OpenAI.

«Para este tipo de algoritmos, cuando tienes un competidor muy fuerte, significa que te ayudan a construir tu modelo mejor que otros», dice Malekmohamadi. “Por ejemplo, Google tiene varios equipos trabajando en el mismo tipo de [AI] Plataforma.»

Obtenga más información sobre estos temas:

El Tecnoadicto

Blog para los que somos adictos a la tecnologia

Imagen: ¿Los generadores de texto a imagen de IA dejarán sin trabajo a los ilustradores?

Me gusta esto:

Sé el primero en comentar

Deja un comentarioCancelar respuesta

Share this:

Me gusta esto:

Sé el primero en comentar

Deja un comentarioCancelar respuesta