“Sigo esperando [Sutro Tower] bajar la colina y atacar el puente Golden Gate”, bromeó el columnista del San Francisco Chronicle, Herb Caen.
Es fácil para cualquier residente de San Francisco imaginar la escena, los dos símbolos más destacados de nuestra ciudad participando en una batalla al estilo de Godzilla. Pero, ¿qué sucede cuando le pides a una computadora que cree una imagen del combate hito contra hito? ¿O cuando plantea escenarios más complicados a la IA, como pedirle una imagen de cómo afectaría el cambio climático a la ciudad?
Gracias al software de una nueva empresa de inteligencia artificial con sede en San Francisco, ahora lo sabemos. La aplicación web de generación de imágenes DALL-E 2 permite a los usuarios ingresar un mensaje de texto y recibir una serie de seis imágenes increíblemente realistas. Los usuarios de acceso Beta han producido de todo, desde expansiones en Michelangelo’s “Creación de Adán” a Dibujos animados del neoyorquino. Y un competidor de acceso público denominado DALL-E Mini (y recientemente rebautizado como Craiyon) se ha convertido en una herramienta de referencia para generar memes.
La aplicación es la creación más reciente de OpenAI, una organización sin fines de lucro de Elon Musk y una serie de otros pesos pesados de Silicon Valley fundada en 2015 con una financiación de mil millones de dólares. Se despojó de su condición de organización sin fines de lucro cuando recibió otros mil millones de Microsoft en 2019. Hasta ahora, la compañía de tecnología ha creado tecnología que se utiliza para enseñar a las máquinas cómo debatir, ayudar a las manos robóticas a dominar el movimiento, producir periodismo autogenerado e incluso crear iteraciones tempranas de un muy Aplicación de chatbot coqueto. Dados los peligros inherentes de los avances de la IA, los lanzamientos de la compañía generalmente se reciben con una mezcla de asombro y terror, y la naturaleza supuestamente secreta de OpenAI y el estado financiero cambiante han atraído sospechas de los periodistas de investigación.
Dejando a un lado las implicaciones distópicas de falsificación profunda (el software tiene medidas de protección contra mostrar caras de personas reales y violencia), los pocos usuarios con acceso a DALL-E 2 lo están pasando muy bien con el software. Actualmente se encuentra en una etapa beta solo por invitación, con el objetivo declarado de incorporar hasta 1000 usuarios de su lista de espera cada semana.
Aunque OpenAI no otorgaría a SFGATE una cuenta beta, pudimos proporcionar una serie de indicaciones. Sin embargo, aprendimos que la especificidad es clave, y sin la capacidad de refinar la entrada, la experiencia se sintió como decirle a un genio que quería volar y recibir un par de mosquitos a cambio. Por ejemplo, pedir ver las calles de San Francisco con góndolas, en lugar de automóviles, resultó en botes al estilo de Venecia, en lugar de remontes elevados.
La artista conceptual de San Francisco Danielle Baskin (de la broma de Google Spirit of Halloween y la infamia de BART Basel) es una de las primeras usuarias de DALL-E 2 y ha pasado horas jugando con el software y explorando sus limitaciones. En abril, publicó un hilo de Twitter que mostraba cómo se vería el puente Golden Gate si lo cruzara un tren BART, así como un Sausalito lleno de edificios de gran altura.
“Lo que más me gusta de él no es necesariamente hacer nada con los resultados, simplemente me encanta la sensación de explorar infinitas combinaciones de imágenes”, dijo Baskin. “Se siente como si estuviera entrando en un museo y pudiera bajar por diferentes alas y simplemente ver cualquier tipo de parte particular de la historia o escenario imaginado”.
Aunque el software genera resultados en segundos, la creación de fotografías de calidad profesional no es instantánea. Baskin pasó dos horas refinando sus indicaciones del puente Golden Gate. Y algunas ideas, como mostrar cómo se vería una unidad de vivienda accesoria dentro de un garaje de San Francisco, simplemente estaban fuera de los límites de la imaginación conceptual del software. Los defensores de las bicicletas se entristecerán al saber que también fue casi imposible crear una versión solo para bicicletas del Puente de la Bahía, sin automóviles.
“Tal vez desde el exterior, parece que la IA es tan buena porque puedes ingresar cualquier cosa que hayas imaginado y escupe una imagen hermosa”, dijo Baskin. “Pero los primeros estaban todos desordenados, los puentes destrozados. Tenía que ser muy específico”.
Cuando SFGATE proporcionó a DALL-E 2 una pregunta sobre cómo sería San Francisco después del cambio climático, el resultado fue sorprendentemente conceptual, similar a algo que una publicación podría encargar a un ilustrador para acompañar un artículo. Es comprensible que este tipo de uso del software haya causado escalofríos en el mundo del arte, con el temor de que DALL-E 2 pueda dejar sin trabajo a los ilustradores.
En ese sentido, Baskin recibió varias solicitudes privadas de publicaciones que le pedían que les enviara mensajes. Ella postuló que en esas situaciones, las empresas de medios no tenían presupuestos para encargar nada y habrían terminado usando imágenes de stock o creative commons.
“Cualquier tipo de tecnología poderosa acaba con los trabajos y crea nuevos trabajos”, dijo, señalando cuán útil sería la herramienta para los ilustradores que buscan inspiración o ayudar a refinar su arte para satisfacer las necesidades de los clientes.
Además de explorar posibilidades tontas como cómo se vería el elenco de “Star Trek” disfrutando de un día en Fisherman’s Wharf, Baskin ve potencial para que DALL-E se use para ayudar a ampliar la imaginación de las personas; tal vez incluso podría usarse como una herramienta para el activismo. Como dice el viejo adagio, descubrió que una imagen vale más que mil palabras.
“Un amigo comentó sobre el poder político de DALL-E para mostrarle a la gente futuros alternativos muy realistas a los que de otro modo se opondrían porque no pueden imaginarlo”, dijo Baskin. “Muchas representaciones arquitectónicas son más como planos o bocetos, en lugar de una fotografía realista e impactante”.
En cuanto a las indicaciones que proporcionó SFGATE sobre nuestra ciudad justa, los resultados de DALL-E fueron mixtos. El aviso de la góndola antes mencionado (al estilo de una pintura de Norman Rockwell) y uno que pedía “una pintura renacentista de un día perfecto en el Parque Dolores de San Francisco” parecían pinturas que podrías ver en la pared de una cafetería universitaria. Una solicitud ciertamente malhumorada para mostrar la ciudad después de un terremoto de magnitud 8.5 parecía sacada de un tráiler de una película de desastres. Pedir ayuda para identificar la ubicación de un tesoro enterrado durante mucho tiempo en el Golden Gate Park no resultó en ninguna pista que valiera la pena investigar, y nuestro único intento de recrear el experimento BART de Baskin fracasó estrepitosamente.
¿Y en cuanto a la vieja cita de Herb Caen sobre el ataque de la Torre Sutro al puente Golden Gate? Bueno, a veces una imagen no puede competir con unas pocas palabras bien elegidas.