¿Nuevo por aquí? No olvides unirte a la comunidad de WhatsApp aquí.

La guía completa de imágenes en ChatGPT. Parte 1/2

La semana que todos nos convertimos en "artistas" (gracias a la IA)

¿Recuerdas cuando crear una imagen como las que hemos visto aparecer en las últimas semanas requería habilidades especiales? Eso ya es historia. Esta semana, visualizar cualquier cosa se volvió tan fácil como hacerle una pregunta a ChatGPT, y todo esto sucedió cuando OpenAI integró la generación de imágenes directamente en su plataforma.

Los ejemplos no tardaron en aparecer: usuarios transformando a sus seres queridos al estilo Studio Ghibli y creando memes, infografías y mucho más para ver hasta dónde podían llegar. La magia no estuvo solo en el avance técnico (la mayoría de estas capacidades ya existían antes, dispersas en herramientas especializadas). Lo revolucionario fue la facilidad y felicidad de crear y compartir sin esfuerzo lo que la gente imaginaba. Para muchos, este descubrimiento expandió por completo su idea de lo que la IA podía ser y hacer.

Pero junto a la emoción, llegó la preocupación. La crítica de Miyazaki al arte generado por IA —famosamente llamándolo "un insulto a la vida misma"— resurgió de manera puntual, haciendo eco en artistas y creativos inquietos por ver a OpenAI aparentemente beneficiándose de sus estilos sin consentimiento.

Esto plantea preguntas importantes sobre la intersección entre IA, creatividad y trabajo. ¿Este tipo de innovación celebra la creatividad o diluye la originalidad? ¿Democratiza el arte o explota a los artistas? Una controvertida publicación inspirada en Studio Ghibli generada por IA desde la Casa Blanca coronó esta explosión de contenido que mostró vívidamente lo complicada —y emocionalmente cargada— que puede ser la adopción de la IA.

El potencial sigue siendo enorme. Aunque los LLM están entre las tecnologías adoptadas más rápidamente en la historia, cerca de la mitad de todos los adultos estadounidenses aún no los han probado. A nivel mundial, ese número podría acercarse al 90 por ciento.

Si tú eres parte de quienes aún no se sumergen en este mundo, te estás perdiendo una revolución que está sucediendo ahora mismo, frente a tus ojos. ¿El ahora puedo está resonando en tu mente también?

Con esa perspectiva en mente, aquí hay una amplia lista de todas las posibilidades que tiene este nuevo lanzamiento de ChatGPT y me gustaría comenzar hablando de la tecnología que hay detrás.

La tecnología detrás de Sora

Para empezar, la mayoría de las herramientas de generación de imágenes, como Midjourney, utilizan algo llamado modelo de difusión.

Imagina que quieres generar un gato: un modelo de difusión lanza todas las piezas del rompecabezas al mismo tiempo, las revuelve al azar, y luego va ajustando poco a poco hasta que aparece un gato.

Como este modelo funciona de forma iterativa, a veces, se le escapan los detalles.

Para resolver eso, OpenAI tomó un camino distinto y usó algo llamado "autoregresión".

Lo que hace este modelo es, en vez de lanzar todas las piezas de golpe, coloca una a una con cuidado, siguiendo un patrón. Cada nueva pieza se guía por la anterior, siguiendo las instrucciones con precisión, muy parecido a cómo se escriben los textos, de arriba hacia abajo.

Pero la autoregresión, aunque es muy precisa, no es especialmente creativa. Y ahí es donde OpenAI se puso las pilas y pensó: “¿Y si combinamos ambos modelos?” Y eso fue lo que hicieron.

El resultado: imágenes detalladas, más precisas y con una estética increíble.

Y así es como se crean esas ilustraciones al estilo Ghibli.

¿Cómo se compara con la competencia?

Como ya te mencioné, OpenAI usa una tecnología diferente a todos los modelos de difusión comerciales como Midjourney, Stable Diffusion e Ideogram, entonces lo más óptimo sería compararla con una herramienta que usa la misma tecnología: Google AI Studio.

Decidí correr un simple experimento convirtiendo un texto en un post de X:

Crea una imagen al estilo visual de un post de Twitter, pero usando este texto:
Generated Image April 04, 2025 - 9:57AM.jpeg
Imagen generada por Google AI Studio
Imagen generada por ChatGPT

A pesar de que la generación de imágenes en Google AI Studio es 10X más rápida, la calidad y cercanía con la solicitud inicial, es mucho más concisa en ChatGPT.

Alcances y limitantes

La generación de imágenes en GPT-4o, no es solo una nueva herramienta, sino un cambio radical en la forma en la que creamos visuales y quién los puede crear. Podemos decir que en cuanto a velocidad, se queda muy por detrás de todas las otras opciones que hay allá afuera (pero mejorará con el tiempo).

Pero es precisa, consistente y a la par del trabajo de muchos diseñadores junior. Puede seguir instrucciones complejas, crear texto legible, y mantener la consistencia entre varias escenas.

¿Quién pierde y quién gana con esto?

Inicialmente, los verdaderos perdedores por la nueva actualización de GPT, no son los diseñadores; sino otras compañías como Canva, Figma y demás. Las personas que usarán GPT para diseñar, son las mismas que de por sí no contrataban diseñadores por falta de presupuesto.

Para los pequeños negocios -es un game changer. Y para OpenAI, es un punto de inflexión hacia la adopción de su herramienta más allá de escribir textos.

Es todo lo que DALL-E (la herramienta previa de generación de imágenes de GPT) nunca fue.

Para saber todo lo que es posible, solo basta entrar a https://sora.com/explore/images, la plataforma que alberga los cientos de creaciones que están haciendo los usuarios.

Y aquí te compartiré cuáles son los mejores usos que le puedes dar.

¿Qué es posible crear?

Una de las principales limitantes con as que nos vamos a enfrentar al usar OpenAI, al igual que pasa con Adobe Firefly y otros generadores de imágenes de compañías de este tamaño, son sus políticas de contenido.

Usando un prompt sencillo como "crea una imagen de mi como Superman, en una ciudad, peleando contra el crimen", recibí la alerta de "No puedo generar la imagen que solicitaste porque viola nuestras políticas de contenido." Y eso, de cierta forma, limitará nuestras posibilidades y sí, cada vez será más restrictivo.

Anuncios publicitarios para marketing

La mejor forma de usar esta herramienta para fines publicitarios, es dándole un ejemplo de lo que quieres. Basta con poner un ejemplo de un anuncio similar, una estructura base y agregarle todos los elementos (personas, textos o productos) y pedirle que lo ajuste en una sola composición.

Image
Image

Las ventajas para negocios, principalmente de e-commerce y productos, son increíbles. Pero también ayudará a otros negocios que buscan optimizar sus imágenes para darles una mejor "presentación", como es el caso de este restaurante usando el prompt: "Mejora la foto de este plato para Instagram".

Soluciones como estas, aparecieron por todos lados, dándonos una clara idea de hacia donde se puede aprovechar esta poderosa herramienta para fines publicitarios.

Darle estilos diferentes a tus imágenes

Image

Más allá del estilo "Studio Ghibli", ChatGPT nos da la posibilidad de transformar nuestras imágenes en cientos de estilos diferentes, respetando la estructura de nuestra imagen original.

A pesar de que esta función ya existía en herramientas como Midjourney con style reference o image reference, que nos permitía acercarnos bastante a la imagen de referencia, lo que hace a GPT especial, es el potencial increíble de poderlo hacer directamente en su interfaz desde cualquier lado con nuestro celular.

Aquí hay otros ejemplos de estilos para tus fotos que puedes utilizar (siempre y cuando no tengas restricciones por derechos de autor):

O si quieres llevar tus fotos al siguiente nivel y alejarte de los estilos de comics y caricaturas famosas, puedes probar diferentes estilos de fotografías:

Clonarte -más allá de estilos artísticos-.

Uno de los usos más comunes que he visto, es la capacidad de clonarnos y usar nuestras fotos como referencia para crear nuevas imágenes y si, a pesar de que logra un buen resultado convirtiéndote en personajes, recrearte tal cual eres de forma realista le cuesta más trabajo. Para ese tipo de proyectos, usar herramientas como Loras o Freepik con su función de clonar sigue siendo el mejor camino, ya que no solo usan una imagen de referencia, sino entre 12-20 fotos, lo que permite crear un modelo más acertado.

Crear historietas

Este ha sido uno de mis usos favoritos. Tener la posibilidad de compartir ideas de una forma visual, en formato de historieta, es muy poderoso. GPT mejoró bastante la generación de textos y esto nos permite crear este tipo de contenidos usando como referencia nuestros contenidos escritos. A pesar de que no es perfecto, después de realizar varias pruebas, estoy seguro que le encontrarás un uso práctico para ti. Si no sabes por donde empezar:

Aquí hay un prompt que te permite convertir tus contenidos en una narrativa de 4 pasos para historietas: https://www.aimakers.mx/contenidos/cadena-de-prompt-crea-una-historieta-a-partir-de-tus-contenidos-de-redes-sociales.

Si quieres llevar tus historietas a otro nivel, agrega una foto tuya y dile a GPT que quieres ser el personaje principal.

Crea logotipos e iconos desde cero

GPT-4o ahora es extraordinariamente bueno creando imágenes. Tan bueno, de hecho, que puede traducir con fiabilidad indicaciones muy detalladas y precisas en imágenes que encajan a la perfección. ¿Un caso de uso ideal para esto? Creación de logotipos. Pero crear un logotipo efectivo requiere una comprensión profunda de lo que debe comunicar, las directrices de tu marca, el estilo visual deseado y muchos otros criterios. Este no siempre es un proceso obvio.

Para obtenér un mejor resultado, te recomiendo seguir este prompt y complementarlo con la información de tu negocio:

Diseña un logo moderno y minimalista para [DESCRIBE A DETALLE TU PRODUCTO O SERVICIO]

El estilo debe ser [ESTILO DE LOGO], transmitiendo una mezcla de [QUE QUIERES QUE COMUNIQUE].

El diseño debe ser limpio, con inspiración en el branding de [AGREGA UNA MARCA DE INSPIRACIÓN}, usando elementos visuales que sugieran [QUE BUSCAS QUE PROYECTE VISUALMENTE].

🎨 Colores: Usa una paleta de [TUS COLORES ELEGIDOS]. Asegúrate de que el logo funcione tanto en fondos blancos como en fondos oscuros.

✍️ Estilo: Minimalista, profesional pero accesible. Evitar detalles excesivos o ilustraciones complejas. Puede ser abstracto o simbólico, pero debe ser distintivo.

💡 Formato: Proporción cuadrada, con fondo transparente.

🧠 Uso principal: medios digitales como sitio web, redes sociales y contenido visual.

Si quieres llevar tus logotipos al siguiente nivel, convirtiendlos en diferentes materiales 3D, puedes seguir esta guía de 4 pasos para poder hacerlo:

Otro de los usos poderosos que tiene GPT es la capacidad de realizar iconos y otros elementos para tu branding de manera consistente. Solo basta subirle un icono de referencia y pedirle a la IA que replique esos iconos en el mismo estilo, como se hizo en este ejemplo:

Image

Los usos para generar logos e iconos, son bastante amplios y solo necesitas comenzar a explorar para saber lo que es y no es posible.

Wireframes y UI

Crear wireframes y UI ha sido un tema bastante ineficiente con casi todas las herramientas de generación de imágenes con IA que existían, porque si algo les costaba trabajo, era generar textos.

El proceso para desarrollar wireframes, hecho por un miembro de la comunidad AI Makers, fue crear el esqueleto o wireframe de baja calidad en GPT en forma de codigo o estructura y luego pedirle a GPT que lo conviertiera en un diseño de UI visualmente atractivo.

La llegada de la generación de imágenes a ChatGPT marca un punto de inflexión en la democratización de la creatividad visual. Lo que antes requería software especializado, habilidades técnicas y una curva de aprendizaje pronunciada, ahora está al alcance de todos con unos simples prompts.

Si bien existen limitaciones en términos de velocidad y restricciones de contenido, la accesibilidad y la integración directa en una plataforma que ya utilizamos para muchas otras tareas hacen que esta actualización sea verdaderamente revolucionaria.

En nuestra próxima entrega, profundizaremos en técnicas avanzadas, casos de uso específicos por industria, y estrategias para optimizar tus resultados visuales con ChatGPT.

La barrera entre imaginar y crear nunca había sido tan delgada. El futuro de la creatividad visual ha llegado, y está al alcance de un prompt. Continúa con nosotros en la segunda parte para dominar por completo esta poderosa herramienta.

Subscribete al newsletter

Recibe las noticias más recientes y relevantes de Inteligencia Artificial en tu correo cada semana.

¡Muchas gracias! Ya estás dentro de la lista de correo
¡Oops! Algo salió mal. Inténtalo de nuevo más tarde.