Consistencia de Personajes en Z-Image: Guía Multi-Turn | Tutorial Z Imagen
Aprende a mantener la consistencia de personajes en múltiples imágenes usando el formato de conversación multi-turn de Z-Image (Z Imagen). Define personajes una vez, haz ediciones precisas preservando detalles.

Uno de los mayores desafíos en la generación de imágenes con IA es mantener la consistencia en múltiples imágenes. Z-Image Turbo aborda esto con su formato único de conversación multi-turn.
Esta guía explica cómo definir personajes una vez y hacer modificaciones precisas mientras preservas su identidad central.
Entendiendo el Formato de Chat de Z-Image
La Base Qwen3-4B
Z-Image Turbo usa Qwen3-4B como su codificador de texto. Este modelo fue entrenado en conversaciones con una estructura específica:
<|im_start|>system
Instrucciones para el modelo<|im_end|>
<|im_start|>user
La solicitud del usuario<|im_end|>
<|im_start|>assistant
<think>
Proceso de razonamiento del modelo
</think>
Respuesta al usuario<|im_end|>
Cuando usas Z-Image a través de sus nodos personalizados de ComfyUI, puedes acceder a esta estructura completa.
Por Qué Esto Importa para la Consistencia
El modelo fue entrenado para:
- Seguir instrucciones del sistema a lo largo de la conversación
- Recordar contexto de turnos anteriores
- Usar bloques
<think>para razonar sobre cambios - Mantener consistencia mientras hace modificaciones solicitadas
Al estructurar tus prompts como conversaciones multi-turn, le das a Z-Image contexto explícito sobre qué debe permanecer igual.
El Flujo de Trabajo Multi-Turn
Paso 1: Define Tu Personaje (Primer Turno)
Crea un perfil de personaje completo con cada detalle que quieras preservar:
# Perfil de Personaje: Sarah Chen
## Identidad Central
- Nombre: Sarah Chen
- Edad: 28
- Etnia: Chino-Americana
- Complexión: Delgada, 1.68m
## Rostro y Características
- Forma de Cara: Ovalada con pómulos marcados
- Piel: Clara con subtonos cálidos, pecas ligeras sobre la nariz
- Ojos: Marrón oscuro, forma almendrada, ligera elevación en las esquinas
- Cejas: Naturales, ligeramente gruesas, bien cuidadas
- Nariz: Pequeña, ligeramente respingona
- Labios: Carnosos, color rosa natural
- Expresión: Media sonrisa confiada por defecto
## Cabello
- Color: Negro con sutiles reflejos marrón cálido
- Largo: Hasta media espalda
- Estilo: Usualmente suelto, ligera onda natural
- Textura: Grueso, saludable, brillante
## Características Distintivas
- Pequeño lunar debajo del ojo derecho
- Aretes de aro dorado delicados (siempre los usa)
- Collar de plata con dije de luna creciente
## Vestimenta por Defecto
- Estilo: Profesional moderno, minimalista
- Colores: Frecuentemente negro, blanco, azul marino, burdeos
- Preferencia: Líneas limpias, telas de calidad
Paso 2: Primera Generación de Imagen
Usa la ficha de personaje completa en tu primer prompt:
[System Prompt]
Generate a photorealistic portrait following the character sheet exactly.
Maintain all specified features and distinguishing marks.
[User Prompt]
# Character Profile: Sarah Chen
[Ficha de personaje completa de arriba]
Current scene: Professional headshot, studio setting, soft lighting
[Think Block]
Subject is Sarah Chen as defined in the character sheet. Key features
to ensure: high cheekbones, beauty mark below right eye, gold hoop
earrings, crescent moon pendant. Setting is studio, keep background
simple grey gradient. Lighting should be soft and flattering.
[Assistant Response]
Here's Sarah Chen's professional headshot as specified.
Paso 3: Haz Modificaciones (Segundo Turno)
Ahora solicita un cambio específico mientras referencias el personaje establecido:
[User Prompt]
Change the setting to a Tokyo street at night. Keep Sarah exactly
the same - her face, hair, earrings, necklace - but put her in
a casual outfit: black turtleneck and jeans.
[Think Block]
Preserve: Face shape, skin tone, freckles, eye shape, beauty mark,
earrings, necklace. Change: Setting to Tokyo night street, clothing
to casual black turtleneck and jeans. Add environmental lighting
from neon signs while maintaining face recognizability.
[Assistant Response]
Here's Sarah on a Tokyo street at night in casual wear.
Implementación en ComfyUI
Nodos Requeridos
ZImageTextEncoder
- Nodo principal para el primer turno
- Entradas: system_prompt, user_prompt, thinking_content, assistant_content
- Salidas: conditioning, formatted_prompt, conversation
ZImageTurnBuilder
- Añade turnos posteriores a la conversación
- Entradas: previous (conversation), user_prompt, thinking_content
- Salidas: conditioning (cuando clip conectado), conversation
Flujo de Trabajo Básico
CLIPLoader (Lumina 2)
↓
ZImageTextEncoder ──────────────────────→ KSampler
├── system_prompt: "Generate photorealistic..."
├── user_prompt: [Ficha de personaje]
├── thinking_content: [Razonamiento sobre características]
└── assistant_content: [Respuesta breve]
Flujo de Trabajo Multi-Turn
ZImageTextEncoder (Turno 1: Definición de Personaje)
↓ conversation
ZImageTurnBuilder (Turno 2: Primera Modificación)
↓ conversation
ZImageTurnBuilder (Turno 3: Segunda Modificación)
↓ conditioning
KSampler
Configuración
| Parámetro | Valor Recomendado |
|---|---|
| add_think_block | true |
| is_final (TurnBuilder) | true (en último turno) |
| template_preset | photorealistic o custom |
Ejemplo Completo: Walter Finch
Veamos cómo crear un personaje consistente a través de múltiples imágenes.
Turno 1: Define a Walter
System Prompt:
Generate an image in classic American comic book style.
Bold outlines, flat colors with halftone shading.
User Prompt:
# Character Profile: Walter Finch (Wally)
## Core Identity
- Name: Walter Finch (Nickname: Wally)
- Gender: Male
- Age: 72
- Ethnicity: Caucasian (British descent)
- Skin Tone: Fair, warm sun-kissed glow on cheeks and nose
## Head & Face
- Face Shape: Oval, prominent jawline, receding hairline
- Eye Color: Ice-blue with subtle gold flecks around the iris
- Hair: Pure white, side-parted, full beard and mustache
- Glasses: Thin, gold-rimmed reading glasses
- Expression: Warm, gentle smile with a twinkle in his eye
## Attire
- Light gray and blue checkered button-down shirt
- Dark grey wool trousers
- Brown leather loafers
## Props
- Pale lavender ceramic mug of coffee
- Gold pocket watch chain visible in breast pocket
Think Block:
Creating Walter "Wally" Finch: 72 years old, British descent,
warm grandfather type. Key features: ice-blue eyes with gold
flecks (distinctive), gold-rimmed glasses, full white beard
side-parted hair. Must include: lavender coffee mug and gold
pocket watch chain. Style: American comic book with halftone.
Assistant Response:
Here's Walter Finch, the kindly British gentleman.
Turno 2: Modificar Color de Barba
User Prompt:
Let's change his beard to have some red mixed in with the white.
Keep everything else exactly the same.
Think Block:
Modifying beard only: change from pure white to red and white
mixed. Preserve: ice-blue eyes with gold flecks, gold-rimmed
glasses, facial structure, lavender mug, pocket watch chain,
checkered shirt, warm expression.
Turno 3: Añadir Nuevo Elemento
User Prompt:
Let's put a cute baby flying sloth hovering above his head too.
Think Block:
Adding element: baby flying sloth above Walter's head. Preserve
all of Walter's features including the red-white beard from
previous turn. The sloth should be small and cute, floating
or hovering position.
Resultado
La imagen final contiene a Walter con todas sus características definidas, la modificación de barba roja-blanca del turno 2, y la adición del perezoso volador del turno 3.
Por Qué Usar Qwen3 para Generación de Prompts Ayuda
El codificador de Z-Image es Qwen3-4B. Todos los modelos Qwen3 comparten el mismo tokenizador.
Cuando usas un modelo Qwen3 para generar tus descripciones de personajes:
- Mismo vocabulario significa mismos IDs de tokens
- Los matices semánticos se transfieren directamente
- El razonamiento del bloque think prepara al codificador
Para mejores resultados, considera usar Qwen3-72B o más grande para generar fichas de personajes detalladas, luego aliméntalas directamente a Z-Image.
Ejemplo de System Prompt para Qwen3
You are a visual prompt engineer for Z-Image Turbo.
Generate detailed, visually-specific character descriptions.
Focus on concrete visual details - colors, textures, specific
features. Avoid abstract concepts.
Structure your output as:
1. <think> block with visual planning
2. Hierarchical character profile with sections
The output will be used directly as a Z-Image prompt.
Consejos para Mejor Consistencia
Sé Exhaustivamente Específico
No dejes nada al azar. Si quieres un color de ojos específico, di exactamente cuál es. "Ojos azules" es vago. "Azul hielo con sutiles destellos dorados alrededor del iris" es específico.
Usa el Bloque Think
El bloque think te permite declarar explícitamente qué preservar:
<think>
Changing: outfit to summer dress
Preserving: face shape, eye color (hazel with amber ring),
beauty mark on left cheek, ear piercings (two in left ear),
nose shape, lip fullness
</think>
Un Cambio Por Turno
No sobrecargues las modificaciones. Haz un cambio dirigido por turno:
Bien:
- Turno 2: Cambiar atuendo
- Turno 3: Cambiar fondo
- Turno 4: Añadir accesorio
Arriesgado:
- Turno 2: Cambiar atuendo Y fondo Y añadir accesorio Y alterar iluminación
Referencia Contenido Previo
En turnos posteriores, referencia brevemente qué debe permanecer:
Keep Sarah's face, hair, and jewelry exactly as before.
Only change her outfit to a red evening gown.
Marcadores de Estilo Consistentes
Mantén palabras clave de estilo consistentes en todos los turnos:
[Cada turno termina con]
photorealistic, 8k, professional photography, shot on Canon EOS R5
Limitaciones y Expectativas
Qué Funciona Bien
- Preservar características distintivas (cicatrices, lunares, color de ojos)
- Mantener estilo de ropa entre escenas
- Mantener accesorios consistentes
- Cambiar fondos mientras se preserva el sujeto
Qué Es Desafiante
- Reproducción exacta de rostros (esto no es face-swap)
- Consistencia perfecta en poses muy diferentes
- Mantener consistencia entre estilos artísticos diferentes
Expectativas Realistas
La conversación multi-turn mejora la consistencia pero no garantiza perfección. Espera:
- 80-90% de preservación de características con buen prompting
- Necesidad ocasional de regeneración
- Mejores resultados con personajes distintivos
Solución de Problemas
Características Que Se Desvían
Problema: El personaje se ve ligeramente diferente en cada generación.
Solución: Añade características distintivas más específicas. En lugar de "cabello marrón," usa "cabello marrón chocolate con reflejos cobrizos, cayendo hasta media espalda, ligera onda, partido de lado."
Modificaciones Que No Se Aplican
Problema: Los cambios solicitados no aparecen.
Solución: Sé explícito en el bloque think sobre qué cambia. Declara el cambio primero, luego lista qué permanece igual.
Inconsistencia de Estilo
Problema: El estilo artístico cambia entre turnos.
Solución: Incluye palabras clave de estilo en el system prompt y repítelas en la respuesta del asistente de cada turno.
Archivos de Plantilla
Z-Image incluye 140+ plantillas en ComfyUI. Para trabajo de personajes, prueba:
| Plantilla | Mejor Para |
|---|---|
| photorealistic | Personajes realistas |
| character_design | Fichas de referencia |
| comic_american | Estilo cómic |
| anime_ghibli | Personajes estilo Ghibli |
| portrait_studio | Retratos de estudio |
Accede vía template_preset en ZImageTextEncoder.
Empieza Ahora
- Descarga los nodos de ComfyUI: Comfy-Org/z_image_turbo
- Crea una ficha de personaje usando la plantilla de arriba
- Empieza con Turno 1 - define todo
- Itera con Turno 2+ - haz cambios dirigidos
O practica prompting básico en z-image.vip.
Referencias
- Documentación de Nodos Personalizados Z-Image
- Configuración del Tokenizador Qwen3
- Paquete Oficial ComfyUI
Explora Z-Image en z-image.vip — gratis, ilimitado.
Sigue Leyendo
- Masterclass de Ingeniería de Prompts de Z-Image — Vocabulario visual y fórmulas
- Guía de Nodos Personalizados ComfyUI — Referencia completa de nodos
- ¿Qué es Z-Image Turbo? — Guía completa para principiantes