¿Puede Z-Image Turbo mantener consistencia de personajes?

Sí, Z-Image Turbo puede mantener consistencia de personajes usando su formato de conversación multi-turn. Define perfiles detallados de personajes en el primer turno, luego haz ediciones dirigidas en turnos posteriores mientras preservas las características principales.

¿Qué es la conversación multi-turn en Z-Image?

La conversación multi-turn es la característica de Z-Image que formatea prompts como un chat entre usuario y asistente. Cada turno construye contexto, permitiéndote definir un personaje y luego hacer modificaciones iterativas manteniendo la consistencia.

¿Cómo funciona la plantilla de chat de Z-Image?

Z-Image usa la plantilla de chat de Qwen3-4B con tokens especiales como , y bloques . Este formato estructurado ayuda al modelo a entender qué preservar versus qué modificar entre turnos.

¿Necesito ComfyUI para consistencia de personajes?

Las características de conversación multi-turn funcionan mejor con los nodos personalizados de Z-Image para ComfyUI (ZImageTextEncoder y ZImageTurnBuilder). El prompting básico funciona en cualquier interfaz, pero el control avanzado requiere ComfyUI.

¿Puedo usar bloques de pensamiento en prompts de Z-Image?

Sí, Z-Image soporta bloques donde puedes añadir razonamiento sobre qué cambiar o preservar. Este texto se convierte en parte del prompt codificado y puede guiar la generación.

Consistencia de Personajes en Z-Image: Guía Multi-Turn | Tutorial Z Imagen

Uno de los mayores desafíos en la generación de imágenes con IA es mantener la consistencia en múltiples imágenes. Z-Image Turbo aborda esto con su formato único de conversación multi-turn.

Esta guía explica cómo definir personajes una vez y hacer modificaciones precisas mientras preservas su identidad central.

Entendiendo el Formato de Chat de Z-Image

La Base Qwen3-4B

Z-Image Turbo usa Qwen3-4B como su codificador de texto. Este modelo fue entrenado en conversaciones con una estructura específica:

<|im_start|>system
Instrucciones para el modelo<|im_end|>
<|im_start|>user
La solicitud del usuario<|im_end|>
<|im_start|>assistant
<think>
Proceso de razonamiento del modelo
</think>
Respuesta al usuario<|im_end|>

Cuando usas Z-Image a través de sus nodos personalizados de ComfyUI, puedes acceder a esta estructura completa.

Por Qué Esto Importa para la Consistencia

El modelo fue entrenado para:

Seguir instrucciones del sistema a lo largo de la conversación
Recordar contexto de turnos anteriores
Usar bloques <think> para razonar sobre cambios
Mantener consistencia mientras hace modificaciones solicitadas

Al estructurar tus prompts como conversaciones multi-turn, le das a Z-Image contexto explícito sobre qué debe permanecer igual.

El Flujo de Trabajo Multi-Turn

Paso 1: Define Tu Personaje (Primer Turno)

Crea un perfil de personaje completo con cada detalle que quieras preservar:

# Perfil de Personaje: Sarah Chen

## Identidad Central
- Nombre: Sarah Chen
- Edad: 28
- Etnia: Chino-Americana
- Complexión: Delgada, 1.68m

## Rostro y Características
- Forma de Cara: Ovalada con pómulos marcados
- Piel: Clara con subtonos cálidos, pecas ligeras sobre la nariz
- Ojos: Marrón oscuro, forma almendrada, ligera elevación en las esquinas
- Cejas: Naturales, ligeramente gruesas, bien cuidadas
- Nariz: Pequeña, ligeramente respingona
- Labios: Carnosos, color rosa natural
- Expresión: Media sonrisa confiada por defecto

## Cabello
- Color: Negro con sutiles reflejos marrón cálido
- Largo: Hasta media espalda
- Estilo: Usualmente suelto, ligera onda natural
- Textura: Grueso, saludable, brillante

## Características Distintivas
- Pequeño lunar debajo del ojo derecho
- Aretes de aro dorado delicados (siempre los usa)
- Collar de plata con dije de luna creciente

## Vestimenta por Defecto
- Estilo: Profesional moderno, minimalista
- Colores: Frecuentemente negro, blanco, azul marino, burdeos
- Preferencia: Líneas limpias, telas de calidad

Paso 2: Primera Generación de Imagen

Usa la ficha de personaje completa en tu primer prompt:

[System Prompt]
Generate a photorealistic portrait following the character sheet exactly.
Maintain all specified features and distinguishing marks.

[User Prompt]
# Character Profile: Sarah Chen
[Ficha de personaje completa de arriba]

Current scene: Professional headshot, studio setting, soft lighting

[Think Block]
Subject is Sarah Chen as defined in the character sheet. Key features
to ensure: high cheekbones, beauty mark below right eye, gold hoop
earrings, crescent moon pendant. Setting is studio, keep background
simple grey gradient. Lighting should be soft and flattering.

[Assistant Response]
Here's Sarah Chen's professional headshot as specified.

Paso 3: Haz Modificaciones (Segundo Turno)

Ahora solicita un cambio específico mientras referencias el personaje establecido:

[User Prompt]
Change the setting to a Tokyo street at night. Keep Sarah exactly
the same - her face, hair, earrings, necklace - but put her in
a casual outfit: black turtleneck and jeans.

[Think Block]
Preserve: Face shape, skin tone, freckles, eye shape, beauty mark,
earrings, necklace. Change: Setting to Tokyo night street, clothing
to casual black turtleneck and jeans. Add environmental lighting
from neon signs while maintaining face recognizability.

[Assistant Response]
Here's Sarah on a Tokyo street at night in casual wear.

Implementación en ComfyUI

Nodos Requeridos

ZImageTextEncoder

Nodo principal para el primer turno
Entradas: system_prompt, user_prompt, thinking_content, assistant_content
Salidas: conditioning, formatted_prompt, conversation

ZImageTurnBuilder

Añade turnos posteriores a la conversación
Entradas: previous (conversation), user_prompt, thinking_content
Salidas: conditioning (cuando clip conectado), conversation

Flujo de Trabajo Básico

CLIPLoader (Lumina 2)
       ↓
ZImageTextEncoder ──────────────────────→ KSampler
├── system_prompt: "Generate photorealistic..."
├── user_prompt: [Ficha de personaje]
├── thinking_content: [Razonamiento sobre características]
└── assistant_content: [Respuesta breve]

Flujo de Trabajo Multi-Turn

ZImageTextEncoder (Turno 1: Definición de Personaje)
       ↓ conversation
ZImageTurnBuilder (Turno 2: Primera Modificación)
       ↓ conversation
ZImageTurnBuilder (Turno 3: Segunda Modificación)
       ↓ conditioning
KSampler

Configuración

Parámetro	Valor Recomendado
add_think_block	true
is_final (TurnBuilder)	true (en último turno)
template_preset	photorealistic o custom

Ejemplo Completo: Walter Finch

Veamos cómo crear un personaje consistente a través de múltiples imágenes.

Turno 1: Define a Walter

System Prompt:

Generate an image in classic American comic book style.
Bold outlines, flat colors with halftone shading.

User Prompt:

# Character Profile: Walter Finch (Wally)

## Core Identity
- Name: Walter Finch (Nickname: Wally)
- Gender: Male
- Age: 72
- Ethnicity: Caucasian (British descent)
- Skin Tone: Fair, warm sun-kissed glow on cheeks and nose

## Head & Face
- Face Shape: Oval, prominent jawline, receding hairline
- Eye Color: Ice-blue with subtle gold flecks around the iris
- Hair: Pure white, side-parted, full beard and mustache
- Glasses: Thin, gold-rimmed reading glasses
- Expression: Warm, gentle smile with a twinkle in his eye

## Attire
- Light gray and blue checkered button-down shirt
- Dark grey wool trousers
- Brown leather loafers

## Props
- Pale lavender ceramic mug of coffee
- Gold pocket watch chain visible in breast pocket

Think Block:

Creating Walter "Wally" Finch: 72 years old, British descent,
warm grandfather type. Key features: ice-blue eyes with gold
flecks (distinctive), gold-rimmed glasses, full white beard
side-parted hair. Must include: lavender coffee mug and gold
pocket watch chain. Style: American comic book with halftone.

Assistant Response:

Here's Walter Finch, the kindly British gentleman.

Turno 2: Modificar Color de Barba

User Prompt:

Let's change his beard to have some red mixed in with the white.
Keep everything else exactly the same.

Think Block:

Modifying beard only: change from pure white to red and white
mixed. Preserve: ice-blue eyes with gold flecks, gold-rimmed
glasses, facial structure, lavender mug, pocket watch chain,
checkered shirt, warm expression.

Turno 3: Añadir Nuevo Elemento

User Prompt:

Let's put a cute baby flying sloth hovering above his head too.

Think Block:

Adding element: baby flying sloth above Walter's head. Preserve
all of Walter's features including the red-white beard from
previous turn. The sloth should be small and cute, floating
or hovering position.

Resultado

La imagen final contiene a Walter con todas sus características definidas, la modificación de barba roja-blanca del turno 2, y la adición del perezoso volador del turno 3.

Por Qué Usar Qwen3 para Generación de Prompts Ayuda

El codificador de Z-Image es Qwen3-4B. Todos los modelos Qwen3 comparten el mismo tokenizador.

Cuando usas un modelo Qwen3 para generar tus descripciones de personajes:

Mismo vocabulario significa mismos IDs de tokens
Los matices semánticos se transfieren directamente
El razonamiento del bloque think prepara al codificador

Para mejores resultados, considera usar Qwen3-72B o más grande para generar fichas de personajes detalladas, luego aliméntalas directamente a Z-Image.

Ejemplo de System Prompt para Qwen3

You are a visual prompt engineer for Z-Image Turbo.

Generate detailed, visually-specific character descriptions.
Focus on concrete visual details - colors, textures, specific
features. Avoid abstract concepts.

Structure your output as:
1. <think> block with visual planning
2. Hierarchical character profile with sections

The output will be used directly as a Z-Image prompt.

Consejos para Mejor Consistencia

Sé Exhaustivamente Específico

No dejes nada al azar. Si quieres un color de ojos específico, di exactamente cuál es. "Ojos azules" es vago. "Azul hielo con sutiles destellos dorados alrededor del iris" es específico.

Usa el Bloque Think

El bloque think te permite declarar explícitamente qué preservar:

<think>
Changing: outfit to summer dress
Preserving: face shape, eye color (hazel with amber ring),
beauty mark on left cheek, ear piercings (two in left ear),
nose shape, lip fullness
</think>

Un Cambio Por Turno

No sobrecargues las modificaciones. Haz un cambio dirigido por turno:

Bien:

Turno 2: Cambiar atuendo
Turno 3: Cambiar fondo
Turno 4: Añadir accesorio

Arriesgado:

Turno 2: Cambiar atuendo Y fondo Y añadir accesorio Y alterar iluminación

Referencia Contenido Previo

En turnos posteriores, referencia brevemente qué debe permanecer:

Keep Sarah's face, hair, and jewelry exactly as before.
Only change her outfit to a red evening gown.

Marcadores de Estilo Consistentes

Mantén palabras clave de estilo consistentes en todos los turnos:

[Cada turno termina con]
photorealistic, 8k, professional photography, shot on Canon EOS R5

Limitaciones y Expectativas

Qué Funciona Bien

Preservar características distintivas (cicatrices, lunares, color de ojos)
Mantener estilo de ropa entre escenas
Mantener accesorios consistentes
Cambiar fondos mientras se preserva el sujeto

Qué Es Desafiante

Reproducción exacta de rostros (esto no es face-swap)
Consistencia perfecta en poses muy diferentes
Mantener consistencia entre estilos artísticos diferentes

Expectativas Realistas

La conversación multi-turn mejora la consistencia pero no garantiza perfección. Espera:

80-90% de preservación de características con buen prompting
Necesidad ocasional de regeneración
Mejores resultados con personajes distintivos

Solución de Problemas

Características Que Se Desvían

Problema: El personaje se ve ligeramente diferente en cada generación.

Solución: Añade características distintivas más específicas. En lugar de "cabello marrón," usa "cabello marrón chocolate con reflejos cobrizos, cayendo hasta media espalda, ligera onda, partido de lado."

Modificaciones Que No Se Aplican

Problema: Los cambios solicitados no aparecen.

Solución: Sé explícito en el bloque think sobre qué cambia. Declara el cambio primero, luego lista qué permanece igual.

Inconsistencia de Estilo

Problema: El estilo artístico cambia entre turnos.

Solución: Incluye palabras clave de estilo en el system prompt y repítelas en la respuesta del asistente de cada turno.

Archivos de Plantilla

Z-Image incluye 140+ plantillas en ComfyUI. Para trabajo de personajes, prueba:

Plantilla	Mejor Para
photorealistic	Personajes realistas
character_design	Fichas de referencia
comic_american	Estilo cómic
anime_ghibli	Personajes estilo Ghibli
portrait_studio	Retratos de estudio

Accede vía template_preset en ZImageTextEncoder.

Empieza Ahora

Descarga los nodos de ComfyUI: Comfy-Org/z_image_turbo
Crea una ficha de personaje usando la plantilla de arriba
Empieza con Turno 1 - define todo
Itera con Turno 2+ - haz cambios dirigidos

O practica prompting básico en z-image.vip.

Referencias

Explora Z-Image en z-image.vip — gratis, ilimitado.

Sigue Leyendo

Masterclass de Ingeniería de Prompts de Z-Image — Vocabulario visual y fórmulas
Guía de Nodos Personalizados ComfyUI — Referencia completa de nodos
¿Qué es Z-Image Turbo? — Guía completa para principiantes