Free | 150 credits

Consistencia de Personajes en Z-Image: Guía Multi-Turn | Tutorial Z Imagen

Aprende a mantener la consistencia de personajes en múltiples imágenes usando el formato de conversación multi-turn de Z-Image (Z Imagen). Define personajes una vez, haz ediciones precisas preservando detalles.

Z-Image TeamReddit··10 min read
Consistencia de Personajes en Z-Image: Guía Multi-Turn | Tutorial Z Imagen

Uno de los mayores desafíos en la generación de imágenes con IA es mantener la consistencia en múltiples imágenes. Z-Image Turbo aborda esto con su formato único de conversación multi-turn.

Esta guía explica cómo definir personajes una vez y hacer modificaciones precisas mientras preservas su identidad central.

Entendiendo el Formato de Chat de Z-Image

La Base Qwen3-4B

Z-Image Turbo usa Qwen3-4B como su codificador de texto. Este modelo fue entrenado en conversaciones con una estructura específica:

<|im_start|>system
Instrucciones para el modelo<|im_end|>
<|im_start|>user
La solicitud del usuario<|im_end|>
<|im_start|>assistant
<think>
Proceso de razonamiento del modelo
</think>
Respuesta al usuario<|im_end|>

Cuando usas Z-Image a través de sus nodos personalizados de ComfyUI, puedes acceder a esta estructura completa.

Por Qué Esto Importa para la Consistencia

El modelo fue entrenado para:

  1. Seguir instrucciones del sistema a lo largo de la conversación
  2. Recordar contexto de turnos anteriores
  3. Usar bloques <think> para razonar sobre cambios
  4. Mantener consistencia mientras hace modificaciones solicitadas

Al estructurar tus prompts como conversaciones multi-turn, le das a Z-Image contexto explícito sobre qué debe permanecer igual.


El Flujo de Trabajo Multi-Turn

Paso 1: Define Tu Personaje (Primer Turno)

Crea un perfil de personaje completo con cada detalle que quieras preservar:

# Perfil de Personaje: Sarah Chen

## Identidad Central
- Nombre: Sarah Chen
- Edad: 28
- Etnia: Chino-Americana
- Complexión: Delgada, 1.68m

## Rostro y Características
- Forma de Cara: Ovalada con pómulos marcados
- Piel: Clara con subtonos cálidos, pecas ligeras sobre la nariz
- Ojos: Marrón oscuro, forma almendrada, ligera elevación en las esquinas
- Cejas: Naturales, ligeramente gruesas, bien cuidadas
- Nariz: Pequeña, ligeramente respingona
- Labios: Carnosos, color rosa natural
- Expresión: Media sonrisa confiada por defecto

## Cabello
- Color: Negro con sutiles reflejos marrón cálido
- Largo: Hasta media espalda
- Estilo: Usualmente suelto, ligera onda natural
- Textura: Grueso, saludable, brillante

## Características Distintivas
- Pequeño lunar debajo del ojo derecho
- Aretes de aro dorado delicados (siempre los usa)
- Collar de plata con dije de luna creciente

## Vestimenta por Defecto
- Estilo: Profesional moderno, minimalista
- Colores: Frecuentemente negro, blanco, azul marino, burdeos
- Preferencia: Líneas limpias, telas de calidad

Paso 2: Primera Generación de Imagen

Usa la ficha de personaje completa en tu primer prompt:

[System Prompt]
Generate a photorealistic portrait following the character sheet exactly.
Maintain all specified features and distinguishing marks.

[User Prompt]
# Character Profile: Sarah Chen
[Ficha de personaje completa de arriba]

Current scene: Professional headshot, studio setting, soft lighting

[Think Block]
Subject is Sarah Chen as defined in the character sheet. Key features
to ensure: high cheekbones, beauty mark below right eye, gold hoop
earrings, crescent moon pendant. Setting is studio, keep background
simple grey gradient. Lighting should be soft and flattering.

[Assistant Response]
Here's Sarah Chen's professional headshot as specified.

Paso 3: Haz Modificaciones (Segundo Turno)

Ahora solicita un cambio específico mientras referencias el personaje establecido:

[User Prompt]
Change the setting to a Tokyo street at night. Keep Sarah exactly
the same - her face, hair, earrings, necklace - but put her in
a casual outfit: black turtleneck and jeans.

[Think Block]
Preserve: Face shape, skin tone, freckles, eye shape, beauty mark,
earrings, necklace. Change: Setting to Tokyo night street, clothing
to casual black turtleneck and jeans. Add environmental lighting
from neon signs while maintaining face recognizability.

[Assistant Response]
Here's Sarah on a Tokyo street at night in casual wear.

Implementación en ComfyUI

Nodos Requeridos

ZImageTextEncoder

  • Nodo principal para el primer turno
  • Entradas: system_prompt, user_prompt, thinking_content, assistant_content
  • Salidas: conditioning, formatted_prompt, conversation

ZImageTurnBuilder

  • Añade turnos posteriores a la conversación
  • Entradas: previous (conversation), user_prompt, thinking_content
  • Salidas: conditioning (cuando clip conectado), conversation

Flujo de Trabajo Básico

CLIPLoader (Lumina 2)
       ↓
ZImageTextEncoder ──────────────────────→ KSampler
├── system_prompt: "Generate photorealistic..."
├── user_prompt: [Ficha de personaje]
├── thinking_content: [Razonamiento sobre características]
└── assistant_content: [Respuesta breve]

Flujo de Trabajo Multi-Turn

ZImageTextEncoder (Turno 1: Definición de Personaje)
       ↓ conversation
ZImageTurnBuilder (Turno 2: Primera Modificación)
       ↓ conversation
ZImageTurnBuilder (Turno 3: Segunda Modificación)
       ↓ conditioning
KSampler

Configuración

ParámetroValor Recomendado
add_think_blocktrue
is_final (TurnBuilder)true (en último turno)
template_presetphotorealistic o custom

Ejemplo Completo: Walter Finch

Veamos cómo crear un personaje consistente a través de múltiples imágenes.

Turno 1: Define a Walter

System Prompt:

Generate an image in classic American comic book style.
Bold outlines, flat colors with halftone shading.

User Prompt:

# Character Profile: Walter Finch (Wally)

## Core Identity
- Name: Walter Finch (Nickname: Wally)
- Gender: Male
- Age: 72
- Ethnicity: Caucasian (British descent)
- Skin Tone: Fair, warm sun-kissed glow on cheeks and nose

## Head & Face
- Face Shape: Oval, prominent jawline, receding hairline
- Eye Color: Ice-blue with subtle gold flecks around the iris
- Hair: Pure white, side-parted, full beard and mustache
- Glasses: Thin, gold-rimmed reading glasses
- Expression: Warm, gentle smile with a twinkle in his eye

## Attire
- Light gray and blue checkered button-down shirt
- Dark grey wool trousers
- Brown leather loafers

## Props
- Pale lavender ceramic mug of coffee
- Gold pocket watch chain visible in breast pocket

Think Block:

Creating Walter "Wally" Finch: 72 years old, British descent,
warm grandfather type. Key features: ice-blue eyes with gold
flecks (distinctive), gold-rimmed glasses, full white beard
side-parted hair. Must include: lavender coffee mug and gold
pocket watch chain. Style: American comic book with halftone.

Assistant Response:

Here's Walter Finch, the kindly British gentleman.

Turno 2: Modificar Color de Barba

User Prompt:

Let's change his beard to have some red mixed in with the white.
Keep everything else exactly the same.

Think Block:

Modifying beard only: change from pure white to red and white
mixed. Preserve: ice-blue eyes with gold flecks, gold-rimmed
glasses, facial structure, lavender mug, pocket watch chain,
checkered shirt, warm expression.

Turno 3: Añadir Nuevo Elemento

User Prompt:

Let's put a cute baby flying sloth hovering above his head too.

Think Block:

Adding element: baby flying sloth above Walter's head. Preserve
all of Walter's features including the red-white beard from
previous turn. The sloth should be small and cute, floating
or hovering position.

Resultado

La imagen final contiene a Walter con todas sus características definidas, la modificación de barba roja-blanca del turno 2, y la adición del perezoso volador del turno 3.


Por Qué Usar Qwen3 para Generación de Prompts Ayuda

El codificador de Z-Image es Qwen3-4B. Todos los modelos Qwen3 comparten el mismo tokenizador.

Cuando usas un modelo Qwen3 para generar tus descripciones de personajes:

  • Mismo vocabulario significa mismos IDs de tokens
  • Los matices semánticos se transfieren directamente
  • El razonamiento del bloque think prepara al codificador

Para mejores resultados, considera usar Qwen3-72B o más grande para generar fichas de personajes detalladas, luego aliméntalas directamente a Z-Image.

Ejemplo de System Prompt para Qwen3

You are a visual prompt engineer for Z-Image Turbo.

Generate detailed, visually-specific character descriptions.
Focus on concrete visual details - colors, textures, specific
features. Avoid abstract concepts.

Structure your output as:
1. <think> block with visual planning
2. Hierarchical character profile with sections

The output will be used directly as a Z-Image prompt.

Consejos para Mejor Consistencia

Sé Exhaustivamente Específico

No dejes nada al azar. Si quieres un color de ojos específico, di exactamente cuál es. "Ojos azules" es vago. "Azul hielo con sutiles destellos dorados alrededor del iris" es específico.

Usa el Bloque Think

El bloque think te permite declarar explícitamente qué preservar:

<think>
Changing: outfit to summer dress
Preserving: face shape, eye color (hazel with amber ring),
beauty mark on left cheek, ear piercings (two in left ear),
nose shape, lip fullness
</think>

Un Cambio Por Turno

No sobrecargues las modificaciones. Haz un cambio dirigido por turno:

Bien:

  • Turno 2: Cambiar atuendo
  • Turno 3: Cambiar fondo
  • Turno 4: Añadir accesorio

Arriesgado:

  • Turno 2: Cambiar atuendo Y fondo Y añadir accesorio Y alterar iluminación

Referencia Contenido Previo

En turnos posteriores, referencia brevemente qué debe permanecer:

Keep Sarah's face, hair, and jewelry exactly as before.
Only change her outfit to a red evening gown.

Marcadores de Estilo Consistentes

Mantén palabras clave de estilo consistentes en todos los turnos:

[Cada turno termina con]
photorealistic, 8k, professional photography, shot on Canon EOS R5

Limitaciones y Expectativas

Qué Funciona Bien

  • Preservar características distintivas (cicatrices, lunares, color de ojos)
  • Mantener estilo de ropa entre escenas
  • Mantener accesorios consistentes
  • Cambiar fondos mientras se preserva el sujeto

Qué Es Desafiante

  • Reproducción exacta de rostros (esto no es face-swap)
  • Consistencia perfecta en poses muy diferentes
  • Mantener consistencia entre estilos artísticos diferentes

Expectativas Realistas

La conversación multi-turn mejora la consistencia pero no garantiza perfección. Espera:

  • 80-90% de preservación de características con buen prompting
  • Necesidad ocasional de regeneración
  • Mejores resultados con personajes distintivos

Solución de Problemas

Características Que Se Desvían

Problema: El personaje se ve ligeramente diferente en cada generación.

Solución: Añade características distintivas más específicas. En lugar de "cabello marrón," usa "cabello marrón chocolate con reflejos cobrizos, cayendo hasta media espalda, ligera onda, partido de lado."

Modificaciones Que No Se Aplican

Problema: Los cambios solicitados no aparecen.

Solución: Sé explícito en el bloque think sobre qué cambia. Declara el cambio primero, luego lista qué permanece igual.

Inconsistencia de Estilo

Problema: El estilo artístico cambia entre turnos.

Solución: Incluye palabras clave de estilo en el system prompt y repítelas en la respuesta del asistente de cada turno.


Archivos de Plantilla

Z-Image incluye 140+ plantillas en ComfyUI. Para trabajo de personajes, prueba:

PlantillaMejor Para
photorealisticPersonajes realistas
character_designFichas de referencia
comic_americanEstilo cómic
anime_ghibliPersonajes estilo Ghibli
portrait_studioRetratos de estudio

Accede vía template_preset en ZImageTextEncoder.


Empieza Ahora

  1. Descarga los nodos de ComfyUI: Comfy-Org/z_image_turbo
  2. Crea una ficha de personaje usando la plantilla de arriba
  3. Empieza con Turno 1 - define todo
  4. Itera con Turno 2+ - haz cambios dirigidos

O practica prompting básico en z-image.vip.


Referencias


Explora Z-Image en z-image.vip — gratis, ilimitado.


Sigue Leyendo