Skip to content
Ayuda a Construir una Mejor Base de Conocimientos de ComfyUI Conviértete en Patrocinador

Guía completa de flujos de trabajo para generación de música con ACE-Step en ComfyUI

ACE-Step es un modelo base de generación musical de código abierto desarrollado conjuntamente por el equipo chino StepFun y ACE Studio, diseñado para proporcionar a los creadores musicales herramientas eficientes, flexibles y de alta calidad para la generación y edición de música.

El modelo se distribuye bajo licencia Apache-2.0, lo que permite su uso comercial gratuito.

Como modelo base potente para la generación musical, ACE-Step ofrece amplias capacidades de extensión. A través de técnicas de ajuste fino como LoRA y ControlNet, los desarrolladores pueden personalizar el entrenamiento del modelo según sus necesidades específicas. Ya sea para edición de audio, síntesis de voz, producción de acompañamiento, clonación de voz o transformación de estilos, ACE-Step proporciona soporte técnico estable y confiable. Este diseño de arquitectura flexible simplifica enormemente el proceso de desarrollo de aplicaciones musicales con IA, permitiendo que más creadores apliquen rápidamente la tecnología de IA a la creación musical.

Actualmente, ACE-Step ha publicado códigos de entrenamiento relacionados, incluido el entrenamiento de modelos LoRA, mientras que el código de entrenamiento para ControlNet se lanzará progresivamente en el futuro. Puedes visitar su Github para obtener más detalles.

Implementación de ACE-Step en ComfyUI y explicación sobre el soporte multilingüe

En la implementación multilingüe del modelo ACE-Step, el proceso principal consiste en convertir diferentes idiomas a caracteres en inglés correspondientes antes de generar la música. Sin embargo, actualmente en el soporte nativo de ComfyUI no se ha implementado completamente este paso de conversión de diferentes idiomas a caracteres en inglés, solo se ha implementado la conversión del katakana japonés como puede verse en este commit. Implementar este paso requiere dependencias adicionales, y añadirlas imprudentemente a las dependencias centrales podría causar varios problemas potenciales y conflictos con nodos personalizados. Por lo tanto, actualmente en ComfyUI no podemos usar directamente diferentes idiomas como entrada, sino que necesitamos convertirlos a los caracteres en inglés correspondientes.

Sin embargo, actualmente hay autores de nodos personalizados que han implementado la conversión de idiomas correspondiente, permitiendo la entrada directa en múltiples idiomas. En este documento, combinaremos flujos de trabajo nativos y nodos personalizados para completar el flujo de trabajo de ACE-Step, y es posible que ya hayas descargado este archivo. A continuación, se explican dos formas de implementar ACE-Step en ComfyUI.

1. Soporte nativo de ComfyUI

  • Ventaja: Uso conveniente y sencillo del modelo combinado “All in one”
  • Desventaja: No soporta entrada multilingüe directa, es necesario convertir el idioma correspondiente a caracteres en inglés antes de generar música

Actualmente, ComfyUI ya soporta nativamente ACE-Step, pero la desventaja es que no admite entrada multilingüe directa.

2. Implementación del nodo personalizado ComfyUI_ACE-Step

ComfyUI_ACE-Step implementa principalmente la entrada directa multilingüe, y admite tanto letras de canciones multilingües como indicaciones (prompts) en varios idiomas.

  • Ventaja: Soporta entrada multilingüe directa, uso sencillo
  • Desventaja: No utiliza el modelo combinado, requiere descargar múltiples modelos

Este nodo personalizado actualmente ha añadido en sus dependencias centrales soporte para traducción de japonés, chino y coreano, por lo que puedes usar directamente múltiples idiomas para generar música. Además, el autor también ha optimizado el procesamiento para entrada mixta de varios idiomas.

En el flujo de trabajo de este tutorial, añadiremos el nodo ACE-Step Lyrics Language Switch de ComfyUI_ACE-Step, que facilita enormemente la entrada de idiomas cuando necesitas usar entrada multilingüe.

Sin embargo, durante las pruebas descubrimos que este nodo de conversión de idiomas parece tener algunos problemas con la conversión del japonés, por lo que actualmente, si deseas usar japonés para generar canciones, utiliza directamente los caracteres katakana japoneses.

Vista previa de conversión de idiomas con ACE-Step Lyrics Language Switch

Además, en el flujo de trabajo que proporciono, el nodo correspondiente está en modo Bypass por defecto, por lo que si necesitas activar la entrada multilingüe, deberás hacer clic derecho en el nodo y cambiar su modo a Always.

Cancelar Bypass en ComfyUI

💡

Debido a las recientes actualizaciones de Comfy al flujo de trabajo ACE-Step con soporte nativo, las plantillas en la versión Portable aún no se han actualizado, por lo que actualmente (2025-05-18) este tutorial probablemente sea el primero disponible en toda la red con soporte multilingüe y flujos de trabajo optimizados. Después de todo, las plantillas relacionadas también están siendo mantenidas por ComfyUI Wiki

Preparación antes de comenzar

  1. Actualiza tu ComfyUI a la versión más reciente para asegurar que tienes el soporte nativo correspondiente
  2. (Opcional, si necesitas entrada multilingüe directa) Instala el plugin ComfyUI_ACE-Step (instalación directa mediante ComfyUI Manager)
  3. Descarga el modelo ace_step_v1_3.5b.safetensors y guárdalo en la carpeta ComfyUI/models/checkpoints

Generación de audio a partir de texto con ACE-Step en ComfyUI

1. Descarga del archivo de flujo de trabajo

Haz clic en el botón de abajo para descargar el archivo de flujo de trabajo correspondiente, arrastrándolo a ComfyUI podrás cargar la información del flujo de trabajo. El flujo de trabajo ya incluye información de descarga del modelo.

2. Completar la ejecución del flujo de trabajo paso a paso

  1. Asegúrate de que el nodo Load Checkpoints haya cargado el modelo ace_step_v1_3.5b.safetensors
  2. (Opcional) En el nodo EmptyAceStepLatentAudio puedes establecer la duración de la música generada
  3. (Opcional) En el nodo ACE-Step Lyrics Language Switch introduce las letras correspondientes. Si no sabes cómo hacerlo, puedes consultar la página del proyecto ACE-Step. Si necesitas entrada en japonés, elimina esta parte y usa directamente el nodo nativo de ComfyUI para introducir katakana japonés.
  4. (Opcional) En el campo tags de TextEncodeAceStepAudio, introduce el estilo musical y otros aspectos
  5. (Opcional) En el nodo LatentOperationTonemapReinhard, puedes ajustar el multiplier para modificar el volumen de la voz (cuanto mayor sea el número, más evidente será el volumen de la voz)
  6. Haz clic en el botón Run o usa el atajo de teclado Ctrl(cmd) + Enter para ejecutar la generación de audio
  7. Una vez completado el flujo de trabajo, podrás ver el audio generado en el nodo Save Audio. Puedes hacer clic para reproducirlo, y el audio correspondiente también se guardará en ComfyUI/output/audio (el nombre del subdirectorio lo determina el nodo Save Audio).

ACE-Step en ComfyUI: Audio a Audio

Al usar el flujo de trabajo de audio a audio de ACE Step, puedes, de manera similar al flujo de trabajo de imagen a imagen, introducir un fragmento de música y utilizar el flujo de trabajo que se muestra a continuación para lograr un remuestreo y generación de música. De la misma manera, también puedes ajustar el grado de diferencia con el audio original controlando el parámetro denoise de Ksampler.

Puedes lograr:

  • Ajustes al estilo musical
  • Modificaciones a partes de la letra, etc.

Puedes ver más ejemplos en la página del proyecto ACE-Step

1. Descarga del archivo de flujo de trabajo

Haz clic en el botón de abajo para descargar el archivo de flujo de trabajo correspondiente, arrastrándolo a ComfyUI podrás cargar la información del flujo de trabajo

Podemos usar el audio del flujo de trabajo de texto a audio como audio de entrada

2. Completar la ejecución del flujo de trabajo paso a paso

Flujo de trabajo de audio a audio de ACE-Step

  1. Asegúrate de que el nodo Load Checkpoints haya cargado el modelo ace_step_v1_3.5b.safetensors
  2. Sube el audio para editar en el nodo LoadAudio
  3. (Opcional) En el nodo ACE-Step Lyrics Language Switch introduce las letras modificadas. Puedes consultar la página del proyecto ACE-Step
  4. (Opcional) En el campo tags de TextEncodeAceStepAudio, introduce el estilo musical correspondiente
  5. (Opcional) Modifica el parámetro denoise del nodo KSampler (cuanto mayor sea el número, mayor será la diferencia con el audio original)
  6. Haz clic en el botón Run o usa el atajo de teclado Ctrl(cmd) + Enter para ejecutar la generación de audio
  7. Una vez completado el flujo de trabajo, podrás ver el audio generado en el nodo Save Audio. Puedes hacer clic para reproducirlo, y el audio correspondiente también se guardará en ComfyUI/output/audio (el nombre del subdirectorio lo determina el nodo Save Audio).

LoRA con ACE-Step en ComfyUI

Actualmente, ACE-Step ha lanzado oficialmente un modelo LoRA con estilo RAP chino. Puedes visitar ACE-Step/ACE-Step-v1-chinese-rap-LoRA para descargar el modelo LoRA correspondiente. Recuerda renombrarlo a ace-step-v1-chinese-rap-lora.safetensors. Antes de comenzar, necesitas descargar manualmente el archivo correspondiente y guardarlo en la carpeta ComfyUI/models/loras.

1. Descarga del archivo de flujo de trabajo

2. Completar la ejecución del flujo de trabajo paso a paso

Flujo de trabajo de LoRA para ACE-Step en ComfyUI

  1. Asegúrate de que el nodo Load Checkpoints haya cargado el modelo ace_step_v1_3.5b.safetensors
  2. Añade el modelo ace-step-v1-chinese-rap-lora.safetensors en el nodo Load LoRA
  3. Las otras opciones de modificación son consistentes con el texto a vídeo, etc. Haz clic en el botón Run o usa el atajo de teclado Ctrl(cmd) + Enter para ejecutar la generación de audio.
  4. Una vez completado el flujo de trabajo, podrás ver el audio generado en el nodo Save Audio. Puedes hacer clic para reproducirlo, y el audio correspondiente también se guardará en ComfyUI/output/audio (el nombre del subdirectorio lo determina el nodo Save Audio).

Extensiones musicales de ACE-Step

[Por añadir]

Guía de indicaciones (prompts) para ACE-Step

ACE actualmente utiliza dos tipos de indicaciones (prompts): tags y lyrics.

  • tags: Se utilizan principalmente para describir el estilo musical, escenario, etc. Similar a los prompts que usamos habitualmente en otras generaciones, describe principalmente el estilo general y los requisitos del audio, separados por comas en inglés.
  • lyrics: Se utilizan principalmente para describir las letras, admite etiquetas de estructura de letras como [verse] (estrofa), [chorus] (coro) y [bridge] (puente) para distinguir diferentes partes de la letra, también se puede ingresar el nombre del instrumento en caso de música puramente instrumental.

Puedes encontrar una amplia variedad de ejemplos de tags y lyrics en la página principal del modelo ACE-Step. Puedes consultar estos ejemplos para probar las indicaciones correspondientes. Las siguientes indicaciones también han sido recopiladas en la documentación oficial de ComfyUI, basadas principalmente en la página principal del proyecto ACE-Step. Te recomendamos visitar su documentación oficial para aprender cómo redactar indicaciones.

Etiquetas (tags/prompt)

Estilos musicales principales

Usa combinaciones de etiquetas cortas para generar música de estilos específicos:

  • electronic
  • rock
  • pop
  • funk
  • soul
  • cyberpunk
  • Acid jazz
  • electro
  • em
  • soft electric drums
  • melodic
Más ejemplos de combinaciones de estilos musicales
  • DUBSTEP, DARKNESS, FEAR, TERROR (repetir etiquetas puede intensificar el efecto)
  • dark, death rock, metal, hardcore, electric guitar, powerful, bass, drums, 110 bpm, G major
  • Cuban music, salsa, son, Afro-Cuban, traditional Cuban
  • alternative rock, pop, rock
  • dark electro, industrial techno, gothic rave
  • disco
  • electronic rap
  • country rock, folk rock, southern rock, bluegrass, pop
  • melancholic, world, sad

Tipos de escenarios

Combina escenarios de uso específico y ambiente para generar música que se adapte a la atmósfera correspondiente:

  • background music for parties (música de fondo para fiestas)
  • radio broadcasts (música para transmisiones de radio)
  • workout playlists (música para listas de reproducción de ejercicio)

Elementos instrumentales

  • saxophone, jazz
  • piano, violin
  • 808 bass, sub bassline
  • orchestral, synthesizer, violin, viola, cello
  • phonk, russian dark accordion, russian psaltery, russian harmonica

Tipos de voces

  • female voice
  • male voice
  • clean vocals
  • crystal-clear soprano voice
  • deep male voice

Terminología profesional

Usa algunos términos profesionales comunes en música para controlar con precisión los efectos musicales:

  • 110 bpm, 140 bpm, 160 bpm
  • fast tempo
  • slow tempo
  • loops
  • fills
  • acoustic guitar
  • electric bass
  • G major, B flat major, D minor

Parámetros de control avanzado

Control de variantes

Controla el grado de diferencia entre la música generada y el estilo original:

  • variance=0.1 (similitud muy alta, casi idéntica)
  • variance=0.3 (cambio moderado, mantiene el estilo básico)
  • variance=0.5 (cambio medio, diferencias notables)
  • variance=0.7 (cambio mayor, transformación de estilo evidente)
Repintado de audio (Repaint)

Permite modificar aspectos o áreas específicas del audio mientras se mantiene el resto:

  • change singing gender
  • change style
  • change lyrics

Palabras clave para tipos especiales de música

  • Voz pura/a cappella: Utiliza la etiqueta “a cappella”, las letras pueden usar combinaciones de vocales (como “aaaaaaaa, eeeeeeeee”)
  • Control de rap/ritmo: Utiliza “b-box, deep male voice, trap, hip-hop, super fast tempo”
  • Música experimental: Puede usar entradas no convencionales como repeticiones de vocales o formatos de texto especiales
  • Música puramente instrumental: Usa “[inst]” en la sección de lyrics

Formatos de entrada experimentales

Puedes probar utilizando un formato HTML más estructurado para describir la música, por ejemplo:

<SONG_PROMPT>
  <header>
    [STYLE: Electro-Acid House] [MOOD: Energetic, Raw, Hypnotic, Futuristic]
    [INSTRUMENTATION: Acid Basslines, Punchy Kicks, Snappy Claps, Crisp Hi-Hats]
    [TEMPO: 128 BPM] [PRODUCTION: Raw Energy, Dynamic Acid Sequences]
  </header>
  <SONG_MODULES>
    <INTRO>
      [Punchy kick and filtered acid bassline create a raw, pulsating groove.]
    </INTRO>
    <BUILD_UP_1>
      [Acid bassline evolves with increasing resonance and modulation.]
    </BUILD_UP_1>
    <DROP_1>
      [Full-power acid bassline dominates with high resonance and distortion.]
    </DROP_1>
  </SONG_MODULES>
</SONG_PROMPT>

Letras (lyrics)

Etiquetas de estructura de letras

  • [intro]
  • [verse]
  • [pre-chorus]
  • [chorus]
  • [bridge]
  • [outro]
  • [hook]
  • [refrain]
  • [interlude]
  • [breakdown]
  • [ad-lib]

Música puramente instrumental

Para música puramente instrumental, puedes usar en la sección de lyrics: [inst] O especificar partes de interpretación instrumental:

[verse]
[chorus]
[solo]
[verse]
[chorus]
[outro]

Soporte multilingüe

  • ACE-Step V1 admite múltiples idiomas. En uso real, ACE-Step obtendrá los caracteres en inglés convertidos de diferentes idiomas y luego generará música.
  • En ComfyUI no hemos implementado completamente la conversión de todos los idiomas a caracteres en inglés, actualmente solo se ha implementado la conversión de caracteres hiragana y katakana japoneses. Por lo tanto, si necesitas usar múltiples idiomas para generar música relacionada, primero debes convertir el idioma correspondiente a caracteres en inglés, y luego ingresar la abreviatura del código de idioma correspondiente al comienzo de lyrics, como chino [zh], coreano [ko], etc., o usar el nodo ACE-Step Lyrics Language Switch mencionado en este artículo para completar la conversión del idioma correspondiente.

Por ejemplo:

[verse]

[zh]wo3zou3guo4shen1ye4de5jie1dao4
[zh]leng3feng1chui1luan4si1nian4de5piao4liang4wai4tao4
[zh]ni3de5wei1xiao4xiang4xing1guang1hen3xuan4yao4
[zh]zhao4liang4le5wo3gu1du2de5mei3fen1mei3miao3

[chorus]

[verse]​
[ko]hamkke si-kkeuleo-un sesang-ui sodong-eul pihae​
[ko]honja ogsang-eseo dalbich-ui eolyeompus-ileul balaboda​
[ko]niga salang-eun lideum-i ganghan eum-ag gatdago malhaess-eo​
[ko]han ta han tamada ma-eum-ui ondoga eolmana heojeonhanji ijge hae

[bridge]
[es]cantar mi anhelo por ti sin ocultar
[es]como poesía y pintura, lleno de anhelo indescifrable
[es]tu sombra es tan terca como el viento, inborrable
[es]persiguiéndote en vuelo, brilla como cruzar una mar de nubes

[chorus]
[fr]que tu sois le vent qui souffle sur ma main
[fr]un contact chaud comme la douce pluie printanière
[fr]que tu sois le vent qui s'entoure de mon corps
[fr]un amour profond qui ne s'éloignera jamais

Actualmente, ACE-Step admite 19 idiomas, pero los siguientes diez idiomas tienen mejor soporte:

  • English (Inglés)
  • Chinese: [zh] (Chino)
  • Russian: [ru] (Ruso)
  • Spanish: [es] (Español)
  • Japanese: [ja] (Japonés)
  • German: [de] (Alemán)
  • French: [fr] (Francés)
  • Portuguese: [pt] (Portugués)
  • Italian: [it] (Italiano)
  • Korean: [ko] (Coreano)

Ejemplos de edición de letras

En el flujo de trabajo de audio a audio, puedes modificar letras específicas con precisión:

  • “When I was young” -> “when you were kid”
  • “When I was young” -> “When I was old”
  • “I’d listen to the radio” -> “I’d listen to the spotify”
  • “It made me smile” -> “It made me cry”

También puedes realizar conversiones de idioma, manteniendo la misma melodía y estilo:

  • “When I was young” -> “Quand j’étais jeune” (francés)
  • “When I was young” -> “In meiner Jugend” (alemán)
  • “When I was young” -> “子供の頃に” (japonés)
  • “When I was young” -> “내가 어렸을 때” (coreano)
  • “When I was young” -> “我小的时候” (chino)

Sin embargo, la entrada en los nodos nativos de ComfyUI puede ser complicada, se recomienda usar el nodo ACE-Step Lyrics Language Switch para completar la conversión del idioma correspondiente.

Recursos relacionados con ACE-Step