Higgs TTS 3: Многоязычная модель речи от Boson AI с 4 млрд параметров и поддержкой более 100 языков

Higgs TTS 3: это многоязычная модель преобразования текста в речь с 4 млрд параметров от Boson AI, которая поддерживает более 100 языков, обеспечивает выразительную генерацию речи, клонирование голоса без обучения и тонкий контроль над эмоциями, просодией и звуковыми эффектами.

Обзор

Выпущенная Boson AI 4 июня 2026 года, Higgs TTS 3 (идентификатор модели: bosonai/higgs-tts-3-4b): это мощная модель преобразования текста в речь с 4 миллиардами параметров, предназначенная специально для голосовых агентов и диалогового ИИ. В отличие от традиционных TTS-систем, которые просто «читают» текст, Higgs TTS 3 создана для того, чтобы «говорить»: генерировать выразительную, естественную разговорную речь с эмоциональными нюансами.

Модель построена на многофункциональной архитектуре Higgs на основе Qwen3, с авторегрессионным декодером, который обрабатывает чередующиеся текстовые и аудиотокены. Аудио кодируется токенизатором Higgs в 8 кодовых книг с частотой 25 кадров в секунду, используя ступенчатую задержку, а затем декодируется обратно в высококачественную звуковую волну.

Ключевые особенности

| Особенность | Описание | |

Поддержка языков

Higgs TTS 3 поддерживает более 100 языков, включая основные языковые семьи:

Европейские: английский, испанский, французский, немецкий, итальянский, португальский, русский, польский, нидерландский, шведский, норвежский, датский, финский, греческий, чешский, румынский, венгерский, украинский и многие другие
Азиатские: китайский (мандарин/кантонский), японский, корейский, хинди, бенгальский, тамильский, телугу, урду, вьетнамский, тайский, индонезийский, малайский, бирманский, кхмерский, лаосский и другие
Ближневосточные / Африканские: арабский, иврит, турецкий, персидский (фарси), суахили, амхарский, хауса, йоруба, игбо, зулу, коса и другие
Другие: тагальский, непальский, сингальский, грузинский, армянский, азербайджанский, казахский, узбекский и многие другие

Управление выразительностью

Higgs TTS 3 обеспечивает тонкий контроль над речевым выводом с помощью встроенных управляющих тегов, вставляемых во входной текст:

21 эмоция (на уровне предложения)

affection (нежность), amusement (веселье), anger (гнев), arousal (возбуждение), awe (благоговение), bitterness (горечь), confusion (замешательство), contemplation (размышление), contentment (удовлетворение), determination (решимость), disgust (отвращение), elation (восторг), enthusiasm (энтузиазм), fear (страх), helplessness (беспомощность), longing (тоска), pride (гордость), relief (облегчение), sadness (грусть), shame (стыд), surprise (удивление)

Управление просодией (10)

Скорость: speed_very_slow (очень медленно), speed_slow (медленно), speed_fast (быстро), speed_very_fast (очень быстро) Высота тона: pitch_low (низкий), pitch_high (высокий) Выразительность: expressive_more (более выразительно), expressive_less (менее выразительно), pause (пауза), long_pause (длинная пауза)

Встроенные звуковые эффекты

Звуковые эффекты можно запускать в тексте: cough (кашель), laughter (смех), sigh (вздох), applause (аплодисменты), bell (звонок), knock (стук) и многие другие.

Пример использования

<|emotion:elation|>Добро пожаловать на борт, мы абсолютно счастливы видеть вас здесь!
<|sfx:cough|>Кхм, позвольте начать сегодняшнюю презентацию.
<|style:whispering|>Подойдите ближе, у меня есть маленький секрет.

Клонирование голоса без обучения

Модель поддерживает клонирование голоса без обучения по короткому эталонному аудиофрагменту, что позволяет синтезировать речь заданным голосом без дополнительного обучения. Это делает её подходящей для:

Голосовых агентов с постоянными голосами персонажей
Создания многоязычного контента единым голосом
Персонализированного синтеза речи

Доступность

Hugging Face: bosonai/higgs-tts-3-4b
Статья в блоге: Boson AI Blog: Higgs Audio v3

Higgs TTS 3 выпущена для исследовательского и некоммерческого использования по специальной лицензии. Запрещённое использование включает клонирование голоса без согласия, выдачу себя за другое лицо, мошенничество, обман избирателей и биометрическую слежку.

Резюме

Higgs TTS 3 представляет собой значительный шаг вперёд в области открытого многоязычного синтеза речи, объединяя основу с 4 млрд параметров, обширное языковое покрытие, выразительный контроль эмоций и возможность клонирования голоса без обучения. Для разработчиков, создающих голосовых агентов или многоязычные речевые приложения, эта модель предлагает убедительное исследовательское решение с передовой выразительностью.