Higgs TTS 3: Boson AIの4B多言語音声モデル、100以上の言語をサポート

Higgs TTS 3は、Boson AIが開発した4Bパラメータの多言語テキスト読み上げモデルです。100以上の言語に対応し、表現力豊かな音声生成、ゼロショット音声クローン、感情・プロソディ・効果音の細かな制御を実現します。

概要

Boson AIが2026年6月4日にリリースしたHiggs TTS 3（モデルID: bosonai/higgs-tts-3-4b）は、40億パラメータの強力なテキスト読み上げモデルであり、特に音声エージェントおよび会話型AIアプリケーション向けに設計されています。単にテキストを「読む」だけの従来のTTSシステムとは異なり、Higgs TTS 3は「話す」ように構築されており、感情のニュアンスを帯びた表現豊かで自然な会話音声を生成します。

本モデルは、Qwen3をベースとしたHiggsマルチモーダルアーキテクチャ上に構築されており、テキストトークンとオーディオトークンをインターリーブして消費する自己回帰型デコーダを採用しています。オーディオはHiggs Tokenizerによって、25fpsで8つのコードブックに、スタガード遅延パターンを用いてエンコードされ、その後高品質な波形にデコードされます。

主な特徴

| 特徴 | 説明 | |

多言語サポート

Higgs TTS 3は100以上の言語をサポートしており、主要な言語ファミリーを含みます:

ヨーロッパ系: 英語、スペイン語、フランス語、ドイツ語、イタリア語、ポルトガル語、ロシア語、ポーランド語、オランダ語、スウェーデン語、ノルウェー語、デンマーク語、フィンランド語、ギリシャ語、チェコ語、ルーマニア語、ハンガリー語、ウクライナ語など多数
アジア系: 中国語（北京語・広東語）、日本語、韓国語、ヒンディー語、ベンガル語、タミル語、テルグ語、ウルドゥー語、ベトナム語、タイ語、インドネシア語、マレー語、ビルマ語、クメール語、ラオス語など多数
中東・アフリカ系: アラビア語、ヘブライ語、トルコ語、ペルシャ語（ファルシ語）、スワヒリ語、アムハラ語、ハウサ語、ヨルバ語、イボ語、ズールー語、コサ語など多数
その他: タガログ語、ネパール語、シンハラ語、グルジア語、アルメニア語、アゼルバイジャン語、カザフ語、ウズベク語など多数

表現制御

Higgs TTS 3は、入力テキストに埋め込まれたインライン制御タグを通じて、音声出力の細かな制御を提供します:

21の感情（文単位）

affection, amusement, anger, arousal, awe, bitterness, confusion, contemplation, contentment, determination, disgust, elation, enthusiasm, fear, helplessness, longing, pride, relief, sadness, shame, surprise

プロソディ制御（10種類）

速度制御: speed_very_slow, speed_slow, speed_fast, speed_very_fast ピッチ: pitch_low, pitch_high 表現力: expressive_more, expressive_less, pause, long_pause

インライン効果音

効果音はインラインでトリガーできます: cough、laughter、sigh、applause、bell、knockなど多数。

使用例

<|emotion:elation|>ようこそ、私たちは皆さんをお迎えできて本当に興奮しています！
<|sfx:cough|>えー、それでは本日のプレゼンテーションを始めます。
<|style:whispering|>もっと近づいて、ちょっと秘密を教えたいんだ。

ゼロショット音声クローン

本モデルは、短い参照オーディオサンプルからゼロショット音声クローンをサポートしており、追加のファインチューニングなしでターゲット音声による音声合成が可能です。これにより以下の用途に適しています:

一貫したキャラクター音声を持つ音声エージェントアプリケーション
単一音声での多言語コンテンツ制作
パーソナライズされた音声合成

入手方法

Hugging Face: bosonai/higgs-tts-3-4b
ブログ記事: Boson AI Blog: Higgs Audio v3

Higgs TTS 3は、カスタムライセンスのもとで研究および非商用利用向けに公開されています。禁止される使用法には、同意なしの音声クローン、なりすまし、詐欺、選挙での騙り、生体認証監視などが含まれます。

まとめ

Higgs TTS 3は、40億パラメータのバックボーンに広範な言語カバレッジ、表現豊かな感情制御、ゼロショット音声クローン機能を組み合わせた、オープンウェイトの多言語音声合成における重要な進歩です。音声エージェントや多言語音声アプリケーションを構築する開発者にとって、最先端の表現力を備えた魅力的な研究グレードのソリューションを提供します。