Alibaba AIDC-AI が Ovis-Image を発表 - テキスト描画に最適化された7Bパラメータの画像生成モデル

2025年11月29日、Alibaba の AIDC-AI チームは、Ovis-U1 をベースに開発された7Bパラメータのテキスト画像生成モデル Ovis-Image を発表しました。このモデルは高品質なテキスト描画に特化して最適化されており、限られた計算リソースでも効率的に動作します。
モデルの特徴
コンパクトなスケールでのテキスト描画能力
Ovis-Image のパラメータサイズは 2B+7B です。Qwen-Image(7B+20B)などの大規模モデルと比較して、Ovis-Image はテキスト描画タスクで同等以上の性能を達成しています。CVTG-2K ベンチマークでは、Ovis-Image のテキスト描画精度(WA 平均)は 0.9200 に達し、Qwen-Image の 0.8288 や GPT4o の 0.8569 を大幅に上回りました。
テキスト重視シナリオでの高忠実度出力
このモデルは、テキストと画像の正確なアラインメントが必要なシナリオで優れた性能を発揮します:
- ポスターやバナーのデザイン
- ロゴやブランドグラフィックス
- UIモックアップ
- インフォグラフィックス
Ovis-Image は、異なるフォント、サイズ、アスペクト比において、読みやすく、正しいスペリング、意味的に一貫したテキストを生成します。
デプロイメントの容易さ
7Bパラメータサイズと合理化されたアーキテクチャにより、Ovis-Image は:
- 単一のハイエンド GPU で動作
- 低遅延のインタラクティブな使用をサポート
- 数百億パラメータのモデルをデプロイせずにテキスト描画が必要な本番環境に適合
パフォーマンス
CVTG-2K テキスト描画ベンチマーク
| モデル | パラメータ | WA (平均) | NED↑ | CLIPScore↑ |
|---|---|---|---|---|
| GPT4o | - | 0.8569 | 0.9478 | 0.7982 |
| Qwen-Image | 7B+20B | 0.8288 | 0.9116 | 0.8017 |
| TextCrafter | 11B+12B | 0.7370 | 0.8679 | 0.7868 |
| Ovis-Image | 2B+7B | 0.9200 | 0.9695 | 0.8368 |
LongText-Bench 長文テキスト描画
| モデル | パラメータ | 英語 | 中国語 |
|---|---|---|---|
| GPT4o | - | 0.956 | 0.619 |
| Qwen-Image | 7B+20B | 0.943 | 0.946 |
| Ovis-Image | 2B+7B | 0.922 | 0.964 |
中国語の長文テキスト描画において、Ovis-Image は 0.964 のスコアでテストされたすべてのモデルを上回りました。
一般的な画像生成能力
テキスト描画以外にも、Ovis-Image は DPG-Bench や GenEval などの一般的なテキスト画像生成ベンチマークで安定した性能を維持しています:
- DPG-Bench Overall: 86.59(Qwen-Image: 88.32)
- GenEval Overall: 0.84(GPT4o と同等)
- OneIG-EN Overall: 0.530(Qwen-Image の 0.539 に近い)
技術的背景
Ovis-Image は Ovis-U1 をベースに構築され、FLUX の設計要素を取り入れています。モデルは Python 3.10、Torch 2.6.0、Transformers 4.57.1 でテストされています。
開発チームは、簡単に導入できるよう専用の diffusers ブランチも公開しています。
試用方法
ユーザーは以下の方法で Ovis-Image を体験できます:
- オンラインデモ: Hugging Face Space でモデルを直接試用
- ローカルデプロイメント: PyTorch または Diffusers ライブラリを使用してローカル推論を実行
関連リンク
- 論文:https://arxiv.org/abs/2511.22982
- モデル:https://huggingface.co/AIDC-AI/Ovis-Image-7B
- オンラインデモ:https://huggingface.co/spaces/AIDC-AI/Ovis-Image-7B
- GitHub:https://github.com/AIDC-AI/Ovis-Image