Alibaba AIDC-AI が Ovis-Image を発表 - テキスト描画に最適化された7Bパラメータの画像生成モデル

Ovis-Image

2025年11月29日、Alibaba の AIDC-AI チームは、Ovis-U1 をベースに開発された7Bパラメータのテキスト画像生成モデル Ovis-Image を発表しました。このモデルは高品質なテキスト描画に特化して最適化されており、限られた計算リソースでも効率的に動作します。

モデルの特徴

コンパクトなスケールでのテキスト描画能力

Ovis-Image のパラメータサイズは 2B+7B です。Qwen-Image（7B+20B）などの大規模モデルと比較して、Ovis-Image はテキスト描画タスクで同等以上の性能を達成しています。CVTG-2K ベンチマークでは、Ovis-Image のテキスト描画精度（WA 平均）は 0.9200 に達し、Qwen-Image の 0.8288 や GPT4o の 0.8569 を大幅に上回りました。

テキスト重視シナリオでの高忠実度出力

このモデルは、テキストと画像の正確なアラインメントが必要なシナリオで優れた性能を発揮します：

ポスターやバナーのデザイン
ロゴやブランドグラフィックス
UIモックアップ
インフォグラフィックス

Ovis-Image は、異なるフォント、サイズ、アスペクト比において、読みやすく、正しいスペリング、意味的に一貫したテキストを生成します。

デプロイメントの容易さ

7Bパラメータサイズと合理化されたアーキテクチャにより、Ovis-Image は：

単一のハイエンド GPU で動作
低遅延のインタラクティブな使用をサポート
数百億パラメータのモデルをデプロイせずにテキスト描画が必要な本番環境に適合

パフォーマンス

CVTG-2K テキスト描画ベンチマーク

モデル	パラメータ	WA (平均)	NED↑	CLIPScore↑
GPT4o	-	0.8569	0.9478	0.7982
Qwen-Image	7B+20B	0.8288	0.9116	0.8017
TextCrafter	11B+12B	0.7370	0.8679	0.7868
Ovis-Image	2B+7B	0.9200	0.9695	0.8368

LongText-Bench 長文テキスト描画

モデル	パラメータ	英語	中国語
GPT4o	-	0.956	0.619
Qwen-Image	7B+20B	0.943	0.946
Ovis-Image	2B+7B	0.922	0.964

中国語の長文テキスト描画において、Ovis-Image は 0.964 のスコアでテストされたすべてのモデルを上回りました。

一般的な画像生成能力

テキスト描画以外にも、Ovis-Image は DPG-Bench や GenEval などの一般的なテキスト画像生成ベンチマークで安定した性能を維持しています：

DPG-Bench Overall: 86.59（Qwen-Image: 88.32）
GenEval Overall: 0.84（GPT4o と同等）
OneIG-EN Overall: 0.530（Qwen-Image の 0.539 に近い）

技術的背景

Ovis-Image は Ovis-U1 をベースに構築され、FLUX の設計要素を取り入れています。モデルは Python 3.10、Torch 2.6.0、Transformers 4.57.1 でテストされています。

開発チームは、簡単に導入できるよう専用の diffusers ブランチも公開しています。

試用方法

ユーザーは以下の方法で Ovis-Image を体験できます：

オンラインデモ: Hugging Face Space でモデルを直接試用
ローカルデプロイメント: PyTorch または Diffusers ライブラリを使用してローカル推論を実行

OpenMOSS、MOVA をリリース - オープンソース音声・動画同期生成モデル