大規模マルチモーダルモデル評価スイート

lmms-eval で大規模マルチモーダルモデル（LMMs）の開発を加速。テキスト、画像、ビデオ、オーディオのタスクをサポートしています。

🏠 LMMs-Lab ホームページ | 🤗 Huggingface データセット | discord/lmms-eval

📖 サポートタスク (100+) | 🌟 サポートモデル (30+) | 📚 ドキュメント

お知らせ

マルチモーダルモデルの評価は、見た目以上に困難です。何百ものベンチマークが存在しますが、それらを実行するための標準的な方法はありません。ラボ間で結果が異なり、比較の信頼性が低下します。私たちは、個々の努力ではなく、体系的なプロセスを通じてこの問題の解決に取り組んできました。

2026年1月 - 既存のベンチマークにおいて空間的および構成的な推論が依然として盲点であることを認識しました。CaptionQA、SpatialTreeBench、SiteBench、ViewSpatial を追加しました。リモート評価パイプラインを実行するチームのために、HTTP評価サーバー（#972）を導入しました。また、統計的な厳密さを必要とする方のために、CLT（中心極限定理）とクラスター化標準誤差の推定（#989）を追加しました。

2025年10月 (v0.5) - 音声評価が課題となっていました。モデルは音声を認識できましたが、それをテストするための一貫した方法がありませんでした。このリリースでは、包括的な音声評価、効率のためのレスポンスキャッシング、および音声、視覚、推論にわたる 50 以上のベンチマークバリアントが導入されました。リリースノート。

以下は、素晴らしいコントリビューターによって追加された最近のタスク、モデル、および機能の時系列リストです。

[2025-01] 🎓🎓 新しいベンチマークをリリースしました：Video-MMMU: Evaluating Knowledge Acquisition from Multi-Discipline Professional Videos。詳細はプロジェクトページを参照してください。
[2025-07] 🚀🚀 lmms-eval-0.4 をリリースしました。詳細はリリースノートをご覧ください。

なぜ `lmms-eval` なのか？

私たちは、1960年代の月面着陸のような熱意を持って、人工汎用知能（AGI）の創造に向けたエキサイティングな旅を進めています。この旅は、人間のさまざまなタスクを理解、学習、実行できる複雑なシステムである、高度な大規模言語モデル（LLMs）と大規模マルチモーダルモデル（LMMs）によって推進されています。

これらのモデルがどれほど高度であるかを測定するために、さまざまな評価ベンチマークを使用します。これらのベンチマークは、これらのモデルの能力を理解し、AGIの達成にどれだけ近づいているかを示すツールです。しかし、これらのベンチマークを見つけて使用することは大きな課題です。

言語モデルの分野では、lm-evaluation-harness の先例が貴重な道標となっています。私たちは lm-evaluation-harness の精巧で効率的なデザインを吸収し、LMMの一貫した効率的な評価のために丹念に作られた評価フレームワーク lmms-eval を導入しました。

インストール

uv の使用（一貫した環境に推奨）

すべての開発者がまったく同じパッケージバージョンを使用できるように、uv をパッケージ管理に使用しています。まず、uv をインストールしてください：

curl -LsSf https://astral.sh/uv/install.sh | sh

一貫した環境での開発：

git clone https://github.com/EvolvingLMMs-Lab/lmms-eval
cd lmms-eval
# 推奨
uv pip install -e ".[all]"
# uv sync を使用したい場合
# uv sync  # これは uv.lock から環境を作成/更新します

コマンドの実行：

uv run python -m lmms_eval --help  # uv run で任意のコマンドを実行

代替インストール方法

Git からの直接使用：

uv venv eval
uv venv --python 3.12
source eval/bin/activate
# このインストール方法を使用する場合、独自のタスク yaml を追加してインクルードする必要があるかもしれません
uv pip install git+https://github.com/EvolvingLMMs-Lab/lmms-eval.git

使用方法

詳細な例は examples/models を参照してください

OpenAI互換モデルの評価

bash examples/models/openai_compatible.sh
bash examples/models/xai_grok.sh

vLLM の評価

bash examples/models/vllm_qwen2vl.sh

LLaVA-OneVision の評価

bash examples/models/llava_onevision.sh

LLaVA-OneVision1_5 の評価

bash examples/models/llava_onevision1_5.sh

LLaMA-3.2-Vision の評価

bash examples/models/llama_vision.sh

Qwen2.5-VL の評価

bash examples/models/qwen2_5_vl.sh

大きなモデル（llava-next-72b）のテンソル並列による評価

bash examples/models/tensor_parallel.sh

大きなモデル（llava-next-72b）の SGLang による評価

bash examples/models/sglang.sh

その他のパラメータ

python3 -m lmms_eval --help

環境変数

実験や評価を実行する前に、以下の環境変数をエクスポートすることをお勧めします。一部の変数は特定のタスクの実行に必要です。

export OPENAI_API_KEY="<YOUR_API_KEY>"
export HF_HOME="<Path to HF cache>" 
export HF_TOKEN="<YOUR_API_KEY>"
export HF_HUB_ENABLE_HF_TRANSFER="1"
export REKA_API_KEY="<YOUR_API_KEY>"
# その他の利用可能な環境変数には以下が含まれます
# ANTHROPIC_API_KEY, DASHSCOPE_API_KEY など

よくある環境の問題

httpx や protobuf に関連するエラーなど、いくつかの一般的な問題が発生する場合があります。これらの問題を解決するには、まず以下を試してください。

python3 -m pip install httpx==0.23.3;
python3 -m pip install protobuf==3.20;
# numpy==2.x を使用している場合、エラーが発生することがあります
python3 -m pip install numpy==1.26;
# トークナイザーの動作に sentencepiece が必要な場合があります
python3 -m pip install sentencepiece;

カスタムモデルとデータセットの追加

ドキュメントを参照してください。

謝辞

lmms_eval は lm-eval-harness のフォークです。関連情報については lm-eval-harness のドキュメントをお読みになることをお勧めします。

引用

@misc{zhang2024lmmsevalrealitycheckevaluation,
      title={LMMs-Eval: Reality Check on the Evaluation of Large Multimodal Models}, 
      author={Kaichen Zhang and Bo Li and Peiyuan Zhang and Fanyi Pu and Joshua Adrian Cahyono and Kairui Hu and Shuai Liu and Yuanhan Zhang and Jingkang Yang and Chunyuan Li and Ziwei Liu},
      year={2024},
      eprint={2407.12772},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2407.12772}, 
}

@misc{lmms_eval2024,
    title={LMMs-Eval: Accelerating the Development of Large Multimoal Models},
    url={https://github.com/EvolvingLMMs-Lab/lmms-eval},
    author={Bo Li*, Peiyuan Zhang*, Kaichen Zhang*, Fanyi Pu*, Xinrun Du, Yuhao Dong, Haotian Liu, Yuanhan Zhang, Ge Zhang, Chunyuan Li and Ziwei Liu},
    publisher    = {Zenodo},
    version      = {v0.1.0},
    month={March},
    year={2024}
}

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

大規模マルチモーダルモデル評価スイート

お知らせ

なぜ `lmms-eval` なのか？

インストール

uv の使用（一貫した環境に推奨）

代替インストール方法

使用方法

カスタムモデルとデータセットの追加

謝辞

引用

FilesExpand file tree

README_ja.md

Latest commit

History

README_ja.md

File metadata and controls

大規模マルチモーダルモデル評価スイート

お知らせ

なぜ lmms-eval なのか？

インストール

uv の使用（一貫した環境に推奨）

代替インストール方法

使用方法

カスタムモデルとデータセットの追加

謝辞

引用

なぜ `lmms-eval` なのか？