🌐 English | 简体中文 | 繁體中文 | 日本語 | 한국어 | Español | Français | Deutsch | Português | Русский | Italiano | Nederlands | Polski | Türkçe | العربية | हिन्दी | Tiếng Việt | Indonesia
Versnelling van de ontwikkeling van grote multimodale modellen (LMMs) met
lmms-eval. We ondersteunen de meeste tekst-, beeld-, video- en audiotaken.
🏠 LMMs-Lab Homepage | 🤗 Huggingface Datasets | 
📖 Ondersteunde Taken (100+) | 🌟 Ondersteunde Modellen (30+) | 📚 Documentatie
Januari 2026 - We stelden vast dat ruimtelijk en compositorisch redeneren blinde vlekken bleven in bestaande benchmarks. We hebben CaptionQA, SpatialTreeBench, SiteBench en ViewSpatial toegevoegd. Voor teams die evaluatie-pipelines op afstand draaien, hebben we een HTTP eval server geïntroduceerd (#972). Voor degenen die statistische nauwkeurigheid nodig hebben, hebben we CLT en geclusterde standaardfout-schatting toegevoegd (#989).
- [2025-10] 🚀🚀 LMMs-Eval v0.5 is hier! Deze belangrijke release introduceert uitgebreide audio-evaluatie, response caching, 5 nieuwe modellen (GPT-4o Audio Preview, Gemma-3, LongViLA-R1, LLaVA-OneVision 1.5, Thyme), en meer dan 50 nieuwe benchmark-varianten die audio (Step2, VoiceBench, WenetSpeech), visie (CharXiv, Lemonade) en redeneren (CSBench, SciBench, MedQA, SuperGPQA) beslaan. Zie de release notes voor details.
- [2025-07] 🚀🚀 We hebben
lmms-eval-0.4uitgebracht. Zie de release notes voor meer details.
We zijn op een spannende reis naar het creëren van Kunstmatige Algemene Intelligentie (AGI), vergelijkbaar met het enthousiasme van de maanlanding in de jaren '60. Deze reis wordt aangedreven door geavanceerde grote taalmodellen (LLMs) en grote multimodale modellen (LMMs), complexe systemen die in staat zijn om een breed scala aan menselijke taken te begrijpen, te leren en uit te voeren.
Om te meten hoe geavanceerd deze modellen zijn, gebruiken we verschillende evaluatiebenchmarks. Deze benchmarks zijn hulpmiddelen die ons helpen de mogelijkheden van deze modellen te begrijpen, en ons laten zien hoe dicht we bij het bereiken van AGI zijn. Het vinden en gebruiken van deze benchmarks is echter een grote uitdaging.
Op het gebied van taalmodellen heeft het werk van lm-evaluation-harness een waardevolle precedent gezet. We hebben het verfijnde en efficiënte ontwerp van lm-evaluation-harness geabsorbeerd en lmms-eval geïntroduceerd, een zorgvuldig ontworpen evaluatieframework voor consistente en efficiënte evaluatie van LMM.
We gebruiken uv voor pakketbeheer om ervoor te zorgen dat alle ontwikkelaars exact dezelfde pakketversies gebruiken. Installeer eerst uv:
curl -LsSf https://astral.sh/uv/install.sh | shVoor ontwikkeling met consistente omgeving:
git clone https://github.com/EvolvingLMMs-Lab/lmms-eval
cd lmms-eval
# Aanbevolen
uv pip install -e ".[all]"
# Als je uv sync wilt gebruiken
# uv sync # Dit maakt/update je omgeving vanuit uv.lockOm commando's uit te voeren:
uv run python -m lmms_eval --help # Voer elk commando uit met uv runVoor direct gebruik vanuit Git:
uv venv eval
uv venv --python 3.12
source eval/bin/activate
# Je moet mogelijk je eigen taak yaml toevoegen en opnemen als je deze installatie gebruikt
uv pip install git+https://github.com/EvolvingLMMs-Lab/lmms-eval.gitMeer voorbeelden in examples/models
Evaluatie van OpenAI-compatibel Model
bash examples/models/openai_compatible.sh
bash examples/models/xai_grok.shEvaluatie van vLLM
bash examples/models/vllm_qwen2vl.shEvaluatie van LLaVA-OneVision
bash examples/models/llava_onevision.shEvaluatie van LLaVA-OneVision1_5
bash examples/models/llava_onevision1_5.shEvaluatie van LLaMA-3.2-Vision
bash examples/models/llama_vision.shEvaluatie van Qwen2.5-VL
bash examples/models/qwen2_5_vl.shEvaluatie met tensor parallel voor groter model (llava-next-72b)
bash examples/models/tensor_parallel.shEvaluatie met SGLang voor groter model (llava-next-72b)
bash examples/models/sglang.shMeer Parameters
python3 -m lmms_eval --helpOmgevingsvariabelen Voordat u experimenten en evaluaties uitvoert, raden we u aan de volgende omgevingsvariabelen naar uw omgeving te exporteren. Sommige zijn noodzakelijk voor het uitvoeren van bepaalde taken.
export OPENAI_API_KEY="<YOUR_API_KEY>"
export HF_HOME="<Path to HF cache>"
export HF_TOKEN="<YOUR_API_KEY>"
export HF_HUB_ENABLE_HF_TRANSFER="1"
export REKA_API_KEY="<YOUR_API_KEY>"
# Andere mogelijke omgevingsvariabelen zijn onder meer
# ANTHROPIC_API_KEY,DASHSCOPE_API_KEY enz.Veelvoorkomende Omgevingsproblemen
Soms kunt u veelvoorkomende problemen tegenkomen, bijvoorbeeld fouten gerelateerd aan httpx of protobuf. Om deze problemen op te lossen, kunt u eerst het volgende proberen:
python3 -m pip install httpx==0.23.3;
python3 -m pip install protobuf==3.20;
# Als u numpy==2.x gebruikt, kan dit soms fouten veroorzaken
python3 -m pip install numpy==1.26;
# Soms is sentencepiece vereist om de tokenizer te laten werken
python3 -m pip install sentencepiece;Zie onze documentatie.
lmms_eval is een fork van lm-eval-harness. We raden aan om de documentatie van lm-eval-harness te lezen voor relevante informatie.
@misc{zhang2024lmmsevalrealitycheckevaluation,
title={LMMs-Eval: Reality Check on the Evaluation of Large Multimodal Models},
author={Kaichen Zhang and Bo Li and Peiyuan Zhang and Fanyi Pu and Joshua Adrian Cahyono and Kairui Hu and Shuai Liu and Yuanhan Zhang and Jingkang Yang and Chunyuan Li and Ziwei Liu},
year={2024},
eprint={2407.12772},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2407.12772},
}
@misc{lmms_eval2024,
title={LMMs-Eval: Accelerating the Development of Large Multimoal Models},
url={https://github.com/EvolvingLMMs-Lab/lmms-eval},
author={Bo Li*, Peiyuan Zhang*, Kaichen Zhang*, Fanyi Pu*, Xinrun Du, Yuhao Dong, Haotian Liu, Yuanhan Zhang, Ge Zhang, Chunyuan Li and Ziwei Liu},
publisher = {Zenodo},
version = {v0.1.0},
month={March},
year={2024}
}