Skip to content

Latest commit

 

History

History
188 lines (135 loc) · 8.44 KB

File metadata and controls

188 lines (135 loc) · 8.44 KB

Evaluatiesuite voor Grote Multimodale Modellen

🌐 English | 简体中文 | 繁體中文 | 日本語 | 한국어 | Español | Français | Deutsch | Português | Русский | Italiano | Nederlands | Polski | Türkçe | العربية | हिन्दी | Tiếng Việt | Indonesia

PyPI PyPI - Downloads GitHub contributors issue resolution open issues

Versnelling van de ontwikkeling van grote multimodale modellen (LMMs) met lmms-eval. We ondersteunen de meeste tekst-, beeld-, video- en audiotaken.

🏠 LMMs-Lab Homepage | 🤗 Huggingface Datasets | Discord_Thread discord/lmms-eval

📖 Ondersteunde Taken (100+) | 🌟 Ondersteunde Modellen (30+) | 📚 Documentatie


Aankondigingen

Januari 2026 - We stelden vast dat ruimtelijk en compositorisch redeneren blinde vlekken bleven in bestaande benchmarks. We hebben CaptionQA, SpatialTreeBench, SiteBench en ViewSpatial toegevoegd. Voor teams die evaluatie-pipelines op afstand draaien, hebben we een HTTP eval server geïntroduceerd (#972). Voor degenen die statistische nauwkeurigheid nodig hebben, hebben we CLT en geclusterde standaardfout-schatting toegevoegd (#989).

  • [2025-10] 🚀🚀 LMMs-Eval v0.5 is hier! Deze belangrijke release introduceert uitgebreide audio-evaluatie, response caching, 5 nieuwe modellen (GPT-4o Audio Preview, Gemma-3, LongViLA-R1, LLaVA-OneVision 1.5, Thyme), en meer dan 50 nieuwe benchmark-varianten die audio (Step2, VoiceBench, WenetSpeech), visie (CharXiv, Lemonade) en redeneren (CSBench, SciBench, MedQA, SuperGPQA) beslaan. Zie de release notes voor details.
  • [2025-07] 🚀🚀 We hebben lmms-eval-0.4 uitgebracht. Zie de release notes voor meer details.

Waarom lmms-eval?

We zijn op een spannende reis naar het creëren van Kunstmatige Algemene Intelligentie (AGI), vergelijkbaar met het enthousiasme van de maanlanding in de jaren '60. Deze reis wordt aangedreven door geavanceerde grote taalmodellen (LLMs) en grote multimodale modellen (LMMs), complexe systemen die in staat zijn om een breed scala aan menselijke taken te begrijpen, te leren en uit te voeren.

Om te meten hoe geavanceerd deze modellen zijn, gebruiken we verschillende evaluatiebenchmarks. Deze benchmarks zijn hulpmiddelen die ons helpen de mogelijkheden van deze modellen te begrijpen, en ons laten zien hoe dicht we bij het bereiken van AGI zijn. Het vinden en gebruiken van deze benchmarks is echter een grote uitdaging.

Op het gebied van taalmodellen heeft het werk van lm-evaluation-harness een waardevolle precedent gezet. We hebben het verfijnde en efficiënte ontwerp van lm-evaluation-harness geabsorbeerd en lmms-eval geïntroduceerd, een zorgvuldig ontworpen evaluatieframework voor consistente en efficiënte evaluatie van LMM.

Installatie

Met uv (Aanbevolen voor consistente omgevingen)

We gebruiken uv voor pakketbeheer om ervoor te zorgen dat alle ontwikkelaars exact dezelfde pakketversies gebruiken. Installeer eerst uv:

curl -LsSf https://astral.sh/uv/install.sh | sh

Voor ontwikkeling met consistente omgeving:

git clone https://github.com/EvolvingLMMs-Lab/lmms-eval
cd lmms-eval
# Aanbevolen
uv pip install -e ".[all]"
# Als je uv sync wilt gebruiken
# uv sync  # Dit maakt/update je omgeving vanuit uv.lock

Om commando's uit te voeren:

uv run python -m lmms_eval --help  # Voer elk commando uit met uv run

Alternatieve Installatie

Voor direct gebruik vanuit Git:

uv venv eval
uv venv --python 3.12
source eval/bin/activate
# Je moet mogelijk je eigen taak yaml toevoegen en opnemen als je deze installatie gebruikt
uv pip install git+https://github.com/EvolvingLMMs-Lab/lmms-eval.git

Gebruik

Meer voorbeelden in examples/models

Evaluatie van OpenAI-compatibel Model

bash examples/models/openai_compatible.sh
bash examples/models/xai_grok.sh

Evaluatie van vLLM

bash examples/models/vllm_qwen2vl.sh

Evaluatie van LLaVA-OneVision

bash examples/models/llava_onevision.sh

Evaluatie van LLaVA-OneVision1_5

bash examples/models/llava_onevision1_5.sh

Evaluatie van LLaMA-3.2-Vision

bash examples/models/llama_vision.sh

Evaluatie van Qwen2.5-VL

bash examples/models/qwen2_5_vl.sh

Evaluatie met tensor parallel voor groter model (llava-next-72b)

bash examples/models/tensor_parallel.sh

Evaluatie met SGLang voor groter model (llava-next-72b)

bash examples/models/sglang.sh

Meer Parameters

python3 -m lmms_eval --help

Omgevingsvariabelen Voordat u experimenten en evaluaties uitvoert, raden we u aan de volgende omgevingsvariabelen naar uw omgeving te exporteren. Sommige zijn noodzakelijk voor het uitvoeren van bepaalde taken.

export OPENAI_API_KEY="<YOUR_API_KEY>"
export HF_HOME="<Path to HF cache>" 
export HF_TOKEN="<YOUR_API_KEY>"
export HF_HUB_ENABLE_HF_TRANSFER="1"
export REKA_API_KEY="<YOUR_API_KEY>"
# Andere mogelijke omgevingsvariabelen zijn onder meer 
# ANTHROPIC_API_KEY,DASHSCOPE_API_KEY enz.

Veelvoorkomende Omgevingsproblemen

Soms kunt u veelvoorkomende problemen tegenkomen, bijvoorbeeld fouten gerelateerd aan httpx of protobuf. Om deze problemen op te lossen, kunt u eerst het volgende proberen:

python3 -m pip install httpx==0.23.3;
python3 -m pip install protobuf==3.20;
# Als u numpy==2.x gebruikt, kan dit soms fouten veroorzaken
python3 -m pip install numpy==1.26;
# Soms is sentencepiece vereist om de tokenizer te laten werken
python3 -m pip install sentencepiece;

Aangepast Model en Dataset Toevoegen

Zie onze documentatie.

Dankbetuigingen

lmms_eval is een fork van lm-eval-harness. We raden aan om de documentatie van lm-eval-harness te lezen voor relevante informatie.

Citaties

@misc{zhang2024lmmsevalrealitycheckevaluation,
      title={LMMs-Eval: Reality Check on the Evaluation of Large Multimodal Models}, 
      author={Kaichen Zhang and Bo Li and Peiyuan Zhang and Fanyi Pu and Joshua Adrian Cahyono and Kairui Hu and Shuai Liu and Yuanhan Zhang and Jingkang Yang and Chunyuan Li and Ziwei Liu},
      year={2024},
      eprint={2407.12772},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2407.12772}, 
}

@misc{lmms_eval2024,
    title={LMMs-Eval: Accelerating the Development of Large Multimoal Models},
    url={https://github.com/EvolvingLMMs-Lab/lmms-eval},
    author={Bo Li*, Peiyuan Zhang*, Kaichen Zhang*, Fanyi Pu*, Xinrun Du, Yuhao Dong, Haotian Liu, Yuanhan Zhang, Ge Zhang, Chunyuan Li and Ziwei Liu},
    publisher    = {Zenodo},
    version      = {v0.1.0},
    month={March},
    year={2024}
}