🌐 English | 简体中文 | 繁體中文 | 日本語 | 한국어 | Español | Français | Deutsch | Português | Русский | Italiano | Nederlands | Polski | Türkçe | العربية | हिन्दी | Tiếng Việt | Indonesia
Przyspieszenie rozwoju dużych modeli multimodalnych (LMMs) z
lmms-eval. Obsługujemy większość zadań tekstowych, obrazowych, wideo i audio.
🏠 Strona Główna LMMs-Lab | 🤗 Zbiory Danych Huggingface | 
📖 Obsługiwane Zadania (100+) | 🌟 Obsługiwane Modele (30+) | 📚 Dokumentacja
Styczeń 2026 - Rozpoznaliśmy, że rozumowanie przestrzenne i kompozycyjne pozostało martwym punktem w istniejących benchmarkach. Dodaliśmy CaptionQA, SpatialTreeBench, SiteBench oraz ViewSpatial. Dla zespołów prowadzących zdalne procesy ewaluacji wprowadziliśmy serwer HTTP eval (#972). Dla tych, którzy potrzebują rygoru statystycznego, dodaliśmy CLT i estymację zgrupowanego błędu standardowego (#989).
- [2025-10] 🚀🚀 LMMs-Eval v0.5 jest tutaj! Ta główna wersja wprowadza kompleksową ewaluację audio, buforowanie odpowiedzi, 5 nowych modeli (GPT-4o Audio Preview, Gemma-3, LongViLA-R1, LLaVA-OneVision 1.5, Thyme) oraz ponad 50 nowych wariantów benchmarków obejmujących audio (Step2, VoiceBench, WenetSpeech), wizję (CharXiv, Lemonade) i rozumowanie (CSBench, SciBench, MedQA, SuperGPQA). Szczegóły w notatkach wydania.
- [2025-07] 🚀🚀 Wydaliśmy
lmms-eval-0.4. Szczegóły w notatkach wydania.
Jesteśmy w ekscytującej podróży ku stworzeniu Sztucznej Ogólnej Inteligencji (AGI), podobnej do entuzjazmu lądowania na Księżycu w latach 60. Ta podróż jest napędzana przez zaawansowane duże modele językowe (LLMs) i duże modele multimodalne (LMMs), złożone systemy zdolne do rozumienia, uczenia się i wykonywania szerokiej gamy ludzkich zadań.
Aby zmierzyć, jak zaawansowane są te modele, używamy różnych benchmarków ewaluacyjnych. Te benchmarki są narzędziami, które pomagają nam zrozumieć możliwości tych modeli, pokazując, jak blisko jesteśmy osiągnięcia AGI. Jednak znalezienie i wykorzystanie tych benchmarków jest dużym wyzwaniem.
W dziedzinie modeli językowych praca lm-evaluation-harness ustanowiła cenny precedens. Przyswoiliśmy wyrafinowany i efektywny design lm-evaluation-harness i wprowadziliśmy lmms-eval, starannie opracowany framework ewaluacyjny do spójnej i efektywnej ewaluacji LMM.
Używamy uv do zarządzania pakietami, aby zapewnić, że wszyscy programiści używają dokładnie tych samych wersji pakietów. Najpierw zainstaluj uv:
curl -LsSf https://astral.sh/uv/install.sh | shDo rozwoju ze spójnym środowiskiem:
git clone https://github.com/EvolvingLMMs-Lab/lmms-eval
cd lmms-eval
# Zalecane
uv pip install -e ".[all]"
# Jeśli chcesz używać uv sync
# uv sync # To tworzy/aktualizuje twoje środowisko z uv.lockAby uruchamiać polecenia:
uv run python -m lmms_eval --help # Uruchom dowolne polecenie z uv runDo bezpośredniego użycia z Git:
uv venv eval
uv venv --python 3.12
source eval/bin/activate
# Możesz potrzebować dodać i dołączyć własny yaml zadań, jeśli używasz tej instalacji
uv pip install git+https://github.com/EvolvingLMMs-Lab/lmms-eval.gitWięcej przykładów w examples/models
Ewaluacja Modelu Kompatybilnego z OpenAI
bash examples/models/openai_compatible.sh
bash examples/models/xai_grok.shEwaluacja vLLM
bash examples/models/vllm_qwen2vl.shEwaluacja LLaVA-OneVision
bash examples/models/llava_onevision.shEwaluacja LLaVA-OneVision1_5
bash examples/models/llava_onevision1_5.shEwaluacja LLaMA-3.2-Vision
bash examples/models/llama_vision.shEwaluacja Qwen2.5-VL
bash examples/models/qwen2_5_vl.shEwaluacja z tensor parallel dla większego modelu (llava-next-72b)
bash examples/models/tensor_parallel.shEwaluacja z SGLang dla większego modelu (llava-next-72b)
bash examples/models/sglang.shWięcej Parametrów
python3 -m lmms_eval --helpZmienne Środowiskowe Przed uruchomieniem eksperymentów i ewaluacji, zalecamy wyeksportowanie następujących zmiennych środowiskowych do środowiska. Niektóre są niezbędne do działania określonych zadań.
export OPENAI_API_KEY="<YOUR_API_KEY>"
export HF_HOME="<Path to HF cache>"
export HF_TOKEN="<YOUR_API_KEY>"
export HF_HUB_ENABLE_HF_TRANSFER="1"
export REKA_API_KEY="<YOUR_API_KEY>"
# Inne możliwe zmienne środowiskowe to m.in.
# ANTHROPIC_API_KEY, DASHSCOPE_API_KEY itp.Typowe Problemy ze Środowiskiem
Czasami możesz napotkać typowe problemy, na przykład błędy związane z httpx lub protobuf. Aby rozwiązać te problemy, możesz najpierw spróbować:
python3 -m pip install httpx==0.23.3;
python3 -m pip install protobuf==3.20;
# Jeśli używasz numpy==2.x, może to czasami powodować błędy
python3 -m pip install numpy==1.26;
# Czasami sentencepiece jest wymagane do działania tokenizera
python3 -m pip install sentencepiece;Zobacz naszą dokumentację.
lmms_eval jest forkiem lm-eval-harness. Zalecamy przeczytanie dokumentacji lm-eval-harness w celu uzyskania istotnych informacji.
@misc{zhang2024lmmsevalrealitycheckevaluation,
title={LMMs-Eval: Reality Check on the Evaluation of Large Multimodal Models},
author={Kaichen Zhang and Bo Li and Peiyuan Zhang and Fanyi Pu and Joshua Adrian Cahyono and Kairui Hu and Shuai Liu and Yuanhan Zhang and Jingkang Yang and Chunyuan Li and Ziwei Liu},
year={2024},
eprint={2407.12772},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2407.12772},
}
@misc{lmms_eval2024,
title={LMMs-Eval: Accelerating the Development of Large Multimoal Models},
url={https://github.com/EvolvingLMMs-Lab/lmms-eval},
author={Bo Li*, Peiyuan Zhang*, Kaichen Zhang*, Fanyi Pu*, Xinrun Du, Yuhao Dong, Haotian Liu, Yuanhan Zhang, Ge Zhang, Chunyuan Li and Ziwei Liu},
publisher = {Zenodo},
version = {v0.1.0},
month={March},
year={2024}
}