🌐 English | 简体中文 | 繁體中文 | 日本語 | 한국어 | Español | Français | Deutsch | Português | Русский | Italiano | Nederlands | Polski | Türkçe | العربية | हिन्दी | Tiếng Việt | Indonesia
Mempercepat pengembangan model multimodal besar (LMMs) dengan
lmms-eval. Kami mendukung sebagian besar tugas teks, gambar, video, dan audio.
🏠 Beranda LMMs-Lab | 🤗 Dataset Huggingface | 
📖 Tugas yang Didukung (100+) | 🌟 Model yang Didukung (30+) | 📚 Dokumentasi
Mengevaluasi model multimodal lebih sulit daripada yang terlihat. Kami memiliki ratusan benchmark, tetapi tidak ada cara standar untuk menjalankannya. Hasil bervariasi antar lab. Perbandingan menjadi tidak dapat diandalkan. Kami telah bekerja untuk mengatasi hal ini - bukan melalui upaya heroik, tetapi melalui proses yang sistematis.
Januari 2026 - Kami menyadari bahwa penalaran spasial dan komposisional tetap menjadi titik buta dalam benchmark yang ada. Kami menambahkan CaptionQA, SpatialTreeBench, SiteBench, and ViewSpatial. Untuk tim yang menjalankan pipeline evaluasi jarak jauh, kami memperkenalkan server eval HTTP (#972). Bagi mereka yang membutuhkan ketelitian statistik, kami menambahkan CLT dan estimasi kesalahan standar terklaster (#989).
Oktober 2025 (v0.5) - Audio telah menjadi celah. Model bisa mendengar, tetapi kami tidak memiliki cara yang konsisten untuk mengujinya. Rilis ini menambahkan evaluasi audio komprehensif, caching respons untuk efisiensi, dan 50+ varian benchmark yang mencakup audio, visi, dan penalaran. Catatan rilis.
Di bawah ini adalah daftar kronologis tugas, model, dan fitur terbaru yang ditambahkan oleh kontributor luar biasa kami.
- [2025-10] 🚀🚀 LMMs-Eval v0.5 hadir! Rilis utama ini memperkenalkan evaluasi audio komprehensif, caching respons, 5 model baru (GPT-4o Audio Preview, Gemma-3, LongViLA-R1, LLaVA-OneVision 1.5, Thyme), dan 50+ varian benchmark baru yang mencakup audio (Step2, VoiceBench, WenetSpeech), visi (CharXiv, Lemonade), dan penalaran (CSBench, SciBench, MedQA, SuperGPQA). Lihat catatan rilis untuk detail.
- [2025-07] 🚀🚀 Kami telah merilis
lmms-eval-0.4. Lihat catatan rilis untuk detail lebih lanjut.
Kita sedang dalam perjalanan yang menarik menuju penciptaan Kecerdasan Buatan Umum (AGI), mirip dengan antusiasme pendaratan di bulan tahun 1960-an. Perjalanan ini didorong oleh model bahasa besar yang canggih (LLMs) dan model multimodal besar (LMMs), sistem kompleks yang mampu memahami, belajar, dan melakukan berbagai tugas manusia.
Tetapi inilah masalahnya: sistem pengukuran kami belum sejalan dengan ambisi kami.
Kami memiliki benchmark - ratusan jumlahnya. Tetapi mereka tersebar di folder Google Drive, tautan Dropbox, situs web universitas, dan server lab. Setiap benchmark memiliki format datanya sendiri, skrip evaluasinya sendiri, keunikannya sendiri. Ketika dua tim melaporkan hasil pada benchmark yang sama, mereka sering mendapatkan angka yang berbeda. Bukan karena model mereka berbeda, tetapi karena pipeline evaluasi mereka berbeda.
Bayangkan jika, selama perlombaan ruang angkasa, setiap negara mengukur jarak dalam unit yang berbeda dan tidak pernah membagikan tabel konversi mereka. Itulah kira-kira posisi kita saat ini dengan evaluasi multimodal.
Ini bukan sekadar ketidaknyamanan kecil. Ini adalah kegagalan sistemik. Tanpa pengukuran yang konsisten, kita tidak dapat mengetahui model mana yang sebenarnya lebih baik. Kita tidak dapat mereproduksi hasil. Kita tidak dapat membangun karya satu sama lain.
Untuk model bahasa, masalah ini sebagian besar diselesaikan oleh lm-evaluation-harness. Ini menyediakan pemuatan data yang terpadu, evaluasi yang terstandarisasi, dan hasil yang dapat direproduksi. Ini mendukung Open LLM Leaderboard. Ini telah menjadi infrastruktur.
Kami membangun lmms-eval untuk melakukan hal yang sama bagi model multimodal. Prinsip yang sama: satu kerangka kerja, antarmuka yang konsisten, angka yang dapat direproduksi. Moonshot membutuhkan penggaris yang andal.
Kami menggunakan uv untuk manajemen paket untuk memastikan semua pengembang menggunakan versi paket yang sama persis. Pertama, instal uv:
curl -LsSf https://astral.sh/uv/install.sh | shUntuk pengembangan dengan lingkungan yang konsisten:
git clone https://github.com/EvolvingLMMs-Lab/lmms-eval
cd lmms-eval
# Direkomendasikan
uv pip install -e ".[all]"
# Jika Anda ingin menggunakan uv sync
# uv sync # Ini membuat/memperbarui lingkungan Anda dari uv.lockUntuk menjalankan perintah:
uv run python -m lmms_eval --help # Jalankan perintah apa pun dengan uv runUntuk penggunaan langsung dari Git:
uv venv eval
uv venv --python 3.12
source eval/bin/activate
# Anda mungkin perlu menambahkan dan menyertakan yaml tugas Anda sendiri jika menggunakan instalasi ini
uv pip install git+https://github.com/EvolvingLMMs-Lab/lmms-eval.gitLebih banyak contoh di examples/models
Evaluasi Model yang Kompatibel dengan OpenAI
bash examples/models/openai_compatible.sh
bash examples/models/xai_grok.shEvaluasi vLLM
bash examples/models/vllm_qwen2vl.shEvaluasi LLaVA-OneVision
bash examples/models/llava_onevision.shEvaluasi LLaVA-OneVision1_5
bash examples/models/llava_onevision1_5.shEvaluasi LLaMA-3.2-Vision
bash examples/models/llama_vision.shEvaluasi Qwen2.5-VL
bash examples/models/qwen2_5_vl.shEvaluasi dengan tensor parallel untuk model yang lebih besar (llava-next-72b)
bash examples/models/tensor_parallel.shEvaluasi dengan SGLang untuk model yang lebih besar (llava-next-72b)
bash examples/models/sglang.shParameter Lainnya
python3 -m lmms_eval --helpVariabel Lingkungan Sebelum menjalankan eksperimen dan evaluasi, kami menyarankan Anda untuk mengekspor variabel lingkungan berikut ke lingkungan Anda. Beberapa diperlukan agar tugas tertentu dapat dijalankan.
export OPENAI_API_KEY="<YOUR_API_KEY>"
export HF_HOME="<Path to HF cache>"
export HF_TOKEN="<YOUR_API_KEY>"
export HF_HUB_ENABLE_HF_TRANSFER="1"
export REKA_API_KEY="<YOUR_API_KEY>"
# Variabel lingkungan lain yang mungkin termasuk
# ANTHROPIC_API_KEY, DASHSCOPE_API_KEY, dll.Masalah Lingkungan Umum
Terkadang Anda mungkin menghadapi beberapa masalah umum, misalnya kesalahan yang terkait dengan httpx atau protobuf. Untuk mengatasi masalah ini, Anda dapat mencoba terlebih dahulu:
python3 -m pip install httpx==0.23.3;
python3 -m pip install protobuf==3.20;
# Jika Anda menggunakan numpy==2.x, terkadang dapat menyebabkan kesalahan
python3 -m pip install numpy==1.26;
# Terkadang sentencepiece diperlukan agar tokenizer dapat berfungsi
python3 -m pip install sentencepiece;Lihat dokumentasi kami.
lmms_eval adalah fork dari lm-eval-harness. Kami menyarankan untuk membaca dokumentasi lm-eval-harness untuk informasi yang relevan.
@misc{zhang2024lmmsevalrealitycheckevaluation,
title={LMMs-Eval: Reality Check on the Evaluation of Large Multimodal Models},
author={Kaichen Zhang and Bo Li and Peiyuan Zhang and Fanyi Pu and Joshua Adrian Cahyono and Kairui Hu and Shuai Liu and Yuanhan Zhang and Jingkang Yang and Chunyuan Li and Ziwei Liu},
year={2024},
eprint={2407.12772},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2407.12772},
}
@misc{lmms_eval2024,
title={LMMs-Eval: Accelerating the Development of Large Multimoal Models},
url={https://github.com/EvolvingLMMs-Lab/lmms-eval},
author={Bo Li*, Peiyuan Zhang*, Kaichen Zhang*, Fanyi Pu*, Xinrun Du, Yuhao Dong, Haotian Liu, Yuanhan Zhang, Ge Zhang, Chunyuan Li and Ziwei Liu},
publisher = {Zenodo},
version = {v0.1.0},
month={March},
year={2024}
}