🌐 English | 简体中文 | 繁體中文 | 日本語 | 한국어 | Español | Français | Deutsch | Português | Русский | Italiano | Nederlands | Polski | Türkçe | العربية | हिन्दी | Tiếng Việt | Indonesia
Tăng tốc phát triển các mô hình đa phương thức lớn (LMMs) với
lmms-eval. Chúng tôi hỗ trợ hầu hết các tác vụ văn bản, hình ảnh, video và âm thanh.
🏠 Trang Chủ LMMs-Lab | 🤗 Bộ Dữ Liệu Huggingface | 
📖 Tác Vụ Được Hỗ Trợ (100+) | 🌟 Mô Hình Được Hỗ Trợ (30+) | 📚 Tài Liệu
Việc đánh giá các mô hình đa phương thức khó hơn chúng ta tưởng. Chúng ta có hàng trăm benchmark, nhưng không có cách tiêu chuẩn nào để chạy chúng. Kết quả khác nhau giữa các phòng thí nghiệm. Các so sánh trở nên không đáng tin cậy. Chúng tôi đã và đang nỗ lực giải quyết vấn đề này - không phải thông qua những nỗ lực phi thường, mà thông qua một quy trình có hệ thống.
Tháng 1 năm 2026 - Chúng tôi nhận thấy rằng khả năng suy luận không gian và bố cục vẫn là những điểm mù trong các benchmark hiện tại. Chúng tôi đã thêm CaptionQA, SpatialTreeBench, SiteBench, và ViewSpatial. Đối với các nhóm vận hành quy trình đánh giá từ xa, chúng tôi đã giới thiệu máy chủ đánh giá HTTP (#972). Đối với những người cần sự chặt chẽ về thống kê, chúng tôi đã thêm CLT và ước tính sai số chuẩn theo cụm (clustered standard error estimation) (#989).
- [2025-10] 🚀🚀 LMMs-Eval v0.5 đã ra mắt! Bản phát hành chính này giới thiệu đánh giá âm thanh toàn diện, bộ nhớ đệm phản hồi, 5 mô hình mới (GPT-4o Audio Preview, Gemma-3, LongViLA-R1, LLaVA-OneVision 1.5, Thyme), và hơn 50 biến thể benchmark mới bao gồm âm thanh (Step2, VoiceBench, WenetSpeech), thị giác (CharXiv, Lemonade), và suy luận (CSBench, SciBench, MedQA, SuperGPQA). Xem ghi chú phát hành để biết chi tiết.
- [2025-07] 🚀🚀 Chúng tôi đã phát hành
lmms-eval-0.4. Xem ghi chú phát hành để biết thêm chi tiết.
Chúng ta đang trong một hành trình thú vị hướng tới việc tạo ra Trí Tuệ Nhân Tạo Tổng Quát (AGI), tương tự như sự nhiệt tình của cuộc đổ bộ lên Mặt Trăng những năm 1960. Hành trình này được thúc đẩy bởi các mô hình ngôn ngữ lớn tiên tiến (LLMs) và các mô hình đa phương thức lớn (LMMs), là các hệ thống phức tạp có khả năng hiểu, học hỏi và thực hiện nhiều loại nhiệm vụ của con người.
Để đo lường mức độ tiên tiến của các mô hình này, chúng tôi sử dụng nhiều benchmark đánh giá khác nhau. Các benchmark này là công cụ giúp chúng tôi hiểu khả năng của các mô hình này, cho chúng tôi thấy chúng ta đang gần đến AGI như thế nào. Tuy nhiên, việc tìm kiếm và sử dụng các benchmark này là một thách thức lớn.
Trong lĩnh vực mô hình ngôn ngữ, công trình của lm-evaluation-harness đã tạo tiền lệ quý báu. Chúng tôi đã tiếp thu thiết kế tinh tế và hiệu quả của lm-evaluation-harness và giới thiệu lmms-eval, một framework đánh giá được xây dựng tỉ mỉ để đánh giá LMM một cách nhất quán và hiệu quả.
Chúng tôi sử dụng uv để quản lý gói nhằm đảm bảo tất cả các nhà phát triển sử dụng cùng phiên bản gói. Đầu tiên, cài đặt uv:
curl -LsSf https://astral.sh/uv/install.sh | shĐể phát triển với môi trường nhất quán:
git clone https://github.com/EvolvingLMMs-Lab/lmms-eval
cd lmms-eval
# Khuyến nghị
uv pip install -e ".[all]"
# Nếu bạn muốn sử dụng uv sync
# uv sync # Điều này tạo/cập nhật môi trường của bạn từ uv.lockĐể chạy lệnh:
uv run python -m lmms_eval --help # Chạy bất kỳ lệnh nào với uv runĐể sử dụng trực tiếp từ Git:
uv venv eval
uv venv --python 3.12
source eval/bin/activate
# Bạn có thể cần thêm và bao gồm yaml tác vụ của riêng mình nếu sử dụng cài đặt này
uv pip install git+https://github.com/EvolvingLMMs-Lab/lmms-eval.gitXem thêm ví dụ tại examples/models
Đánh Giá Mô Hình Tương Thích OpenAI
bash examples/models/openai_compatible.sh
bash examples/models/xai_grok.shĐánh Giá vLLM
bash examples/models/vllm_qwen2vl.shĐánh Giá LLaVA-OneVision
bash examples/models/llava_onevision.shĐánh Giá LLaVA-OneVision1_5
bash examples/models/llava_onevision1_5.shĐánh Giá LLaMA-3.2-Vision
bash examples/models/llama_vision.shĐánh Giá Qwen2-VL
bash examples/models/qwen2_vl.sh
bash examples/models/qwen2_5_vl.shĐánh Giá với tensor parallel cho mô hình lớn (llava-next-72b)
bash examples/models/tensor_parallel.shĐánh Giá với SGLang cho mô hình lớn (llava-next-72b)
bash examples/models/sglang.shThêm Tham Số
python3 -m lmms_eval --helpBiến Môi Trường Trước khi chạy các thí nghiệm và đánh giá, chúng tôi khuyến nghị bạn xuất các biến môi trường sau vào môi trường của mình. Một số biến là cần thiết để một số tác vụ nhất định có thể chạy được.
export OPENAI_API_KEY="<YOUR_API_KEY>"
export HF_HOME="<Path to HF cache>"
export HF_TOKEN="<YOUR_API_KEY>"
export HF_HUB_ENABLE_HF_TRANSFER="1"
export REKA_API_KEY="<YOUR_API_KEY>"
# Các biến môi trường khác có thể bao gồm
# ANTHROPIC_API_KEY, DASHSCOPE_API_KEY v.v.Các Vấn Đề Môi Trường Thường Gặp
Đôi khi bạn có thể gặp phải một số vấn đề phổ biến, ví dụ như lỗi liên quan đến httpx hoặc protobuf. Để giải quyết các vấn đề này, trước tiên bạn có thể thử:
python3 -m pip install httpx==0.23.3;
python3 -m pip install protobuf==3.20;
# Nếu bạn đang sử dụng numpy==2.x, đôi khi có thể gây ra lỗi
python3 -m pip install numpy==1.26;
# Đôi khi sentencepiece là cần thiết để tokenizer hoạt động
python3 -m pip install sentencepiece;Xem tài liệu của chúng tôi.
lmms_eval là một nhánh của lm-eval-harness. Chúng tôi khuyến nghị đọc tài liệu của lm-eval-harness để biết thông tin liên quan.
@misc{zhang2024lmmsevalrealitycheckevaluation,
title={LMMs-Eval: Reality Check on the Evaluation of Large Multimodal Models},
author={Kaichen Zhang and Bo Li and Peiyuan Zhang and Fanyi Pu and Joshua Adrian Cahyono and Kairui Hu and Shuai Liu and Yuanhan Zhang and Jingkang Yang and Chunyuan Li and Ziwei Liu},
year={2024},
eprint={2407.12772},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2407.12772},
}
@misc{lmms_eval2024,
title={LMMs-Eval: Accelerating the Development of Large Multimoal Models},
url={https://github.com/EvolvingLMMs-Lab/lmms-eval},
author={Bo Li*, Peiyuan Zhang*, Kaichen Zhang*, Fanyi Pu*, Xinrun Du, Yuhao Dong, Haotian Liu, Yuanhan Zhang, Ge Zhang, Chunyuan Li and Ziwei Liu},
publisher = {Zenodo},
version = {v0.1.0},
month={March},
year={2024}
}