🌐 English | 简体中文 | 繁體中文 | 日本語 | 한국어 | Español | Français | Deutsch | Português | Русский | Italiano | Nederlands | Polski | Türkçe | العربية | हिन्दी | Tiếng Việt | Indonesia
lmms-evalile büyük çok modlu modellerin (LMMs) geliştirilmesini hızlandırın. Çoğu metin, görüntü, video ve ses görevini destekliyoruz.
🏠 LMMs-Lab Ana Sayfa | 🤗 Huggingface Veri Setleri | 
📖 Desteklenen Görevler (100+) | 🌟 Desteklenen Modeller (30+) | 📚 Dokümantasyon
- [2026-01] 🚀🚀 Ocak 2026 - Mevcut kıyaslamalarda (benchmarks) uzamsal ve kompozisyonel akıl yürütmenin hala kör noktalar olduğunu fark ettik. CaptionQA, SpatialTreeBench, SiteBench ve ViewSpatial benchmarklarını ekledik. Uzaktan değerlendirme boru hatları (pipeline) çalıştıran ekipler için bir HTTP değerlendirme sunucusu (#972) sunduk. İstatistiksel titizlik isteyenler için CLT ve kümelenmiş standart hata tahmini (#989) özelliklerini ekledik.
- [2025-10] 🚀🚀 LMMs-Eval v0.5 burada! Bu büyük sürüm, kapsamlı ses değerlendirmesi, yanıt önbellekleme, 5 yeni model (GPT-4o Audio Preview, Gemma-3, LongViLA-R1, LLaVA-OneVision 1.5, Thyme) ve ses (Step2, VoiceBench, WenetSpeech), görüntü (CharXiv, Lemonade) ve akıl yürütme (CSBench, SciBench, MedQA, SuperGPQA) kapsayan 50'den fazla yeni benchmark varyantı sunuyor. Detaylar için sürüm notlarına bakın.
- [2025-07] 🚀🚀
lmms-eval-0.4sürümünü yayınladık. Daha fazla detay için sürüm notlarına bakın.
1960'ların Ay'a iniş heyecanına benzer şekilde, Yapay Genel Zeka (AGI) yaratmaya doğru heyecan verici bir yolculuktayız. Bu yolculuk, çok çeşitli insan görevlerini anlama, öğrenme ve gerçekleştirme kapasitesine sahip karmaşık sistemler olan gelişmiş büyük dil modelleri (LLMs) ve büyük çok modlu modeller (LMMs) tarafından desteklenmektedir.
Bu modellerin ne kadar gelişmiş olduğunu ölçmek için çeşitli değerlendirme kıyaslamaları kullanıyoruz. Bu kıyaslamalar, bu modellerin yeteneklerini anlamamıza yardımcı olan, AGI'ye ne kadar yakın olduğumuzu gösteren araçlardır. Ancak, bu kıyaslamaları bulmak ve kullanmak büyük bir zorluktur.
Dil modelleri alanında, lm-evaluation-harness çalışması değerli bir emsal oluşturmuştur. lm-evaluation-harness'ın zarif ve verimli tasarımını benimsedik ve LMM'lerin tutarlı ve verimli değerlendirmesi için titizlikle hazırlanmış bir değerlendirme çerçevesi olan lmms-eval'i tanıttık.
Tüm geliştiricilerin tam olarak aynı paket sürümlerini kullanmasını sağlamak için uv paket yöneticisini kullanıyoruz. Önce uv'yi kurun:
curl -LsSf https://astral.sh/uv/install.sh | shTutarlı ortamla geliştirme için:
git clone https://github.com/EvolvingLMMs-Lab/lmms-eval
cd lmms-eval
# Önerilen
uv pip install -e ".[all]"
# uv sync kullanmak istiyorsanız
# uv sync # Bu, uv.lock'tan ortamınızı oluşturur/güncellerKomutları çalıştırmak için:
uv run python -m lmms_eval --help # Herhangi bir komutu uv run ile çalıştırınGit'ten doğrudan kullanım için:
uv venv eval
uv venv --python 3.12
source eval/bin/activate
# Bu kurulumu kullanıyorsanız kendi görev yaml'ınızı eklemeniz ve dahil etmeniz gerekebilir
uv pip install git+https://github.com/EvolvingLMMs-Lab/lmms-eval.gitDaha fazla örnek examples/models içinde
OpenAI Uyumlu Model Değerlendirmesi
bash examples/models/openai_compatible.sh
bash examples/models/xai_grok.shvLLM Değerlendirmesi
bash examples/models/vllm_qwen2vl.shLLaVA-OneVision Değerlendirmesi
bash examples/models/llava_onevision.shLLaVA-OneVision1_5 Değerlendirmesi
bash examples/models/llava_onevision1_5.shLLaMA-3.2-Vision Değerlendirmesi
bash examples/models/llama_vision.shQwen2.5-VL Değerlendirmesi
bash examples/models/qwen2_5_vl.shBüyük Model için Tensor Parallel Değerlendirmesi (llava-next-72b)
bash examples/models/tensor_parallel.shBüyük Model için SGLang Değerlendirmesi (llava-next-72b)
bash examples/models/sglang.shDaha Fazla Parametre
python3 -m lmms_eval --helpOrtam Değişkenleri Deneyleri ve değerlendirmeleri çalıştırmadan önce, aşağıdaki ortam değişkenlerini ortamınıza dışa aktarmanızı (export) öneririz. Bazıları belirli görevlerin çalışması için gereklidir.
export OPENAI_API_KEY="<YOUR_API_KEY>"
export HF_HOME="<Path to HF cache>"
export HF_TOKEN="<YOUR_API_KEY>"
export HF_HUB_ENABLE_HF_TRANSFER="1"
export REKA_API_KEY="<YOUR_API_KEY>"Yaygın Ortam Sorunları
Bazen httpx veya protobuf ile ilgili hatalar gibi yaygın sorunlarla karşılaşabilirsiniz. Bu sorunları çözmek için önce şunları deneyebilirsiniz:
python3 -m pip install httpx==0.23.3;
python3 -m pip install protobuf==3.20;
# numpy==2.x kullanıyorsanız bazen hatalara neden olabilir
python3 -m pip install numpy==1.26;
# Tokenizer'ın çalışması için bazen sentencepiece gereklidir
python3 -m pip install sentencepiece;Dokümantasyonumuza bakın.
lmms_eval, lm-eval-harness'in bir çatalıdır. İlgili bilgiler için lm-eval-harness dokümantasyonunu okumanızı öneririz.
@misc{zhang2024lmmsevalrealitycheckevaluation,
title={LMMs-Eval: Reality Check on the Evaluation of Large Multimodal Models},
author={Kaichen Zhang and Bo Li and Peiyuan Zhang and Fanyi Pu and Joshua Adrian Cahyono and Kairui Hu and Shuai Liu and Yuanhan Zhang and Jingkang Yang and Chunyuan Li and Ziwei Liu},
year={2024},
eprint={2407.12772},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2407.12772},
}
@misc{lmms_eval2024,
title={LMMs-Eval: Accelerating the Development of Large Multimoal Models},
url={https://github.com/EvolvingLMMs-Lab/lmms-eval},
author={Bo Li*, Peiyuan Zhang*, Kaichen Zhang*, Fanyi Pu*, Xinrun Du, Yuhao Dong, Haotian Liu, Yuanhan Zhang, Ge Zhang, Chunyuan Li and Ziwei Liu},
publisher = {Zenodo},
version = {v0.1.0},
month={March},
year={2024}
}