대규모 멀티모달 모델 평가 스위트

lmms-eval로 대규모 멀티모달 모델(LMMs) 개발을 가속화하세요. 텍스트, 이미지, 비디오, 오디오 태스크를 지원합니다.

🏠 LMMs-Lab 홈페이지 | 🤗 Huggingface 데이터셋 | discord/lmms-eval

📖 지원 태스크 (100+) | 🌟 지원 모델 (30+) | 📚 문서

왜 `lmms-eval`인가?

우리는 1960년대 달 착륙의 열정처럼 인공일반지능(AGI) 창조를 향한 흥미진진한 여정을 걷고 있습니다. 이 여정은 다양한 인간 작업을 이해하고, 배우고, 수행할 수 있는 복잡한 시스템인 고급 대규모 언어 모델(LLMs)과 대규모 멀티모달 모델(LMMs)에 의해 추진됩니다.

이러한 모델이 얼마나 발전했는지 측정하기 위해 다양한 평가 벤치마크를 사용합니다. 이러한 벤치마크는 이러한 모델의 기능을 이해하고 AGI 달성에 얼마나 가까운지 보여주는 도구입니다. 그러나 이러한 벤치마크를 찾고 사용하는 것은 큰 도전입니다.

언어 모델 분야에서는 lm-evaluation-harness의 선례가 귀중한 이정표가 되었습니다. 우리는 lm-evaluation-harness의 정교하고 효율적인 설계를 흡수하여 LMM의 일관되고 효율적인 평가를 위해 세심하게 만들어진 평가 프레임워크인 lmms-eval을 도입했습니다.

설치

uv 사용 (일관된 환경에 권장)

모든 개발자가 정확히 동일한 패키지 버전을 사용할 수 있도록 uv를 패키지 관리에 사용합니다. 먼저 uv를 설치하세요:

curl -LsSf https://astral.sh/uv/install.sh | sh

일관된 환경으로 개발:

git clone https://github.com/EvolvingLMMs-Lab/lmms-eval
cd lmms-eval
# 권장
uv pip install -e ".[all]"
# uv sync를 사용하려면
# uv sync  # uv.lock에서 환경을 생성/업데이트합니다

명령 실행:

uv run python -m lmms_eval --help  # uv run으로 모든 명령 실행

대체 설치 방법

Git에서 직접 사용:

uv venv eval
uv venv --python 3.12
source eval/bin/activate
# 이 설치 방법을 사용하는 경우 자체 태스크 yaml을 추가하고 포함해야 할 수 있습니다
uv pip install git+https://github.com/EvolvingLMMs-Lab/lmms-eval.git

사용법

더 많은 예제는 examples/models를 참조하세요

OpenAI 호환 모델 평가

bash examples/models/openai_compatible.sh
bash examples/models/xai_grok.sh

vLLM 평가

bash examples/models/vllm_qwen2vl.sh

LLaVA-OneVision 평가

bash examples/models/llava_onevision.sh

LLaVA-OneVision1_5 평가

bash examples/models/llava_onevision1_5.sh

LLaMA-3.2-Vision 평가

bash examples/models/llama_vision.sh

Qwen2-VL 평가

bash examples/models/qwen2_vl.sh
bash examples/models/qwen2_5_vl.sh

더 큰 모델을 위한 텐서 병렬(tensor parallel) 평가 (llava-next-72b)

bash examples/models/tensor_parallel.sh

더 큰 모델을 위한 SGLang 평가 (llava-next-72b)

bash examples/models/sglang.sh

더 큰 모델을 위한 vLLM 평가 (llava-next-72b)

bash examples/models/vllm_qwen2vl.sh

추가 파라미터

python3 -m lmms_eval --help

환경 변수 실험 및 평가를 실행하기 전에 다음 환경 변수를 설정하는 것을 권장합니다. 일부 변수는 특정 태스크 실행에 필수적입니다.

export OPENAI_API_KEY="<YOUR_API_KEY>"
export HF_HOME="<Path to HF cache>" 
export HF_TOKEN="<YOUR_API_KEY>"
export HF_HUB_ENABLE_HF_TRANSFER="1"
export REKA_API_KEY="<YOUR_API_KEY>"
# 기타 가능한 환경 변수는 다음과 같습니다:
# ANTHROPIC_API_KEY, DASHSCOPE_API_KEY 등

일반적인 환경 문제

가끔 httpx 또는 protobuf와 관련된 오류와 같은 일반적인 문제에 직면할 수 있습니다. 이러한 문제를 해결하기 위해 다음 명령어를 먼저 시도해 볼 수 있습니다:

python3 -m pip install httpx==0.23.3;
python3 -m pip install protobuf==3.20;
# numpy==2.x를 사용하는 경우 오류가 발생할 수 있습니다
python3 -m pip install numpy==1.26;
# 토크나이저 작동을 위해 sentencepiece가 필요할 수 있습니다
python3 -m pip install sentencepiece;

사용자 정의 모델 및 데이터셋 추가

문서를 참조하세요.

감사의 말

lmms_eval은 lm-eval-harness의 포크입니다. 관련 정보는 lm-eval-harness의 문서를 읽어보시기 바랍니다.

인용

@misc{zhang2024lmmsevalrealitycheckevaluation,
      title={LMMs-Eval: Reality Check on the Evaluation of Large Multimodal Models}, 
      author={Kaichen Zhang and Bo Li and Peiyuan Zhang and Fanyi Pu and Joshua Adrian Cahyono and Kairui Hu and Shuai Liu and Yuanhan Zhang and Jingkang Yang and Chunyuan Li and Ziwei Liu},
      year={2024},
      eprint={2407.12772},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2407.12772}, 
}

@misc{lmms_eval2024,
    title={LMMs-Eval: Accelerating the Development of Large Multimoal Models},
    url={https://github.com/EvolvingLMMs-Lab/lmms-eval},
    author={Bo Li*, Peiyuan Zhang*, Kaichen Zhang*, Fanyi Pu*, Xinrun Du, Yuhao Dong, Haotian Liu, Yuanhan Zhang, Ge Zhang, Chunyuan Li and Ziwei Liu},
    publisher    = {Zenodo},
    version      = {v0.1.0},
    month={March},
    year={2024}
}

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

대규모 멀티모달 모델 평가 스위트

최신 소식

왜 `lmms-eval`인가?

설치

uv 사용 (일관된 환경에 권장)

대체 설치 방법

사용법

사용자 정의 모델 및 데이터셋 추가

감사의 말

인용

FilesExpand file tree

README_ko.md

Latest commit

History

README_ko.md

File metadata and controls

대규모 멀티모달 모델 평가 스위트

최신 소식

왜 lmms-eval인가?

설치

uv 사용 (일관된 환경에 권장)

대체 설치 방법

사용법

사용자 정의 모델 및 데이터셋 추가

감사의 말

인용

왜 `lmms-eval`인가?