gguf量子化したgemma-2-27b-itでELYZA-tasks100を自動評価します。
ELYZA-tasks100-ansuwer_*.pyは評価対象のggufモデルにELYZA-tasks100(test.csv)を回答させます。answer.csvが生成されます。
ELYZA-tasks100-judge_gemma-2.pyはgguf量子化したgemma-2-27b-itにanswer.csvを採点させます。judge.csvが生成されます。
ELYZA-tasks100-result.pyはELYZA-tasks100(test.csv)とanswer.csvとjudge.csvを結合します。result.csvが生成されます。
※VRAM28GB環境で検証しています。
リンクの無いものはconvert_hf_to_gguf.pyで自前で量子化したもの。
| モデル名など | スコア |
|---|---|
| QwQ-32B-imatrix-Q5_K_M.gguf | 4.19 |
| ABEJA-Qwen2.5-32b-Japanese-v0.1-IQ3.gguf | 4.13 |
| ABEJA-Qwen2.5-32b-Japanese-v0.1-imatrix-Q5_K_M.gguf | 4.04 |
| Qwen2.5-32B-Instruct-imatrix-Q5_K_M-3787.gguf | 3.98 |
| Qwen2.5-32B-Instruct-imatrix-Q4_K_M-3787.gguf | 3.92 |
| DeepSeek-R1-Distill-Qwen-32B-Japanese-imatrix-Q4_K_M.gguf | 3.90 |
| gemma-2-27b-it-imatrix-Q6_K-3490.gguf | 3.89 |
| Qwen2.5-32B-Instruct-Q4_K_M.gguf | 3.88 |
| gemma-2-27b-it-Q6_K-3436.gguf | 3.86 |
| EZO-Humanities-9B-gemma-2-it-Q8_0-3436.gguf | 3.83 |
| dahara1/gemma-2-27b-it.Q4_K_M.gguf | 3.82 |
| Gemma-2-9B-It-SPPO-Iter3-Q8_0-3436.gguf | 3.82 |
| EZO-Common-9B-gemma-2-it-f16-3436.gguf | 3.74 |
| EZO-Common-9B-gemma-2-it-Q8_0-3436.gguf | 3.73 |
| EZO-Humanities-9B-gemma-2-it-f16-3436.gguf | 3.68 |
| dahara1/gemma-2-9b-it.f16.Q8.gguf | 3.61 |
| YukiTomita-CC/ELYZA-tasks-100_Human_solved | 3.58 |
| grapevine-AI/calm3-22b-chat-Q6_K.gguf | 3.53 |
| Llama-3-ELYZA-JP-8B-Q8_0.gguf | 3.38 |
| Ninja-V3-Q8_0.gguf | 3.27 |
| mistral-yuki-7B-Q8_0.gguf | 3.12 |
| Oumuamua-7b-instruct-v2-Q8_0.gguf | 3.11 |
| Ninja-V2-7B-Q8_0.gguf | 3.09 |
| Ninja-v1-NSFW-Q_8_0.gguf | 2.88 |
| japanese-starling-chatv-7b.Q8_0.gguf | 2.87 |
| Japanese-Chat-Umievo-itr001-7b.Q8_0.gguf | 2.83 |
| chatntq-ja-7b-v1.0.Q8_0.gguf | 2.55 |
| ELYZA-japanese-Llama-2-13b-instruct-Q8_0.gguf | 2.52 |
| ReadyON/karakuri-lm-8x7b-instruct-v0.1-IQ3_XS.gguf | 2.44 |
| TheBloke/calm2-7b-chat.Q8_0.gguf | 2.15 |
採点テンプレートはうみゆき氏の次の記事のものをお借りしました。
ライセンスはELYZA-task-100に依存します。
[2024/07/15] - 初回リリース
[2024/07/22] - answer.csvに使用モデルを、judge.csvに平均点を追記するよう対応
[2024/07/22] - Qwen2に対応
[2024/07/22] - 採点者をgemma-2-27b-it-Q6_K前提に変更
[2024/09/20] - Qwen2.5に対応していることを追記
[2025/04/20] - 各回答スクリプトの出力をストリーミング化