블로그 글 추가: 2026-06-10-portable-vllm-model-inference-kernels-in-helion, Helion으로 작성한 이식 가능한 vLLM 모델 추론 커널#93
Merged
Merged
Conversation
PR Preview
|
2826935 to
84a7cae
Compare
… Helion으로 작성한 이식 가능한 vLLM 모델 추론 커널
84a7cae to
bcee50f
Compare
This file contains hidden or bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
Add this suggestion to a batch that can be applied as a single commit.This suggestion is invalid because no changes were made to the code.Suggestions cannot be applied while the pull request is closed.Suggestions cannot be applied while viewing a subset of changes.Only one suggestion per line can be applied in a batch.Add this suggestion to a batch that can be applied as a single commit.Applying suggestions on deleted lines is not supported.You must change the existing code in this line in order to create a valid suggestion.Outdated suggestions cannot be applied.This suggestion has been applied or marked resolved.Suggestions cannot be applied from pending reviews.Suggestions cannot be applied on multi-line comments.Suggestions cannot be applied while the pull request is queued to merge.Suggestion cannot be applied right now. Please check back later.
번역 글 소개
Helion으로 작성한 이식 가능한 vLLM 모델 추론 커널 번역 글을 추가합니다.
Qwen3 모델의 FP8 추론을 위해 PyTorch 네이티브 타일 프로그래밍 DSL인 Helion으로 작성한 커널을 vLLM에 통합하고, NVIDIA H100과 B200 GPU에서 평가한 결과를 다룹니다. 양자화·정규화·융합 위주의 비-GEMM 커널에서는 torch.compile 및 기존 CUDA 구현 대비 일관된 속도 향상을 보였고, 엔드투엔드 서빙에서도 처리량이 개선되었습니다. 다만 Blackwell(B200)에서의 GEMM 성능은 Triton 코드 생성의 한계로 아직 CUTLASS에 못 미치며, CuteDSL 백엔드 등으로 개선 작업이 진행 중임을 함께 소개합니다.