Skip to content

블로그 글 추가: 2026-06-10-portable-vllm-model-inference-kernels-in-helion, Helion으로 작성한 이식 가능한 vLLM 모델 추론 커널#93

Merged
9bow merged 1 commit into
masterfrom
blog/helion-vllm-kernels
Jun 14, 2026
Merged

블로그 글 추가: 2026-06-10-portable-vllm-model-inference-kernels-in-helion, Helion으로 작성한 이식 가능한 vLLM 모델 추론 커널#93
9bow merged 1 commit into
masterfrom
blog/helion-vllm-kernels

Conversation

@9bow

@9bow 9bow commented Jun 14, 2026

Copy link
Copy Markdown
Member

번역 글 소개

Helion으로 작성한 이식 가능한 vLLM 모델 추론 커널 번역 글을 추가합니다.

Qwen3 모델의 FP8 추론을 위해 PyTorch 네이티브 타일 프로그래밍 DSL인 Helion으로 작성한 커널을 vLLM에 통합하고, NVIDIA H100과 B200 GPU에서 평가한 결과를 다룹니다. 양자화·정규화·융합 위주의 비-GEMM 커널에서는 torch.compile 및 기존 CUDA 구현 대비 일관된 속도 향상을 보였고, 엔드투엔드 서빙에서도 처리량이 개선되었습니다. 다만 Blackwell(B200)에서의 GEMM 성능은 Triton 코드 생성의 한계로 아직 CUTLASS에 못 미치며, CuteDSL 백엔드 등으로 개선 작업이 진행 중임을 함께 소개합니다.

@github-actions

github-actions Bot commented Jun 14, 2026

Copy link
Copy Markdown

PR Preview

미리보기가 삭제되었습니다.

PR이 닫혀 미리보기가 자동으로 정리되었습니다.

@9bow 9bow force-pushed the blog/helion-vllm-kernels branch 2 times, most recently from 2826935 to 84a7cae Compare June 14, 2026 13:01
… Helion으로 작성한 이식 가능한 vLLM 모델 추론 커널
@9bow 9bow force-pushed the blog/helion-vllm-kernels branch from 84a7cae to bcee50f Compare June 14, 2026 13:05
@9bow 9bow merged commit dce8186 into master Jun 14, 2026
2 of 3 checks passed
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Labels

None yet

Projects

None yet

Development

Successfully merging this pull request may close these issues.

1 participant