Skip to content

Commit f7e5278

Browse files
authored
Create 2026-02-06-phupha.md
1 parent 210ffb7 commit f7e5278

1 file changed

Lines changed: 37 additions & 0 deletions

File tree

_posts/2026-02-06-phupha.md

Lines changed: 37 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,37 @@
1+
---
2+
layout: post
3+
title: "เปิดตัว ภูผา: ชุดข้อมูลความถี่คำภาษาไทย"
4+
gh-repo: pythainlp/Phupha-Word-freq
5+
gh-badge: [star, fork]
6+
categories: [news]
7+
comments: true
8+
---
9+
ผมได้ปล่อยชุดข้อมูลภาษาไทยตัวใหม่ ชื่อ "ภูผา (Phupha)" เป็นชุดข้อมูลความถี่คำภาษาไทยจาก CommonCrawl โดย CommonCrawl เป็นชุดข้อมูลที่รวบรวมหน้าเว็บจากอินเทอร์เน็ตเอาไว้ โดยผมได้ใช้ Infini-gram mini API ช่วยสำหรับดึงความถี่คำภาษาไทยจาก CommonCrawl Corpus (Common Crawl July 2025 Crawl) มาเก็บไว้
10+
11+
ชุดข้อมูล Phupha มีขนาดคำ 62,265 คำ (มีภาษาอังกฤษหลุดมาหนึ่งคำคือคำว่า word) โดยคำเป็นคำที่มาจากพจนานุกรมตัดคำภาษาไทยของ PyThaiNLP และรายการคำศัพท์ภาษาไทยจากราชบัณฑิตยสภา
12+
13+
โหลดได้ที่ [https://github.com/PyThaiNLP/Phupha-Word-freq](https://github.com/PyThaiNLP/Phupha-Word-freq)
14+
15+
**สถิติน่าสนใจ**
16+
17+
สำหรับ Common Crawl July 2025 Crawl คำภาษาไทยที่มีมากที่สุด 10 อันดับแรกมีดังนี้
18+
19+
| | word | count |
20+
| --- | --- | --- |
21+
| 61861 | กา | 193460292 |
22+
| 11281 | ที | 178316719 |
23+
| 15767 | การ | 170924829 |
24+
| 29153 | อง | 168370283 |
25+
| 58407 | ที่ | 162917982 |
26+
| 33326 | ระ | 108382029 |
27+
| 13826 | มา | 98172980 |
28+
| 10729 | แล | 96606598 |
29+
| 40491 | ละ | 85820577 |
30+
| 12358 | รา | 83917626 |
31+
32+
จะเห็นได้ว่าคำว่า "กา" มีความถี่สูงที่สุด
33+
34+
หากใครต้องการค้นคำอื่น ๆ หรือหาตัวอย่างข้อความที่ใช้คำดังกล่าว [https://huggingface.co/spaces/infini-gram-mini/infini-gram-mini](https://huggingface.co/spaces/infini-gram-mini/infini-gram-mini)
35+
36+
37+
อ่านรายละเอียดเกี่ยวกับ Infini-gram mini ได้ที่ [https://infini-gram-mini.io/](https://infini-gram-mini.io/)

0 commit comments

Comments
 (0)