File tree Expand file tree Collapse file tree
Expand file tree Collapse file tree Original file line number Diff line number Diff line change 1+ ---
2+ layout : post
3+ title : " เปิดตัว ภูผา: ชุดข้อมูลความถี่คำภาษาไทย"
4+ gh-repo : pythainlp/Phupha-Word-freq
5+ gh-badge : [star, fork]
6+ categories : [news]
7+ comments : true
8+ ---
9+ ผมได้ปล่อยชุดข้อมูลภาษาไทยตัวใหม่ ชื่อ "ภูผา (Phupha)" เป็นชุดข้อมูลความถี่คำภาษาไทยจาก CommonCrawl โดย CommonCrawl เป็นชุดข้อมูลที่รวบรวมหน้าเว็บจากอินเทอร์เน็ตเอาไว้ โดยผมได้ใช้ Infini-gram mini API ช่วยสำหรับดึงความถี่คำภาษาไทยจาก CommonCrawl Corpus (Common Crawl July 2025 Crawl) มาเก็บไว้
10+
11+ ชุดข้อมูล Phupha มีขนาดคำ 62,265 คำ (มีภาษาอังกฤษหลุดมาหนึ่งคำคือคำว่า word) โดยคำเป็นคำที่มาจากพจนานุกรมตัดคำภาษาไทยของ PyThaiNLP และรายการคำศัพท์ภาษาไทยจากราชบัณฑิตยสภา
12+
13+ โหลดได้ที่ [ https://github.com/PyThaiNLP/Phupha-Word-freq ] ( https://github.com/PyThaiNLP/Phupha-Word-freq )
14+
15+ ** สถิติน่าสนใจ**
16+
17+ สำหรับ Common Crawl July 2025 Crawl คำภาษาไทยที่มีมากที่สุด 10 อันดับแรกมีดังนี้
18+
19+ | | word | count |
20+ | --- | --- | --- |
21+ | 61861 | กา | 193460292 |
22+ | 11281 | ที | 178316719 |
23+ | 15767 | การ | 170924829 |
24+ | 29153 | อง | 168370283 |
25+ | 58407 | ที่ | 162917982 |
26+ | 33326 | ระ | 108382029 |
27+ | 13826 | มา | 98172980 |
28+ | 10729 | แล | 96606598 |
29+ | 40491 | ละ | 85820577 |
30+ | 12358 | รา | 83917626 |
31+
32+ จะเห็นได้ว่าคำว่า "กา" มีความถี่สูงที่สุด
33+
34+ หากใครต้องการค้นคำอื่น ๆ หรือหาตัวอย่างข้อความที่ใช้คำดังกล่าว [ https://huggingface.co/spaces/infini-gram-mini/infini-gram-mini ] ( https://huggingface.co/spaces/infini-gram-mini/infini-gram-mini )
35+
36+
37+ อ่านรายละเอียดเกี่ยวกับ Infini-gram mini ได้ที่ [ https://infini-gram-mini.io/ ] ( https://infini-gram-mini.io/ )
You can’t perform that action at this time.
0 commit comments