Skip to content

Commit dc798b0

Browse files
committed
docs: 更新文档
1 parent 504b6c0 commit dc798b0

1 file changed

Lines changed: 7 additions & 2 deletions

File tree

README.md

Lines changed: 7 additions & 2 deletions
Original file line numberDiff line numberDiff line change
@@ -5,28 +5,32 @@
55
## 功能特性
66

77
### Office 文档
8+
89
- ✅ 读取 **DOCX** (Word 文档) 的文本内容和元数据
910
- ✅ 读取 **XLSX** (Excel 表格) 的文本内容和结构化数据
1011
- ✅ 读取 **PPTX** (PowerPoint 演示文稿) 的文本内容
1112

1213
### PDF 文档
14+
1315
- ✅ 读取 **PDF** 文件的文本内容和元数据
1416

1517
### 文本格式
18+
1619
- ✅ 读取 **TXT** 纯文本文件
1720
- ✅ 读取 **CSV** 表格文件(支持结构化数据)
1821
- ✅ 读取 **Markdown** (.md) 文件
1922
- ✅ 读取 **RTF** 富文本格式(基础文本提取)
2023

2124
### 其他特性
25+
2226
- ✅ 统一的接口设计,自动识别文件格式
2327
- ✅ 提取文档元数据(标题、作者、创建时间等)
2428
- ✅ 支持中文内容
2529

2630
## 安装
2731

2832
```bash
29-
go get github.com/yourusername/docreader
33+
go get github.com/wsshow/docreader
3034
```
3135

3236
## 依赖项
@@ -46,7 +50,7 @@ package main
4650
import (
4751
"fmt"
4852
"log"
49-
"github.com/yourusername/docreader"
53+
"github.com/wsshow/docreader"
5054
)
5155

5256
func main() {
@@ -316,6 +320,7 @@ fmt.Println(doc.Content)
316320
当前 PDF 读取器使用 `ledongthuc/pdf` 库,该库对某些 PDF 文件中的中文字符(CJK 字体)支持有限。如果 PDF 文件使用了嵌入式中文字体或特殊编码,可能会出现乱码。
317321

318322
**建议**
323+
319324
- 对于包含大量中文内容的 PDF,建议使用其他专业 PDF 处理工具
320325
- 英文和数字内容可以正常提取
321326
- 元数据提取不受影响

0 commit comments

Comments
 (0)