File tree Expand file tree Collapse file tree
Expand file tree Collapse file tree Original file line number Diff line number Diff line change 55## 功能特性
66
77### Office 文档
8+
89- ✅ 读取 ** DOCX** (Word 文档) 的文本内容和元数据
910- ✅ 读取 ** XLSX** (Excel 表格) 的文本内容和结构化数据
1011- ✅ 读取 ** PPTX** (PowerPoint 演示文稿) 的文本内容
1112
1213### PDF 文档
14+
1315- ✅ 读取 ** PDF** 文件的文本内容和元数据
1416
1517### 文本格式
18+
1619- ✅ 读取 ** TXT** 纯文本文件
1720- ✅ 读取 ** CSV** 表格文件(支持结构化数据)
1821- ✅ 读取 ** Markdown** (.md) 文件
1922- ✅ 读取 ** RTF** 富文本格式(基础文本提取)
2023
2124### 其他特性
25+
2226- ✅ 统一的接口设计,自动识别文件格式
2327- ✅ 提取文档元数据(标题、作者、创建时间等)
2428- ✅ 支持中文内容
2529
2630## 安装
2731
2832``` bash
29- go get github.com/yourusername /docreader
33+ go get github.com/wsshow /docreader
3034```
3135
3236## 依赖项
@@ -46,7 +50,7 @@ package main
4650import (
4751 " fmt"
4852 " log"
49- " github.com/yourusername /docreader"
53+ " github.com/wsshow /docreader"
5054)
5155
5256func main () {
@@ -316,6 +320,7 @@ fmt.Println(doc.Content)
316320当前 PDF 读取器使用 ` ledongthuc/pdf ` 库,该库对某些 PDF 文件中的中文字符(CJK 字体)支持有限。如果 PDF 文件使用了嵌入式中文字体或特殊编码,可能会出现乱码。
317321
318322** 建议** :
323+
319324- 对于包含大量中文内容的 PDF,建议使用其他专业 PDF 处理工具
320325- 英文和数字内容可以正常提取
321326- 元数据提取不受影响
You can’t perform that action at this time.
0 commit comments