Checklist:
描述问题
我用paddlex的官方docker,使用《通用表格识别v2产线》,对我的pdf进行识别,识别率还是挺高的。但是有一个文件,识别就很奇怪,文件结构简单,却无法识别正确:
这是原始文件:
1757295025.pdf
一方面是表格明明是正的,结果识别为倒立的
另一方面就是它基于这个倒立的图像,识别的文字自然也就识别不出或者识别错误文字。
下面这个图,就是save_to_img时,生成的。
复现
启动容器:
docker run --name paddlex \
-v $PWD:/paddle \
--shm-size=8g \
-p 8088:8088 \
-it \
ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlex/paddlex:paddlex3.3.11-paddlepaddle3.2.0-cpu \
/bin/bash
执行产线:
pipeline = create_pipeline(pipeline="table_recognition_v2")
output = pipeline.predict(
input="1757295025.pdf"
)
这里还尝试use_doc_orientation_classify和use_doc_unwarping的True或者False,均无法正确识别。
-
您是否已经正常运行我们提供的教程?
是。
-
您是否在教程的基础上修改代码内容?还请您提供运行的代码
未修改。运行代码如上。
-
您使用的数据集是?
-
请提供您出现的报错信息及相关log
未报错,就是识别结果错误。
环境
- 请提供您使用的PaddlePaddle和PaddleX的版本号
容器内置:paddlex3.3.11+paddlepaddle3.2.0
- 请提供您使用的操作系统信息,如Linux/Windows/MacOS
linux:deepin v22
- 请问您使用的Python版本是?
容器内置:Python 3.10.13
- 请问您使用的CUDA/cuDNN的版本号是?
cpu版本的paddlex的docker容器,未内置CUDA/cuDNN。
Checklist:
描述问题
我用paddlex的官方docker,使用《通用表格识别v2产线》,对我的pdf进行识别,识别率还是挺高的。但是有一个文件,识别就很奇怪,文件结构简单,却无法识别正确:
这是原始文件:
1757295025.pdf
一方面是表格明明是正的,结果识别为倒立的
另一方面就是它基于这个倒立的图像,识别的文字自然也就识别不出或者识别错误文字。
下面这个图,就是save_to_img时,生成的。
复现
启动容器:
执行产线:
这里还尝试use_doc_orientation_classify和use_doc_unwarping的True或者False,均无法正确识别。
您是否已经正常运行我们提供的教程?
是。
您是否在教程的基础上修改代码内容?还请您提供运行的代码
未修改。运行代码如上。
您使用的数据集是?
请提供您出现的报错信息及相关log
未报错,就是识别结果错误。
环境
容器内置:paddlex3.3.11+paddlepaddle3.2.0
linux:deepin v22
容器内置:Python 3.10.13
cpu版本的paddlex的docker容器,未内置CUDA/cuDNN。