Update paths in javadoc

nanouh · nanouh · commit 9dd0dd1c2036 · 2026-03-19T14:58:28.000+01:00
Add read.md for conversion script

DEVSIX-9776
diff --git a/easyOcr_to_onnx_export/README.md b/easyOcr_to_onnx_export/README.md
@@ -0,0 +1,55 @@
+# easyOcr_to_onnx_export script
+
+### Disclaimer
+
+There is no official method for converting EasyOCR models to ONNX, so a custom approach was required.  
+The converted recognition models retain the same inputs and outputs as the original versions, while the detection models were slightly adjusted to better fit our use case.
+<br>
+
+
+## Setup Instructions
+
+Follow these steps to set up a virtual environment and install the required dependencies.
+
+### 1. Create a virtual environment
+
+```bash
+python -m venv .venv
+```
+
+---
+
+### 2. Activate the virtual environment
+
+* **Linux / macOS:**
+
+```bash
+source .venv/bin/activate
+```
+
+* **Windows:**
+
+```bash
+.venv\Scripts\activate
+```
+
+---
+
+### 3. Install dependencies
+
+Install all required packages using the `requirements.txt` file:
+
+```bash
+pip install -r requirements.txt
+```
+
+---
+
+### 4. Run the script
+
+```bash
+python easyOcr_to_onnx_export.py <model_dir>
+```
+
+Replace `<model_dir>` with the path to your EasyOCR model directory.
+
diff --git a/easyOcr_to_onnx_export/requirements.txt b/easyOcr_to_onnx_export/requirements.txt
@@ -0,0 +1,3 @@
+easyocr==1.7.2
+torch==2.8.0
+onnxscript
diff --git a/pdfocr-onnx-abstract/src/main/java/com/itextpdf/pdfocr/onnx/detection/OnnxDetectionPredictor.java b/pdfocr-onnx-abstract/src/main/java/com/itextpdf/pdfocr/onnx/detection/OnnxDetectionPredictor.java
@@ -347,19 +347,19 @@ public static OnnxDetectionPredictor linkNet(String modelPath, IOrtSessionOption
      * This method can be used to load the following PaddleOCR models:
      * <ul>
      *     <li>
-     *         <a href="https://paddle-model-ecology.bj.bcebos.com/paddlex/official_inference_model/paddle3.0.0/PP-OCRv5_server_det_infer.tar">
+     *         <a href="https://huggingface.co/itextresearch/itext-PP-OCRv5_server_det_infer">
      *             PP-OCRv5_server_det
      *         </a>
      *     <li>
-     *         <a href="https://paddle-model-ecology.bj.bcebos.com/paddlex/official_inference_model/paddle3.0.0/PP-OCRv5_mobile_det_infer.tar">
+     *         <a href="https://huggingface.co/itextresearch/itext-PP-OCRv5_mobile_det_infer">
      *             PP-OCRv5_mobile_det
      *         </a>
      *     <li>
-     *         <a href="https://paddle-model-ecology.bj.bcebos.com/paddlex/official_inference_model/paddle3.0.0/PP-OCRv4_server_det_infer.tar">
+     *         <a href="https://huggingface.co/itextresearch/itext-PP-OCRv4_server_det_infer">
      *             PP-OCRv4_server_det
      *         </a>
      *     <li>
-     *         <a href="https://paddle-model-ecology.bj.bcebos.com/paddlex/official_inference_model/paddle3.0.0/PP-OCRv4_mobile_det_infer.tar">
+     *         <a href="https://huggingface.co/itextresearch/itext-PP-OCRv4_mobile_det_infer">
      *             PP-OCRv4_mobile_det
      *         </a>
      * </ul>
@@ -403,19 +403,19 @@ public static OnnxDetectionPredictor paddleOcr(String modelDirPath) throws IOExc
      * This method can be used to load the following PaddleOCR models:
      * <ul>
      *     <li>
-     *         <a href="https://paddle-model-ecology.bj.bcebos.com/paddlex/official_inference_model/paddle3.0.0/PP-OCRv5_server_det_infer.tar">
+     *         <a href="https://huggingface.co/itextresearch/itext-PP-OCRv5_server_det_infer">
      *             PP-OCRv5_server_det
      *         </a>
      *     <li>
-     *         <a href="https://paddle-model-ecology.bj.bcebos.com/paddlex/official_inference_model/paddle3.0.0/PP-OCRv5_mobile_det_infer.tar">
+     *         <a href="https://huggingface.co/itextresearch/itext-PP-OCRv5_mobile_det_infer">
      *             PP-OCRv5_mobile_det
      *         </a>
      *     <li>
-     *         <a href="https://paddle-model-ecology.bj.bcebos.com/paddlex/official_inference_model/paddle3.0.0/PP-OCRv4_server_det_infer.tar">
+     *         <a href="https://huggingface.co/itextresearch/itext-PP-OCRv4_server_det_infer">
      *             PP-OCRv4_server_det
      *         </a>
      *     <li>
-     *         <a href="https://paddle-model-ecology.bj.bcebos.com/paddlex/official_inference_model/paddle3.0.0/PP-OCRv4_mobile_det_infer.tar">
+     *         <a href="https://huggingface.co/itextresearch/itext-PP-OCRv4_mobile_det_infer">
      *             PP-OCRv4_mobile_det
      *         </a>
      * </ul>
@@ -454,19 +454,19 @@ public static OnnxDetectionPredictor paddleOcr(String modelDirPath,
      * This method can be used to load the following PaddleOCR models:
      * <ul>
      *     <li>
-     *         <a href="https://paddle-model-ecology.bj.bcebos.com/paddlex/official_inference_model/paddle3.0.0/PP-OCRv5_server_det_infer.tar">
+     *         <a href="https://huggingface.co/itextresearch/itext-PP-OCRv5_server_det_infer">
      *             PP-OCRv5_server_det
      *         </a>
      *     <li>
-     *         <a href="https://paddle-model-ecology.bj.bcebos.com/paddlex/official_inference_model/paddle3.0.0/PP-OCRv5_mobile_det_infer.tar">
+     *         <a href="https://huggingface.co/itextresearch/itext-PP-OCRv5_mobile_det_infer">
      *             PP-OCRv5_mobile_det
      *         </a>
      *     <li>
-     *         <a href="https://paddle-model-ecology.bj.bcebos.com/paddlex/official_inference_model/paddle3.0.0/PP-OCRv4_server_det_infer.tar">
+     *         <a href="https://huggingface.co/itextresearch/itext-PP-OCRv4_server_det_infer">
      *             PP-OCRv4_server_det
      *         </a>
      *     <li>
-     *         <a href="https://paddle-model-ecology.bj.bcebos.com/paddlex/official_inference_model/paddle3.0.0/PP-OCRv4_mobile_det_infer.tar">
+     *         <a href="https://huggingface.co/itextresearch/itext-PP-OCRv4_mobile_det_infer">
      *             PP-OCRv4_mobile_det
      *         </a>
      * </ul>
@@ -503,19 +503,19 @@ public static OnnxDetectionPredictor paddleOcr(String modelPath, String configPa
      * This method can be used to load the following PaddleOCR models:
      * <ul>
      *     <li>
-     *         <a href="https://paddle-model-ecology.bj.bcebos.com/paddlex/official_inference_model/paddle3.0.0/PP-OCRv5_server_det_infer.tar">
+     *         <a href="https://huggingface.co/itextresearch/itext-PP-OCRv5_server_det_infer">
      *             PP-OCRv5_server_det
      *         </a>
      *     <li>
-     *         <a href="https://paddle-model-ecology.bj.bcebos.com/paddlex/official_inference_model/paddle3.0.0/PP-OCRv5_mobile_det_infer.tar">
+     *         <a href="https://huggingface.co/itextresearch/itext-PP-OCRv5_mobile_det_infer">
      *             PP-OCRv5_mobile_det
      *         </a>
      *     <li>
-     *         <a href="https://paddle-model-ecology.bj.bcebos.com/paddlex/official_inference_model/paddle3.0.0/PP-OCRv4_server_det_infer.tar">
+     *         <a href="https://huggingface.co/itextresearch/itext-PP-OCRv4_server_det_infer">
      *             PP-OCRv4_server_det
      *         </a>
      *     <li>
-     *         <a href="https://paddle-model-ecology.bj.bcebos.com/paddlex/official_inference_model/paddle3.0.0/PP-OCRv4_mobile_det_infer.tar">
+     *         <a href="https://huggingface.co/itextresearch/itext-PP-OCRv4_mobile_det_infer">
      *             PP-OCRv4_mobile_det
      *         </a>
      * </ul>
@@ -552,7 +552,7 @@ public static OnnxDetectionPredictor paddleOcr(String modelPath, String configPa
      * This can be used to load the following models from EasyOCR:
      * <ul>
      *     <li>
-     *         <a href="https://github.com/JaidedAI/EasyOCR/releases/download/pre-v1.1.6/craft_mlt_25k.zip">
+     *         <a href="https://huggingface.co/itextresearch/itext-EasyOCR-craft_mlt_25k">
      *             CRAFT
      *         </a>
      * </ul>
@@ -582,7 +582,7 @@ public static OnnxDetectionPredictor easyOcr(String modelPath) {
      * This can be used to load the following models from EasyOCR:
      * <ul>
      *     <li>
-     *         <a href="https://github.com/JaidedAI/EasyOCR/releases/download/pre-v1.1.6/craft_mlt_25k.zip">
+     *         <a href="https://huggingface.co/itextresearch/itext-EasyOCR-craft_mlt_25k">
      *             CRAFT
      *         </a>
      * </ul>
diff --git a/pdfocr-onnx-abstract/src/main/java/com/itextpdf/pdfocr/onnx/detection/OnnxDetectionPredictorProperties.java b/pdfocr-onnx-abstract/src/main/java/com/itextpdf/pdfocr/onnx/detection/OnnxDetectionPredictorProperties.java
@@ -426,19 +426,19 @@ public static OnnxDetectionPredictorProperties linkNet(String modelPath,
      * This method can be used to load the following PaddleOCR models:
      * <ul>
      *     <li>
-     *         <a href="https://paddle-model-ecology.bj.bcebos.com/paddlex/official_inference_model/paddle3.0.0/PP-OCRv5_server_det_infer.tar">
+     *         <a href="https://huggingface.co/itextresearch/itext-PP-OCRv5_server_det_infer">
      *             PP-OCRv5_server_det
      *         </a>
      *     <li>
-     *         <a href="https://paddle-model-ecology.bj.bcebos.com/paddlex/official_inference_model/paddle3.0.0/PP-OCRv5_mobile_det_infer.tar">
+     *         <a href="https://huggingface.co/itextresearch/itext-PP-OCRv5_mobile_det_infer">
      *             PP-OCRv5_mobile_det
      *         </a>
      *     <li>
-     *         <a href="https://paddle-model-ecology.bj.bcebos.com/paddlex/official_inference_model/paddle3.0.0/PP-OCRv4_server_det_infer.tar">
+     *         <a href="https://huggingface.co/itextresearch/itext-PP-OCRv4_server_det_infer">
      *             PP-OCRv4_server_det
      *         </a>
      *     <li>
-     *         <a href="https://paddle-model-ecology.bj.bcebos.com/paddlex/official_inference_model/paddle3.0.0/PP-OCRv4_mobile_det_infer.tar">
+     *         <a href="https://huggingface.co/itextresearch/itext-PP-OCRv4_mobile_det_infer">
      *             PP-OCRv4_mobile_det
      *         </a>
      * </ul>
@@ -480,19 +480,19 @@ public static OnnxDetectionPredictorProperties paddleOcr(String modelDirPath) th
      * This method can be used to load the following PaddleOCR models:
      * <ul>
      *     <li>
-     *         <a href="https://paddle-model-ecology.bj.bcebos.com/paddlex/official_inference_model/paddle3.0.0/PP-OCRv5_server_det_infer.tar">
+     *         <a href="https://huggingface.co/itextresearch/itext-PP-OCRv5_server_det_infer">
      *             PP-OCRv5_server_det
      *         </a>
      *     <li>
-     *         <a href="https://paddle-model-ecology.bj.bcebos.com/paddlex/official_inference_model/paddle3.0.0/PP-OCRv5_mobile_det_infer.tar">
+     *         <a href="https://huggingface.co/itextresearch/itext-PP-OCRv5_mobile_det_infer">
      *             PP-OCRv5_mobile_det
      *         </a>
      *     <li>
-     *         <a href="https://paddle-model-ecology.bj.bcebos.com/paddlex/official_inference_model/paddle3.0.0/PP-OCRv4_server_det_infer.tar">
+     *         <a href="https://huggingface.co/itextresearch/itext-PP-OCRv4_server_det_infer">
      *             PP-OCRv4_server_det
      *         </a>
      *     <li>
-     *         <a href="https://paddle-model-ecology.bj.bcebos.com/paddlex/official_inference_model/paddle3.0.0/PP-OCRv4_mobile_det_infer.tar">
+     *         <a href="https://huggingface.co/itextresearch/itext-PP-OCRv4_mobile_det_infer">
      *             PP-OCRv4_mobile_det
      *         </a>
      * </ul>
@@ -529,19 +529,19 @@ public static OnnxDetectionPredictorProperties paddleOcr(String modelDirPath,
      * This method can be used to load the following PaddleOCR models:
      * <ul>
      *     <li>
-     *         <a href="https://paddle-model-ecology.bj.bcebos.com/paddlex/official_inference_model/paddle3.0.0/PP-OCRv5_server_det_infer.tar">
+     *         <a href="https://huggingface.co/itextresearch/itext-PP-OCRv5_server_det_infer">
      *             PP-OCRv5_server_det
      *         </a>
      *     <li>
-     *         <a href="https://paddle-model-ecology.bj.bcebos.com/paddlex/official_inference_model/paddle3.0.0/PP-OCRv5_mobile_det_infer.tar">
+     *         <a href="https://huggingface.co/itextresearch/itext-PP-OCRv5_mobile_det_infer">
      *             PP-OCRv5_mobile_det
      *         </a>
      *     <li>
-     *         <a href="https://paddle-model-ecology.bj.bcebos.com/paddlex/official_inference_model/paddle3.0.0/PP-OCRv4_server_det_infer.tar">
+     *         <a href="https://huggingface.co/itextresearch/itext-PP-OCRv4_server_det_infer">
      *             PP-OCRv4_server_det
      *         </a>
      *     <li>
-     *         <a href="https://paddle-model-ecology.bj.bcebos.com/paddlex/official_inference_model/paddle3.0.0/PP-OCRv4_mobile_det_infer.tar">
+     *         <a href="https://huggingface.co/itextresearch/itext-PP-OCRv4_mobile_det_infer">
      *             PP-OCRv4_mobile_det
      *         </a>
      * </ul>
@@ -576,19 +576,19 @@ public static OnnxDetectionPredictorProperties paddleOcr(String modelPath, Strin
      * This method can be used to load the following PaddleOCR models:
      * <ul>
      *     <li>
-     *         <a href="https://paddle-model-ecology.bj.bcebos.com/paddlex/official_inference_model/paddle3.0.0/PP-OCRv5_server_det_infer.tar">
+     *         <a href="https://huggingface.co/itextresearch/itext-PP-OCRv5_server_det_infer">
      *             PP-OCRv5_server_det
      *         </a>
      *     <li>
-     *         <a href="https://paddle-model-ecology.bj.bcebos.com/paddlex/official_inference_model/paddle3.0.0/PP-OCRv5_mobile_det_infer.tar">
+     *         <a href="https://huggingface.co/itextresearch/itext-PP-OCRv5_mobile_det_infer">
      *             PP-OCRv5_mobile_det
      *         </a>
      *     <li>
-     *         <a href="https://paddle-model-ecology.bj.bcebos.com/paddlex/official_inference_model/paddle3.0.0/PP-OCRv4_server_det_infer.tar">
+     *         <a href="https://huggingface.co/itextresearch/itext-PP-OCRv4_server_det_infer">
      *             PP-OCRv4_server_det
      *         </a>
      *     <li>
-     *         <a href="https://paddle-model-ecology.bj.bcebos.com/paddlex/official_inference_model/paddle3.0.0/PP-OCRv4_mobile_det_infer.tar">
+     *         <a href="https://huggingface.co/itextresearch/itext-PP-OCRv4_mobile_det_infer">
      *             PP-OCRv4_mobile_det
      *         </a>
      * </ul>
@@ -629,7 +629,7 @@ public static OnnxDetectionPredictorProperties paddleOcr(String modelPath, Strin
      * This can be used to load the following models from EasyOCR:
      * <ul>
      *     <li>
-     *         <a href="https://github.com/JaidedAI/EasyOCR/releases/download/pre-v1.1.6/craft_mlt_25k.zip">
+     *         <a href="https://huggingface.co/itextresearch/itext-EasyOCR-craft_mlt_25k">
      *             CRAFT
      *         </a>
      * </ul>
@@ -659,7 +659,7 @@ public static OnnxDetectionPredictorProperties easyOcr(String modelPath) {
      * This can be used to load the following models from EasyOCR:
      * <ul>
      *     <li>
-     *         <a href="https://github.com/JaidedAI/EasyOCR/releases/download/pre-v1.1.6/craft_mlt_25k.zip">
+     *         <a href="https://huggingface.co/itextresearch/itext-EasyOCR-craft_mlt_25k">
      *             CRAFT
      *         </a>
      * </ul>
diff --git a/pdfocr-onnx-abstract/src/main/java/com/itextpdf/pdfocr/onnx/recognition/OnnxRecognitionPredictor.java b/pdfocr-onnx-abstract/src/main/java/com/itextpdf/pdfocr/onnx/recognition/OnnxRecognitionPredictor.java
diff --git a/pdfocr-onnx-abstract/src/main/java/com/itextpdf/pdfocr/onnx/recognition/OnnxRecognitionPredictorProperties.java b/pdfocr-onnx-abstract/src/main/java/com/itextpdf/pdfocr/onnx/recognition/OnnxRecognitionPredictorProperties.java

Original file line number	Diff line number	Diff line change
`@@ -0,0 +1,3 @@`
	`1`	`+easyocr==1.7.2`
	`2`	`+torch==2.8.0`
	`3`	`+onnxscript`