itext
diff --git a/‎pdfocr-onnxtr/pom.xml‎
Lines changed: 3 additions & 0 deletions b/‎pdfocr-onnxtr/pom.xml‎
Lines changed: 3 additions & 0 deletions
diff --git a/‎pdfocr-onnxtr/src/main/java/com/itextpdf/pdfocr/onnxtr/recognition/OnnxRecognitionPredictor.java‎
Lines changed: 30 additions & 1 deletion b/‎pdfocr-onnxtr/src/main/java/com/itextpdf/pdfocr/onnxtr/recognition/OnnxRecognitionPredictor.java‎
Lines changed: 30 additions & 1 deletion
diff --git a/‎pdfocr-onnxtr/src/main/java/com/itextpdf/pdfocr/onnxtr/recognition/OnnxRecognitionPredictorProperties.java‎
Lines changed: 29 additions & 1 deletion b/‎pdfocr-onnxtr/src/main/java/com/itextpdf/pdfocr/onnxtr/recognition/OnnxRecognitionPredictorProperties.java‎
Lines changed: 29 additions & 1 deletion
diff --git a/‎pdfocr-onnxtr/src/main/java/com/itextpdf/pdfocr/onnxtr/recognition/Vocabulary.java‎
Lines changed: 1057 additions & 0 deletions b/‎pdfocr-onnxtr/src/main/java/com/itextpdf/pdfocr/onnxtr/recognition/Vocabulary.java‎
Lines changed: 1057 additions & 0 deletions
diff --git a/‎pdfocr-onnxtr/src/test/java/com/itextpdf/pdfocr/onnxtr/OnnxDoImageOcrLanguagesTest.java‎
Lines changed: 171 additions & 53 deletions b/‎pdfocr-onnxtr/src/test/java/com/itextpdf/pdfocr/onnxtr/OnnxDoImageOcrLanguagesTest.java‎
Lines changed: 171 additions & 53 deletions
diff --git a/‎pdfocr-onnxtr/src/test/java/com/itextpdf/pdfocr/onnxtr/OnnxTRCmykIntegrationTest.java‎
Lines changed: 0 additions & 3 deletions b/‎pdfocr-onnxtr/src/test/java/com/itextpdf/pdfocr/onnxtr/OnnxTRCmykIntegrationTest.java‎
Lines changed: 0 additions & 3 deletions
diff --git a/‎pdfocr-onnxtr/src/test/resources/com/itextpdf/pdfocr/images/russian.jpg‎
22.2 KB b/‎pdfocr-onnxtr/src/test/resources/com/itextpdf/pdfocr/images/russian.jpg‎
22.2 KB
@@ -39,6 +39,9 @@
 
   <properties>
     <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
+    <sonar.exclusions>
+      **com/itextpdf/pdfocr/onnxtr/recognition/Vocabulary.java
+    </sonar.exclusions>
   </properties>
 
   <build>
 
@@ -158,7 +158,36 @@ public static OnnxRecognitionPredictor master(String modelPath) {
      * @return a new predictor object with the PARSeq model loaded
      */
     public static OnnxRecognitionPredictor parSeq(String modelPath) {
-        return new OnnxRecognitionPredictor(OnnxRecognitionPredictorProperties.parSeq(modelPath));
+        return new OnnxRecognitionPredictor(
+                OnnxRecognitionPredictorProperties.parSeq(modelPath));
+    }
+
+    /**
+     * Creates a new text recognition predictor using an existing pre-trained
+     * PARSeq model, stored on disk.
+     *
+     * <p>
+     * This can be used to load the following models from OnnxTR:
+     * <ul>
+     *     <li>
+     *         <a href="https://github.com/felixdittrich92/OnnxTR/releases/download/v0.0.1/parseq-00b40714.onnx">
+     *             parseq
+     *         </a>
+     *     <li>
+     *         <a href="https://github.com/felixdittrich92/OnnxTR/releases/download/v0.1.2/parseq_dynamic_8_bit-5b04d9f7.onnx">
+     *             parseq (8-bit quantized)
+     *         </a>
+     * </ul>
+     *
+     * @param modelPath path to the pre-trained model
+     * @param vocabulary vocabulary used for the model output (without special tokens)
+     * @param additionalTokens amount of additional tokens in the total vocabulary after the end-of-string token
+     *
+     * @return a new predictor object with the PARSeq model loaded
+     */
+    public static OnnxRecognitionPredictor parSeq(String modelPath, Vocabulary vocabulary, int additionalTokens) {
+        return new OnnxRecognitionPredictor(
+                OnnxRecognitionPredictorProperties.parSeq(modelPath, vocabulary, additionalTokens));
     }
 
     /**
 
@@ -175,10 +175,38 @@ public static OnnxRecognitionPredictorProperties master(String modelPath) {
      * @return a new text recognition properties object for a PARSeq model
      */
     public static OnnxRecognitionPredictorProperties parSeq(String modelPath) {
+        return OnnxRecognitionPredictorProperties.parSeq(modelPath, Vocabulary.LATIN_EXTENDED, 0);
+    }
+
+    /**
+     * Creates a new text recognition properties object for existing pre-trained
+     * PARSeq models, stored on disk.
+     *
+     * <p>
+     * This can be used to load the following models from OnnxTR:
+     * <ul>
+     *     <li>
+     *         <a href="https://github.com/felixdittrich92/OnnxTR/releases/download/v0.0.1/parseq-00b40714.onnx">
+     *             parseq
+     *         </a>
+     *     <li>
+     *         <a href="https://github.com/felixdittrich92/OnnxTR/releases/download/v0.1.2/parseq_dynamic_8_bit-5b04d9f7.onnx">
+     *             parseq (8-bit quantized)
+     *         </a>
+     * </ul>
+     *
+     * @param modelPath path to the pre-trained model
+     * @param vocabulary vocabulary used for the model output (without special tokens)
+     * @param additionalTokens amount of additional tokens in the total vocabulary after the end-of-string token
+     *
+     * @return a new text recognition properties object for a PARSeq model
+     */
+    public static OnnxRecognitionPredictorProperties parSeq(String modelPath, Vocabulary vocabulary,
+                                                            int additionalTokens) {
         return new OnnxRecognitionPredictorProperties(
                 modelPath,
                 DEFAULT_INPUT_PROPERTIES,
-                new EndOfStringPostProcessor(Vocabulary.FRENCH, 0)
+                new EndOfStringPostProcessor(vocabulary, additionalTokens)
         );
     }
 
 
@@ -140,9 +140,6 @@ private static boolean isFixedInJdk(String versionStr) {
         String[] split = versionStr.split("[._-]");
         int minorVer = Integer.parseInt(split[split.length - 1]);
 
-        if (minorVer % 10 == 2) {
-            return false;
-        }
         switch (majorVer) {
             case 8:
                 isFixed = minorVer >= 351;