Skip to content

Commit e4a21ee

Browse files
committed
WIP Tibetan and test update.
1 parent 29eb4ee commit e4a21ee

25 files changed

Lines changed: 204 additions & 155 deletions

ext/arabic_rom

scriptshifter/hooks/arabic/build_model.sh

Lines changed: 2 additions & 2 deletions
Original file line numberDiff line numberDiff line change
@@ -38,6 +38,6 @@ python3 src/loc_transcribe.py predict mle dev --mle_model models/mle/size1.0.tsv
3838

3939
# Seq2Seq
4040
echo "Preparing Seq2seq."
41-
make prep_seq2seq
41+
python3 src/data/make_seq2seq_dataset.py -l ${SS_LANG}
4242
echo "Training models."
43-
python3 src/loc_transcribe.py train seq2seq --train --size {1.0,0.5,0.25,0.125,0.0625,0.03125,0.015625}
43+
python3 src/data/make_seq2seq_dataset.py --size {1.0,0.5,0.25,0.125,0.0625,0.03125,0.015625}

scriptshifter/tables/data/tibetan.yml

Lines changed: 1 addition & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -87,6 +87,7 @@ roman_to_script:
8787
"%\u02BC": "\u0F60"
8888
"%\u02BE": "\u0F60"
8989
"%\u0027": "\u0F60"
90+
"%\u02BE": "\u0F60"
9091
"%\u0027": "\u0F60"
9192

9293
# OTHER TIBETAN MARKS

test/data/script_samples/arabic2.csv

Lines changed: 94 additions & 94 deletions
Large diffs are not rendered by default.
Lines changed: 31 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,31 @@
1+
#!/usr/bin/env python
2+
3+
__doc__ = """
4+
Usage: decompose_samples.py
5+
6+
Use this script to normalize Roman map keys to use combining characters
7+
(decomposed glyphs) vs. pre-composed glyphs.
8+
9+
The script will create a new CSV file named according to the source.
10+
E.g. `myscript.csv` → `myscript_norm.csv`.
11+
12+
NOTE: the script does not parse the CSV, it scans it as a plain text file. It
13+
is unlikely but possible that some normalization may lead to an invalid CSV.
14+
"""
15+
16+
from os import path
17+
from unicodedata import normalize
18+
from glob import glob
19+
20+
for fname in glob("*.csv"):
21+
dest_fname = path.splitext(fname)[0] + "_norm.csv"
22+
with open(fname) as fh:
23+
data = fh.read()
24+
25+
norm_data = normalize("NFD", data)
26+
27+
with open(dest_fname, "w") as fh:
28+
fh.write(norm_data)
29+
print(f"Normalized {fname} to {dest_fname}.")
30+
31+
print("Done.")

test/data/script_samples/greek.csv

Lines changed: 56 additions & 56 deletions
Original file line numberDiff line numberDiff line change
@@ -1,57 +1,57 @@
1-
greek_classical,Ἡσιόδου τοῦ Ἀσκραίου Ἔργα καὶ ἡμέραι,Hēsiodou tou Askraiou Erga kai hēmerai,,
2-
greek_classical,Ἡ τοῦ Ὁμήρου Ἰλιάς, tou Homērou Ilias,,
3-
greek_classical,Φίληβος ἢ Περὶ ἡδονῆς,Philēbos ē Peri hēdonēs,,
4-
greek_classical,Ἀγνώστῳ θεῷ,Agnōstō theō,,
5-
greek_classical,κεῖται παρ’ Ἅιδῃ,keitai par’ Hadē,,
6-
greek_classical,Αἴτια Ῥωμαϊκά,Aitia Rhōmaika,,
7-
greek_classical,Ὅτι οὐδ’ ἡδέως ζῆν ἔστι κατ’ Ἐπίκουρον,Hoti oud’ hēdeōs zēn esti kat’ Epikouron,,
8-
greek_classical,Περὶ τοῦ μὴ ῥᾳδίως πιστεύειν διαβολῇ,Peri tou mē rhadiōs pisteuein diabolē,,
9-
greek_classical,ἀΰπνους νύκτας ἴαυον,aypnous nyktas iauon,,
10-
greek_classical,Λητοῦς καὶ Διὸς υἱός,Lētous kai Dios huios,,
11-
greek_classical,ὑϊκὸν πάσχειν,hyikon paschein,,
12-
greek_classical,εἶπε πρὸς τὸν ἄνδρα τὸν ἑωυτῆς,eipe pros ton andra ton heōutēs,,
13-
greek_classical,τί τοῦδ’ ἂν εὕρημ’ ηὗρον εὐτυχέστερον;,ti toud’ an heurēm’ hēuron eutychesteron?,,
14-
greek_classical,Τοῦ Κατὰ πασῶν αἱρέσεων ἐλέγχου βιβλίον αʹ,Tou Kata pasōn haireseōn elenchou biblion 1,,
15-
greek_classical,καλὸν κἀγαθόν,kalon kagathon,,
16-
greek_classical,ᾤχοντο θοἰμάτιον λαβόντες μου,ōchonto thoimation labontes mou,,
17-
greek_classical,Περὶ ἰλίγγων,Peri ilingōn,,
18-
greek_classical,ὅτε τ’ ἴαχε σάλπιγξ,hote t’ iache salpinx,,
19-
greek_classical,Ἐγχειρίδιον ἁρμονικῆς,Encheiridion harmonikēs,,
20-
greek_classical,ἄλαϲτα δὲ ϝέργα πάθον κακὰ μηϲαμένοι,alasta de werga pathon kaka mēsamenoi,,
21-
greek_classical,Δαμαρέτα τ’ ἐρατά τε Ϝιανθεμίϲ,Damareta t’ erata te Wianthemis,,
22-
greek_classical,ξένϝος,xenwos,,
23-
greek_classical,Πάτροϙλος,Patroḳlos,,
24-
greek_classical,"λβʹ. Ἐπεὶ δὲ ἡ τύχη κράτιστον ἐπὶ πάντα τὰ ἀνθρώπεια, μηδὲ Ἡλιόδωρος ἀπαξιούσθω σοφιστῶν κύκλου παράδοξον ἀγώνισμα τύχης γενόμενος·","32. Epei de ē tychi kratiston epi panta ta anthrōpeia, mide Hēliodōros apaxiousthō sophistōn kyklou paradoxon agōnisma tychis genomenos",,
25-
greek_classical,"κζʹ. Μὴ δεύτερα τῶν προειρημένων σοφιστῶν μηδὲ Ἱππόδρομόν τις ἡγείσθω τὸν Θετταλόν, τῶν μὲν γὰρ βελτίων φαίνεται, τῶν δὲ οὐκ οἶδα ὅ τι λείπεται","27. deutera tōn proeirēmenōn sophistōn mide Ippodromon tis ēgeisthō ton Thettalon, tōn men gar beltiōn phainetai, tōn de ouk oida o ti leipetai",,
26-
greek_classical,"ιγʹ. Πῶλον δὲ τὸν Ἀκραγαντῖνον Γοργίας σοφιστὴν ἐξεμελέτησε πολλῶν, ὥς φασι, χρημάτων, καὶ γὰρ δὴ καὶ τῶν πλουτούντων ὁ Πῶλος.","13. Pōlon de ton Akragantinon Gorgias sophistēn exemeletēse pollōn, ōs phasi, chrēmatōn, kai gar kai tōn ploutountōn o Pōlos",,
27-
greek_modern,"Ἐτήσια ἔκθεσις / Κυπριακὴ Δημοκρατία, Ὑπουργεῖον Ἐργασίας καὶ Κοινωνικῶν Ἀσφαλίσεων","Etēsia ekthesis / Kypriakē Dēmokratia, Hypourgeion Ergasias kai Koinōnikōn Asphaliseōn",,
28-
greek_modern,"Ετήσια έκθεση / Κυπριακή Δημοκρατία, Υπουργείο Εργασίας και Κοινωνικών Ασφαλίσεων","Etēsia ekthesē / Kypriakē Dēmokratia, Hypourgeio Ergasias kai Koinōnikōn Asphaliseōn",,
29-
greek_modern,Ελληνικό Ίδρυμα Ευρωπαϊκής και Εξωτερικής Πολιτικής,Hellēniko Hidryma Eurōpaikēs kai Exōterikēs Politikēs,,
30-
greek_modern,Ελευθέριος Δ. Παυλίδης,Eleutherios D. Paulidēs,,
31-
greek_modern,Ορθόδοξος Αυτοκέφαλος Εκκλησία της Αλβανίας,Orthodoxos Autokephalos Ekklēsia tēs Alvanias,,
32-
greek_modern,Βίος και πολιτεία του Αλέξη Ζορμπά,Vios kai politeia tou Alexē Zormpa,,
33-
greek_modern,Βίος καὶ πολιτεία τοῦ Ἀλέξη Ζορμπᾶ,Vios kai politeia tou Alexē Zormpa,,
34-
greek_modern,Λασκαρίνα Μπουμπουλίνα,Laskarina Boumpoulina,,
35-
greek_modern,Νταίηβιντ Μίτσελ,Ḏaiēvint Mitsel,,
36-
greek_modern,Τζαίημς Τζόυς,Tzaiēms Tzoys,,
37-
greek_modern,Ἡ κοινωνιολογία τοῦ ρεμπέτικου,Hē koinōniologia tou rempetikou,,
38-
greek_modern,Βίλλυ Μπραντ,Villy Brant,,
1+
greek_classical,Ἡσιόδου τοῦ Ἀσκραίου Ἔργα καὶ ἡμέραι,Hēsiodou tou Askraiou Erga kai hēmerai,,
2+
greek_classical,Ἡ τοῦ Ὁμήρου Ἰλιάς,Hē tou Homērou Ilias,,
3+
greek_classical,Φίληβος ἢ Περὶ ἡδονῆς,Philēbos ē Peri hēdonēs,,
4+
greek_classical,Ἀγνώστῳ θεῷ,Agnōstō theō,,
5+
greek_classical,κεῖται παρ’ Ἅιδῃ,keitai par’ Hadē,,
6+
greek_classical,Αἴτια Ῥωμαϊκά,Aitia Rhōmaika,,
7+
greek_classical,Ὅτι οὐδ’ ἡδέως ζῆν ἔστι κατ’ Ἐπίκουρον,Hoti oud’ hēdeōs zēn esti kat’ Epikouron,,
8+
greek_classical,Περὶ τοῦ μὴ ῥᾳδίως πιστεύειν διαβολῇ,Peri tou mē rhadiōs pisteuein diabolē,,
9+
greek_classical,ἀΰπνους νύκτας ἴαυον,aypnous nyktas iauon,,
10+
greek_classical,Λητοῦς καὶ Διὸς υἱός,Lētous kai Dios huios,,
11+
greek_classical,ὑϊκὸν πάσχειν,hyikon paschein,,
12+
greek_classical,εἶπε πρὸς τὸν ἄνδρα τὸν ἑωυτῆς,eipe pros ton andra ton heōutēs,,
13+
greek_classical,τί τοῦδ’ ἂν εὕρημ’ ηὗρον εὐτυχέστερον;,ti toud’ an heurēm’ hēuron eutychesteron?,,
14+
greek_classical,Τοῦ Κατὰ πασῶν αἱρέσεων ἐλέγχου βιβλίον αʹ,Tou Kata pasōn haireseōn elenchou biblion 1,,
15+
greek_classical,καλὸν κἀγαθόν,kalon kagathon,,
16+
greek_classical,ᾤχοντο θοἰμάτιον λαβόντες μου,ōchonto thoimation labontes mou,,
17+
greek_classical,Περὶ ἰλίγγων,Peri ilingōn,,
18+
greek_classical,ὅτε τ’ ἴαχε σάλπιγξ,hote t’ iache salpinx,,
19+
greek_classical,Ἐγχειρίδιον ἁρμονικῆς,Encheiridion harmonikēs,,
20+
greek_classical,ἄλαϲτα δὲ ϝέργα πάθον κακὰ μηϲαμένοι,alasta de werga pathon kaka mēsamenoi,,
21+
greek_classical,Δαμαρέτα τ’ ἐρατά τε Ϝιανθεμίϲ,Damareta t’ erata te Wianthemis,,
22+
greek_classical,ξένϝος,xenwos,,
23+
greek_classical,Πάτροϙλος,Patroḳlos,,
24+
greek_classical,"λβʹ. Ἐπεὶ δὲ ἡ τύχη κράτιστον ἐπὶ πάντα τὰ ἀνθρώπεια, μηδὲ Ἡλιόδωρος ἀπαξιούσθω σοφιστῶν κύκλου παράδοξον ἀγώνισμα τύχης γενόμενος·","32. Epei de tychi kratiston epi panta ta anthrōpeia, mide Hēliodōros apaxiousthō sophistōn kyklou paradoxon agōnisma tychis genomenos",,
25+
greek_classical,"κζʹ. Μὴ δεύτερα τῶν προειρημένων σοφιστῶν μηδὲ Ἱππόδρομόν τις ἡγείσθω τὸν Θετταλόν, τῶν μὲν γὰρ βελτίων φαίνεται, τῶν δὲ οὐκ οἶδα ὅ τι λείπεται","27. Mē deutera tōn proeirēmenōn sophistōn mide Ippodromon tis ēgeisthō ton Thettalon, tōn men gar beltiōn phainetai, tōn de ouk oida o ti leipetai",,
26+
greek_classical,"ιγʹ. Πῶλον δὲ τὸν Ἀκραγαντῖνον Γοργίας σοφιστὴν ἐξεμελέτησε πολλῶν, ὥς φασι, χρημάτων, καὶ γὰρ δὴ καὶ τῶν πλουτούντων ὁ Πῶλος.","13. Pōlon de ton Akragantinon Gorgias sophistēn exemeletēse pollōn, ōs phasi, chrēmatōn, kai gar dē kai tōn ploutountōn o Pōlos",,
27+
greek_modern,"Ἐτήσια ἔκθεσις / Κυπριακὴ Δημοκρατία, Ὑπουργεῖον Ἐργασίας καὶ Κοινωνικῶν Ἀσφαλίσεων","Etēsia ekthesis / Kypriakē Dēmokratia, Hypourgeion Ergasias kai Koinōnikōn Asphaliseōn",,
28+
greek_modern,"Ετήσια έκθεση / Κυπριακή Δημοκρατία, Υπουργείο Εργασίας και Κοινωνικών Ασφαλίσεων","Etēsia ekthesē / Kypriakē Dēmokratia, Hypourgeio Ergasias kai Koinōnikōn Asphaliseōn",,
29+
greek_modern,Ελληνικό Ίδρυμα Ευρωπαϊκής και Εξωτερικής Πολιτικής,Hellēniko Hidryma Eurōpaikēs kai Exōterikēs Politikēs,,
30+
greek_modern,Ελευθέριος Δ. Παυλίδης,Eleutherios D. Paulidēs,,
31+
greek_modern,Ορθόδοξος Αυτοκέφαλος Εκκλησία της Αλβανίας,Orthodoxos Autokephalos Ekklēsia tēs Alvanias,,
32+
greek_modern,Βίος και πολιτεία του Αλέξη Ζορμπά,Vios kai politeia tou Alexē Zormpa,,
33+
greek_modern,Βίος καὶ πολιτεία τοῦ Ἀλέξη Ζορμπᾶ,Vios kai politeia tou Alexē Zormpa,,
34+
greek_modern,Λασκαρίνα Μπουμπουλίνα,Laskarina Boumpoulina,,
35+
greek_modern,Νταίηβιντ Μίτσελ,Ḏaiēvint Mitsel,,
36+
greek_modern,Τζαίημς Τζόυς,Tzaiēms Tzoys,,
37+
greek_modern,Ἡ κοινωνιολογία τοῦ ρεμπέτικου,Hē koinōniologia tou rempetikou,,
38+
greek_modern,Βίλλυ Μπραντ,Villy Brant,,
3939
greek_modern,Μπραντ Πιτ,Brant Pit,,
40-
greek_modern,Γιάκομπ Φίλιπ Φαλμεράυερ,Giakomp Philip Phalmerayer,,
41-
greek_modern,Σαρλ Ογκουστίν ντε Κουλόμπ,Sarl Onkoustin de Koulomp,,
42-
greek_modern,Λαμπέρτο Ντίνι,Lamperto Ḏini,,
43-
greek_modern,Τζωρτζ Χέρμπερτ Ουώκερ Μπους,Tzōrtz Chermpert Ouōker Bous,,
44-
greek_modern,Ουίνστων Τσώρτσιλ,Ouinstōn Tsōrtsil,,
45-
greek_modern,Παγκόσμιο Κέντρο Εμπορίου,Pankosmio Kentro Emporiou,,
46-
greek_modern,Φαίδων Γκιζίκης,Phaidōn Gkizikēs,,
47-
greek_modern,Γκέτεμποργκ,Gketemporgk,,
48-
greek_modern,Ουάσιγκτον,Ouasinkton,,
49-
greek_modern,Ουάσινγκτον,Ouasinnkton,,
50-
greek_modern,Αεροδρόμιο Ρόναλντ Ρέιγκαν της Ουάσινγκτον,Aerodromio Ronalnt Reinkan tēs Ouasinnkton,,
51-
greek_modern,Ντμίτρι Ιβάνοβιτς Μεντελέγιεφ,Ḏmitri Ivanovits Mentelegieph,,
52-
greek_modern,Άγγελος Σταύρου Βλάχος,Angelos Staurou Vlachos,,
53-
greek_modern,ΟΔΗΓΟΣ ΜΑΡΚΕΤΙΝΓΚ ΕΛΛΑΔΟΣ / Ἑλληνικό Ἰνστιτοῦτο Μάρκετινγκ τῆς Ἑλληνικῆς Ἑταιρίας Διοικήσεως Ἐπιχειρήσεων,Hodēgos marketingk Hellados / Hellēniko Institouto Marketingk tēs Hellēnikēs Hetairias Dioikēseōs Epicheirēseōn,,
54-
greek_modern,Σάλπιγξ Ἑλληνική,Salpinx Hellēnikē,,
55-
greek_modern,Μπιντπάϋ,Bintpay,,
56-
greek_modern,Η υιοθεσία ενηλίκων, huiothesia enēlikōn,,
57-
greek_modern,οι Άρπυιες,hoi Harpuies,,
40+
greek_modern,Γιάκομπ Φίλιπ Φαλμεράυερ,Giakomp Philip Phalmerayer,,
41+
greek_modern,Σαρλ Ογκουστίν ντε Κουλόμπ,Sarl Onkoustin de Koulomp,,
42+
greek_modern,Λαμπέρτο Ντίνι,Lamperto Ḏini,,
43+
greek_modern,Τζωρτζ Χέρμπερτ Ουώκερ Μπους,Tzōrtz Chermpert Ouōker Bous,,
44+
greek_modern,Ουίνστων Τσώρτσιλ,Ouinstōn Tsōrtsil,,
45+
greek_modern,Παγκόσμιο Κέντρο Εμπορίου,Pankosmio Kentro Emporiou,,
46+
greek_modern,Φαίδων Γκιζίκης,Phaidōn Gkizikēs,,
47+
greek_modern,Γκέτεμποργκ,Gketemporgk,,
48+
greek_modern,Ουάσιγκτον,Ouasinkton,,
49+
greek_modern,Ουάσινγκτον,Ouasinnkton,,
50+
greek_modern,Αεροδρόμιο Ρόναλντ Ρέιγκαν της Ουάσινγκτον,Aerodromio Ronalnt Reinkan tēs Ouasinnkton,,
51+
greek_modern,Ντμίτρι Ιβάνοβιτς Μεντελέγιεφ,Ḏmitri Ivanovits Mentelegieph,,
52+
greek_modern,Άγγελος Σταύρου Βλάχος,Angelos Staurou Vlachos,,
53+
greek_modern,ΟΔΗΓΟΣ ΜΑΡΚΕΤΙΝΓΚ ΕΛΛΑΔΟΣ / Ἑλληνικό Ἰνστιτοῦτο Μάρκετινγκ τῆς Ἑλληνικῆς Ἑταιρίας Διοικήσεως Ἐπιχειρήσεων,Hodēgos marketingk Hellados / Hellēniko Institouto Marketingk tēs Hellēnikēs Hetairias Dioikēseōs Epicheirēseōn,,
54+
greek_modern,Σάλπιγξ Ἑλληνική,Salpinx Hellēnikē,,
55+
greek_modern,Μπιντπάϋ,Bintpay,,
56+
greek_modern,Η υιοθεσία ενηλίκων,Hē huiothesia enēlikōn,,
57+
greek_modern,οι Άρπυιες,hoi Harpuies,,

test/data/script_samples/unittest.csv

Lines changed: 3 additions & 2 deletions
Original file line numberDiff line numberDiff line change
@@ -6,5 +6,6 @@
66
"rot3","st uv","Vw Xy","r2s","{""capitalize"": ""all""}"
77
"regex","Hello abc","Hello 678","r2s",
88
"regex","Hullo abc","5u22o 678","r2s",
9-
"word_boundaries","bab aa b.abc c, dae abada:ddd vb","<212> <11> 020.<123> 030, <41e <12141>:<444> v2>","r2s"
10-
"word_boundaries","43 23432 455 4:3 51, 11","<dc> <bcdcb> <d55 0d0:0c0 5a>, <aa>","s2r"
9+
"word_boundaries","bab aa\u0F0Bb.abc c, dan\u0F0Cabada:ddd vb","<27> <11>\u0F0B020.080 030, <41n\u0F0C<7141>:<444> v2>","r2s"
10+
"word_boundaries","43\u0F0D2123432 455 4:3 51, 11","<dc>\u0F0D<bfdcb> <d55 0d0:0c0 5a>, <aa>","s2r"
11+
"word_boundaries","

0 commit comments

Comments
 (0)