Publikace
Detail publikace
Citace
p. 68-75, Springer Nature Switzerland AG, 2018. : Generation of Synthetic Images of Full-Text Documents . 20th International Conference on Speech and Computer, SPECOM 2018, Lecture Notes in Artificial Intelligence, LNAI 11096,
Další informace
Abstrakt
In this paper, we present an algorithm for generating images of full-text documents. Such images can be used to train and evaluate models of optical character recognition. The algorithm is modular, individual parts can be changed and tweaked to generate desired images. We describe a method for obtaining background images of paper from already digitalized documents.We use a Variational Autoencoder to train a generative model of these backgrounds enabling the generation of similar background images as the training ones on the fly. The module for printing the text uses large text corpora, font, and suitable positional and brightness noise to obtain believable results. We use Tesseract OCR to compare the real world and generated images and observe that the recognition rate is very similar indicating the proper appearance of the synthetic images. Furthermore, the mistakes made by the OCR system in both cases are alike. Finally, the system generates detailed, structured annotation of the synthesized image.
Abstrakt v češtině
V této práci je prezentován algoritmus generování obrázků fulltextových dokumentů. Takové obrázky pak mohou být využity pro trénování a vyhodnocování modelů pro rozpoznávání znaků. Algoritmus je modulární, individuální části mohou být vyměněny a upraveny pro generování požadovaných obrázků. Popsali jsme metodu pro získání obrázků papírového podkladu z již existujících dokumentů. Použili jsme variační autoenkodér pro trénování generativního modelu těchto pozadí. To umožnilo generování podobných obrázků papírového podkladu pro trénování za běhu. Model textu využívá velkého textového korpusu, fontu a vhodného pozičního a jasového šumu k vytvoření věrohodných výsledků. Dále jsme použili Tesseract OCR pro porovnání reálných a generovaných obrázků a zjistili jsme, že přesnost rozpoznávání je velmi podobná. Z toho plyne, že syntetizované fulltextové obrázky jsou velmi podobné těm reálným. Navíc chyby v rozpoznávání OCR systému jsou pro oba případy podobné. Systém generuje detailní strukturované anotace syntetizovaných obrázků
Detail publikace
Název: | Generation of Synthetic Images of Full-Text Documents |
---|---|
Autor: | Lukáš Bureš ; Petr Neduchal ; Miroslav Hlaváč ; Marek Hrúz |
Název - česky: | Generování syntetických obrázků fulltextových dokumentů |
Jazyk publikace: | anglicky |
Rok vydání: | 2018 |
Typ publikace: | Stať ve sborníku |
Název časopisu / knihy: | 20th International Conference on Speech and Computer, SPECOM 2018 |
Svazek: | Lecture Notes in Artificial Intelligence, LNAI 11096 |
Strana: | 68 - 75 |
DOI: | 10.1007/978-3-319-99579-3_8 |
ISBN: | 0302-9743 |
ISSN: | 978-3-319-99578-6 |
Nakladatel: | Springer Nature Switzerland AG |
Datum: | 18.9.2018 - 22.9.2018 |
Klíčová slova
Generating images, Character recognition, Computer vision, Machine learning
Klíčová slova v češtině
Generování obrázků, Rozpoznávání znaků, Počítačové vidění, Strojové učení
BibTeX
@INPROCEEDINGS{LukasBures_2018_Generationof, author = {Luk\'{a}\v{s} Bure\v{s} and Petr Neduchal and Miroslav Hlav\'{a}\v{c} and Marek Hr\'{u}z}, title = {Generation of Synthetic Images of Full-Text Documents}, year = {2018}, publisher = {Springer Nature Switzerland AG}, journal = {20th International Conference on Speech and Computer, SPECOM 2018}, pages = {68-75}, series = {Lecture Notes in Artificial Intelligence, LNAI 11096}, ISBN = {0302-9743}, ISSN = {978-3-319-99578-6}, doi = {10.1007/978-3-319-99579-3_8}, url = {http://www.kky.zcu.cz/en/publications/LukasBures_2018_Generationof}, }