Přejít na obsah

Detail publikace

Citace

Lukáš Bureš and Petr Neduchal and Miroslav Hlaváč and Marek Hrúz : Generation of Synthetic Images of Full-Text Documents . 20th International Conference on Speech and Computer, SPECOM 2018, Lecture Notes in Artificial Intelligence, LNAI 11096, p. 68-75, Springer Nature Switzerland AG, 2018.

Další informace


Springer

Abstrakt

In this paper, we present an algorithm for generating images of full-text documents. Such images can be used to train and evaluate models of optical character recognition. The algorithm is modular, individual parts can be changed and tweaked to generate desired images. We describe a method for obtaining background images of paper from already digitalized documents.We use a Variational Autoencoder to train a generative model of these backgrounds enabling the generation of similar background images as the training ones on the fly. The module for printing the text uses large text corpora, font, and suitable positional and brightness noise to obtain believable results. We use Tesseract OCR to compare the real world and generated images and observe that the recognition rate is very similar indicating the proper appearance of the synthetic images. Furthermore, the mistakes made by the OCR system in both cases are alike. Finally, the system generates detailed, structured annotation of the synthesized image.

Abstrakt v češtině

V této práci je prezentován algoritmus generování obrázků fulltextových dokumentů. Takové obrázky pak mohou být využity pro trénování a vyhodnocování modelů pro rozpoznávání znaků. Algoritmus je modulární, individuální části mohou být vyměněny a upraveny pro generování požadovaných obrázků. Popsali jsme metodu pro získání obrázků papírového podkladu z již existujících dokumentů. Použili jsme variační autoenkodér pro trénování generativního modelu těchto pozadí. To umožnilo generování podobných obrázků papírového podkladu pro trénování za běhu. Model textu využívá velkého textového korpusu, fontu a vhodného pozičního a jasového šumu k vytvoření věrohodných výsledků. Dále jsme použili Tesseract OCR pro porovnání reálných a generovaných obrázků a zjistili jsme, že přesnost rozpoznávání je velmi podobná. Z toho plyne, že syntetizované fulltextové obrázky jsou velmi podobné těm reálným. Navíc chyby v rozpoznávání OCR systému jsou pro oba případy podobné. Systém generuje detailní strukturované anotace syntetizovaných obrázků

Detail publikace

Název: Generation of Synthetic Images of Full-Text Documents
Autor: Lukáš Bureš ; Petr Neduchal ; Miroslav Hlaváč ; Marek Hrúz
Název - česky: Generování syntetických obrázků fulltextových dokumentů
Jazyk publikace: anglicky
Rok vydání: 2018
Typ publikace: Stať ve sborníku
Název časopisu / knihy: 20th International Conference on Speech and Computer, SPECOM 2018
Svazek: Lecture Notes in Artificial Intelligence, LNAI 11096
Strana: 68 - 75
DOI: 10.1007/978-3-319-99579-3_8
ISBN: 0302-9743
ISSN: 978-3-319-99578-6
Nakladatel: Springer Nature Switzerland AG
Datum: 18.9.2018 - 22.9.2018
/ 2019-11-20 17:45:56 /

Klíčová slova

Generating images, Character recognition, Computer vision, Machine learning

Klíčová slova v češtině

Generování obrázků, Rozpoznávání znaků, Počítačové vidění, Strojové učení

BibTeX

@INPROCEEDINGS{LukasBures_2018_Generationof,
 author = {Luk\'{a}\v{s} Bure\v{s} and Petr Neduchal and Miroslav Hlav\'{a}\v{c} and Marek Hr\'{u}z},
 title = {Generation of Synthetic Images of Full-Text Documents},
 year = {2018},
 publisher = {Springer Nature Switzerland AG},
 journal = {20th International Conference on Speech and Computer, SPECOM 2018},
 pages = {68-75},
 series = {Lecture Notes in Artificial Intelligence, LNAI 11096},
 ISBN = {0302-9743},
 ISSN = {978-3-319-99578-6},
 doi = {10.1007/978-3-319-99579-3_8},
 url = {http://www.kky.zcu.cz/en/publications/LukasBures_2018_Generationof},
}