Publikace
Detail publikace
Citace
2009. : STATISTICKÝ AUTOMATICKÝ PŘEKLAD ČEŠTINA - ZNAKOVANÁ ŘEČ .
PDF ke stažení
Detail publikace
Název: | STATISTICKÝ AUTOMATICKÝ PŘEKLAD ČEŠTINA - ZNAKOVANÁ ŘEČ |
---|---|
Autor: | Kanis Jakub |
Název - česky: | STATISTICKÝ AUTOMATICKÝ PŘEKLAD ČEŠTINA - ZNAKOVANÁ ŘEČ |
Jazyk publikace: | česky |
Rok vydání: | 2009 |
Typ publikace: | Vysokoškolská kvalifikační práce (dizertační, habilitační) |
BibTeX
@PHDTHESIS{KanisJakub_2009_STATISTICKY, author = {Kanis Jakub}, title = {STATISTICK\'{Y} AUTOMATICK\'{Y} P\v{R}EKLAD \v{C}E\v{S}TINA - ZNAKOVAN\'{A} \v{R}E\v{C}}, year = {2009}, url = {http://www.kky.zcu.cz/en/publications/KanisJakub_2009_STATISTICKY}, }
Další informace
Tato dizertační práce se zabývá návrhem systému pro automatický překlad mezi češtinou a znakovanou řečí. Pojem znakovaná řeč je v této práci použit jako souhrnné pojmenování pro český znakový jazyk a znakovanou češtinu, které oba slouží ke komunikaci neslyšících v ČR. Hlavním cílem práce tedy bylo vytvořit obecný překladový systém, který by umožnil překlad pro oba zmíněné jazyky (resp. pro libovolnou dvojici jazyků). Za tímto účelem byly prozkoumány stávající možnosti přístupů ke konstrukci automatických překladových systému a také existující systémy pro překlad znakových jazyků ve světě. Jako nejvhodnější z hlediska splnění zvoleného cíle byl vybrán statistický přístup ke konstrukci automatického překladového systému založený na frázích. Tento přístup umožňuje konstrukci překladového systému pro libovolnou jazykovou dvojici a frázové systémy jsou v současné době jedním z nejpoužívanějších typů statistických překladových systémů a dosahují špičkových výsledků z hlediska přesnosti a rychlosti překladu.
Hlavním zdrojem informací o překládaných jazycích je v případě statistických systémů paralelní korpus, který obsahuje odpovídající si texty v obou jazycích. V případě znakových jazyků i znakované řeči je existence paralelního korpusu komplikována skutečností, že neexistuje oficiální psaná forma žádného znakového jazyka ani znakované češtiny (neexistuje tedy dosud ani žádný autorovi známý paralelní korpus znakované řeči). Pro potřeby této práce byl tedy vytvořen vlastní paralelní korpus znakované řeči - Czech - Signed Czech (CSC) korpus. Tento korpus vznikl přeložením existujícího Human-Human Train Timetable dialogového korpusu (autoři Jurčíček, Jelínek, Zahradil), který obsahuje přepisy telefonních dotazů do informačního centra vlakových jízdních řádů, do znakované češtiny. Ta byla zvolena především z hlediska jednodušší možnosti vytvoření její psané formy, která je reprezentována zapsáním znaků českého znakového jazyka v pořadí odpovídajícím českým slovům v překládané větě. Takto vytvořený korpus obsahuje 15 722 větných párů rozdělených do 1 109 dialogů s množstvím anotačních vrstev použitelných pro další zpracování (ke každé promluvě v korpusu je přítomna její transkripce a normalizovaná transkripce řeči, vyznačení pojmenovaných entit, sémantický popis ve formě dialogových značek a nově přidaný překlad do znakované češtiny).
Informace získané z paralelního korpusu jsou v případě frázového systému uloženy ve frázové tabulce, která obsahuje odpovídající si překladové páry. V rámci této práce byla navržena a otestována nová metoda pro výběr těchto překladových párů založená na principu minimální ztráty. Tato metoda spolu s jejími navrženými zlepšeními (resp. získaná frázová tabulka) byla dále porovnána s dalšími dvěma frázovými tabulkami získanými jednak z ručně vytvořeného frázového přiřazení vyznačeného při vytváření CSC korpusu a dále s tabulkou získanou standardní automatickou metodou pro výběr frází. Navržená zlepšení nové metody pro výběr frází spočívají v rozdělení výběru nejlepšího překladu podle četnosti výskytu zdrojové fráze, v kombinaci frázových tabulek pro oba směry překladu a dále ve filtraci výsledné tabulky prostřednictvím překladu vhodného textu.
Dále byl představen algoritmus pro monotónní a nemonotónní prohledávání založený na dynamickém programování a využívající frázový n-gram. Implementací algoritmu pro monotónní prohledávání byl vytvořen vlastní dekodér použitelný pro překlad mezi češtinou a znakovanou češtinou. Při návrhu dekodéru byl kladen důraz na jeho použitelnost a snadné zapojení v reálných aplikacích. Výkonnost vlastního dekodéru byla porovnána s výkonností frázového dekodéru, který představuje současný standard mezi frázovými dekodéry. Z porovnání dekodérů vyplývá, že poskytují srovnatelné výsledky. Mezi sebou byly také porovnány verze vlastního dekodéru využívající frázový bigram a trigram v kombinaci s bigramovým a trigramovým jazykovým modelem. Z hlediska přesnosti a rychlosti se jako nejlepší kombinace jeví použití frázového bigramu spolu s trigramovým jazykovým modelem.
V rámci experimentů byly porovnány přesnosti překladu mezi češtinou a znakovanou češtinou pro všechny tři dostupné frázové tabulky. Z tohoto porovnání vyplývá, že ručně vytvořená tabulka a tabulka vytvořená standardní automatickou metodou poskytují srovnatelné výsledky, zatímco tabulka vytvořená nově navrženou metodou za nimi v přesnosti překladu mírně zaostává (z hlediska reálných aplikací je tento rozdíl však zanedbatelný). Hlavní výhodou ručně vytvořené tabulky a tabulky vytvořené novou metodou je jejich několikanásobně menší velikost oproti tabulce získané standardní metodou (12 krát v případě ručně a 5 krát v případě nově vybrané tabulky). Dále byl také otestován základní systém pro překlad mezi češtinou a znakovanou češtinou, který dosáhl 81,22 bodu BLEU skóre a navržena a otestována jeho možná vylepšení využívající informace obsažené v bohaté anotaci CSC korpusu. Šlo především o použití třídního jazykového modelu a pozpracování výsledného překladu. Tato vylepšení přinesla nárůst přesnosti překladu o více než dva body BLEU skóre v závislosti na použité frázové tabulce. Výsledný nejlepší překladový systém byl pak vyzkoušen i při opačném směru překladu ze znakované češtiny do češtiny, kde bylo dosaženo nejlepšího výsledku 63,98 bodu BLEU skóre.