Publikace
Detail publikace
Citace
p. 91-93, Západočeská univerzita v Plzni, Plzeň, 2012. : JMZW: Application of Summarization Methods in Topic Identification Module for Large Scale Language Modeling Data Filtering . SVK 2012 - magisterské a doktorské studijní programy, sborník rozšířených abstraktů,
Abstrakt
The topic identification module, which is a part of a complex system for acquisition and storing large volumes of text data, processes each acquired data item and assigns to it topics from a defined topic hierarchy. The topic hierarchy is quite extensive - it contains about 450 topics and topic categories. Since the system is used for processing large amounts of data, a summarization method was implemented and the effect of using only the summary of an article on the topic identification accuracy is studied. The main purpose of the topic identification module is to filter the huge amount of data according to their topics for the future use as the language modeling training data. The module uses a language modeling based approach similar to the Naive Bayes classifier for the implementation of the topic identification and assigns 3 topics to each article. Topics are chosen from a hierarchical system - a "topic tree".
Abstrakt v češtině
Modul identifikace tématu, který je součástí komplexního systému pro získávání a ukládání velkých objemů textových dat, zpracovává získané datové položky a přiřadí jim témata z definované hierarchie témat. Vzhledem k tomu, že systém se používá pro zpracování velkých objemů dat, byla implementována metoda sumarizace. Hlavním cílem modulu identifikace tématu je filtrovat obrovské množství dat podle jejich témat pro budoucí použití jako trénovacích dat pro jazykové modelování. Modul používá přístup podobný Naive Bayes klasifikaci pro určení tématu a přiřadí 3 témata každému článku.
Detail publikace
Název: | JMZW: Application of Summarization Methods in Topic Identification Module for Large Scale Language Modeling Data Filtering |
---|---|
Autor: | Skorkovská, L. |
Název - česky: | JMZW: Použití summarizační metody v modulu identifikace tématu českých novinových článků |
Jazyk publikace: | anglicky |
Datum vydání: | 31.5.2012 |
Rok vydání: | 2012 |
Typ publikace: | Stať ve sborníku |
Název časopisu / knihy: | SVK 2012 - magisterské a doktorské studijní programy, sborník rozšířených abstraktů |
Strana: | 91 - 93 |
ISBN: | 978-80-261-0127-7 |
Nakladatel: | Západočeská univerzita v Plzni |
Místo vydání: | Plzeň |
Datum: | 31.5.2012 - 31.5.2012 |
Klíčová slova
topic identification, summarization
BibTeX
@INPROCEEDINGS{SkorkovskaL_2012_JMZWApplicationof, author = {Skorkovsk\'{a}, L.}, title = {JMZW: Application of Summarization Methods in Topic Identification Module for Large Scale Language Modeling Data Filtering}, year = {2012}, publisher = {Z\'{a}pado\v{c}esk\'{a} univerzita v Plzni}, journal = {SVK 2012 - magistersk\'{e} a doktorsk\'{e} studijn\'{i} programy, sborn\'{i}k roz\v{s}\'{i}\v{r}en\'{y}ch abstrakt\r{u}}, address = {Plze\v{n}}, pages = {91-93}, ISBN = {978-80-261-0127-7}, url = {http://www.kky.zcu.cz/en/publications/SkorkovskaL_2012_JMZWApplicationof}, }