Název: | TEXT-MINING WITH LINKED DATA |
Další názvy: | TEXT-MINING WITH LINKED DATA |
Autoři: | Dostal, Martin |
Vedoucí práce/školitel: | Ježek, Karel |
Datum vydání: | 2015 |
Nakladatel: | Západočeská univerzita v Plzni |
Typ dokumentu: | disertační práce |
URI: | http://hdl.handle.net/11025/20645 |
Klíčová slova: | text-mining;linked data;shlukování;klasifikace |
Klíčová slova v dalším jazyce: | text-mining;linked data;clustering;classification |
Abstrakt: | Tato práce představuje můj vývoj v oblasti text-miningu realizovaný s využitím sémantické informace získané z Linked Data. Tento přístup je demonstrován na dobře známých text-miningových úlohách jako je volba vlastností, klasifikace a shlukování. Tento přístup je vyhodnocen s využitím běžných datových kolekcí a s využitím několika vlastních korpusů v případech, kdy dostatečně velké korpusy nebyly k dispozici nebo nebyly vhodné pro daný experiment. Standardní datové kolekce zahrnují: 20 News Groups, Reuters-21578, The Open Directory Project, Kolekci článku z WOS pro citační analýzu, Datové kolekce ze Stanford University. Některé navržené metody, prezentované v této práci, však musely být vyhodnoceny manuálně z důvodu neexistence vhodného korpusu, jehož vytvoření by bylo značně náročné. Tato práce pokrývá i některé další experimenty, které se přímo netýkají text-miningu, ale které jsou této oblasti velmi blízké. Tyto experimenty byly realizovány s mými kolegy a zahrnují infometrii, citační analýzu a vylepšení grafových algoritmů typu PageRank. |
Abstrakt v dalším jazyce: | This thesis proposes the progress in the area of text-mining realized with methods improved by semantic information from Linked Data. This approach is demonstrated on well-known text-mining tasks like feature extraction, classification and clustering. This approach is evaluated with common available data corpuses and with my own several corpuses in cases when the large enough corpuses were not available or were not suitable for an experiment. The standard explored data sets include: 20 News Groups, Reuters-21578, The Open Directory Project, WOS data collection for citation analysis, data collections from Stanford University. Anyway some of the proposed methods had to be evaluated manually because the convenient corpus was not available and its creation would be quite challenging. This thesis also covers some experiments from my other areas of interest close to text-mining and that are related to my field of study. These experiments were realized with my coworkers and they include infometrics, citation analysis and enhancement of PageRank-style graph algorithms. |
Práva: | Plný text práce je přístupný bez omezení. |
Vyskytuje se v kolekcích: | Disertační práce / Dissertations (KIV) |
Soubory připojené k záznamu:
Soubor | Popis | Velikost | Formát | |
---|---|---|---|---|
phd_komplet_na_portal.pdf | Plný text práce | 4,31 MB | Adobe PDF | Zobrazit/otevřít |
oponent-posudky-odp-dostal.pdf | Posudek oponenta práce | 2,17 MB | Adobe PDF | Zobrazit/otevřít |
obhajoba-protokol-odp-dostal.pdf | Průběh obhajoby práce | 878,75 kB | Adobe PDF | Zobrazit/otevřít |
Použijte tento identifikátor k citaci nebo jako odkaz na tento záznam:
http://hdl.handle.net/11025/20645
Všechny záznamy v DSpace jsou chráněny autorskými právy, všechna práva vyhrazena.