Inkrementální shlukování zpravodajských textů

Váňa, Martin

Název:	Inkrementální shlukování zpravodajských textů
Další názvy:	Incremental news clustering
Autoři:	Váňa, Martin
Vedoucí práce/školitel:	Steinberger Josef, Doc. Ing. Ph.D.
Oponent:	Brychcín Tomáš, Ing. Ph.D.
Datum vydání:	2018
Nakladatel:	Západočeská univerzita v Plzni
Typ dokumentu:	diplomová práce
URI:	http://hdl.handle.net/11025/31803
Klíčová slova:	inkrementální shlukování;shlukovací metody založené na statistických modelech;nv-measure;gensim;zpracování přirozeného jazyka;strojové učení;distance dependent chinese restaurant process;doc2vec
Klíčová slova v dalším jazyce:	incremental clustering;model-based clustering;nv-measure;gensim;natural language processing;machine learning;distance dependent chinese restaurant process;doc2vec
Abstrakt:	Cílem práce bylo prozkoumat možnosti shlukovacích metod založených na statistických modelech, zejména metodu založenou na Distance Dependent Chinese Restaurant Process (ddCRP), a navrhnout shlukovací systém, který bude schopný udržovat tematické shluky zpravodajských textů, které budou postupně přicházet z crawleru. Metody LDA, LSA a doc2vec byly použity k reprezentaci dokumentu jako číselný vektor fixní délky. Výsledné shluky odhalené proof-of-concept implementací takového systému byly vyhodnoceny zejména pomocí purity, F-measure a V-measure. Dále byla představena evaluační metrika NV-measure vycházející z V-measure, které penalizuje nadměrné či naopak nedostatečné množství shluků. Nejlepších výsledků bylo dosaženo pomocí doc2vec a ddCRP.
Abstrakt v dalším jazyce:	The goal was to research model-based clustering methods, notably the Distance Dependent Chinese Restaurant Process (ddCRP), and propose an incremental clustering system which would be capable of maintaining the growing number of topic clusters of news articles coming online from a crawler. LDA, LSA, and doc2vec methods were used to represent a document as a fixed-length numeric vector. Cluster assignments given by a proof-of-concept implementation of such a system were evaluated using various metrics, notably purity, F-measure and V-measure. A modification of V-measure -- NV-measure -- was introduced in order to penalize an excessive or insufficient number of clusters. The best results were achieved with doc2vec and ddCRP.
Práva:	Plný text práce je přístupný bez omezení.
Vyskytuje se v kolekcích:	Diplomové práce / Theses (KIV)

Soubory připojené k záznamu:

Soubor	Popis	Velikost	Formát
thesis.pdf	Plný text práce	2,45 MB	Adobe PDF	Zobrazit/otevřít
A15N0083Pposudek-op.PDF	Posudek oponenta práce	877,62 kB	Adobe PDF	Zobrazit/otevřít
A15N0083Phodnoceni-ved.PDF	Posudek vedoucího práce	379,56 kB	Adobe PDF	Zobrazit/otevřít
A15N0083Pobhajoba.PDF	Průběh obhajoby práce	208,12 kB	Adobe PDF	Zobrazit/otevřít

Zobrazit celý záznam Zobrazit statistiky

Použijte tento identifikátor k citaci nebo jako odkaz na tento záznam: http://hdl.handle.net/11025/31803

Všechny záznamy v DSpace jsou chráněny autorskými právy, všechna práva vyhrazena.

hledání

navigace