Název: | Automatické stahování smluvních podmínek z webových stránek |
Další názvy: | Automated scraping of licence agreements from websites |
Autoři: | Bartička, Vojtěch |
Vedoucí práce/školitel: | Pražák Ondřej, Ing. |
Oponent: | Přibáň Pavel, Ing. |
Datum vydání: | 2021 |
Nakladatel: | Západočeská univerzita v Plzni |
Typ dokumentu: | bakalářská práce |
URI: | http://hdl.handle.net/11025/44238 |
Klíčová slova: | zpracování přirozeného jazyka;strojové učení;sémantické reprezentace slov;získávání informací;klasifikace textu;neuronové sítě;fasttext |
Klíčová slova v dalším jazyce: | natural language processing;machine learning;semantic word representations;information retrieval;text classification;neural networks;fasttext |
Abstrakt: | Práce se zabývá automatickým stahováním smluvních podmínek a zásad ochrany údajů z webových stránek. Je součástí většího projektu, který se zabývá analýzou obsahu těchto stránek a potřebuje pro ni trénovací dataset. Cílem je vytvořit aplikaci, která bude schopna tento dataset automaticky vytvořit. Jako základní řešení jsou použita pravidla založená na klíčových slovech. Toto řešení nám umožní získat dataset, pomocí kterého je vytvořena neuronová síť, která dále zlepšuje výsledky. Omezením kapacity sítě a zakrytím klíčových slov pak sítě dosahují zlepšení 6 až 9 % v f-míře, a až 71% snížení falešné pozitivity oproti klasifikaci pomocí klíčových slov. |
Abstrakt v dalším jazyce: | The thesis deals with the automatic scraping of terms and conditions and privacy protection information from web pages. It's a part of a larger project which focuses on the analysis of such pages and requires a dataset to train the system on. The goal is to create an application, which will be able to automatically create this dataset. As a baseline solution, a keyword-based system is used. This system allows us to create a dataset, on which we can train a neural network, which further enhances the results. By limiting the capacity of the network and hiding the keywords the network achieves a 6 to 9% improvement in f-score and up to 71% reduction in false positivity compared to the keywords-based system. |
Práva: | Plný text práce je přístupný bez omezení. |
Vyskytuje se v kolekcích: | Bakalářské práce / Bachelor´s works (KIV) |
Soubory připojené k záznamu:
Soubor | Popis | Velikost | Formát | |
---|---|---|---|---|
prace.pdf | Plný text práce | 641,32 kB | Adobe PDF | Zobrazit/otevřít |
A18B0169P_Posudek.pdf | Posudek oponenta práce | 251,46 kB | Adobe PDF | Zobrazit/otevřít |
A18B0169P_Hodnoceni.pdf | Posudek vedoucího práce | 234,93 kB | Adobe PDF | Zobrazit/otevřít |
A18B0169P_Obhajoba.pdf | Průběh obhajoby práce | 42,61 kB | Adobe PDF | Zobrazit/otevřít |
A18B0169P_zadaniBP.pdf | VŠKP - příloha | 17,42 kB | Adobe PDF | Zobrazit/otevřít |
BP.zip | VŠKP - příloha | 571,81 MB | ZIP | Zobrazit/otevřít |
Použijte tento identifikátor k citaci nebo jako odkaz na tento záznam:
http://hdl.handle.net/11025/44238
Všechny záznamy v DSpace jsou chráněny autorskými právy, všechna práva vyhrazena.