Název: | Atribuční metody pro Transformer modely |
Další názvy: | Attribution methods for explaining Transformers |
Autoři: | Bartička, Vojtěch |
Vedoucí práce/školitel: | Pražák Ondřej, Ing. |
Oponent: | Baloun Josef, Ing. |
Datum vydání: | 2023 |
Nakladatel: | Západočeská univerzita v Plzni |
Typ dokumentu: | diplomová práce |
URI: | http://hdl.handle.net/11025/53734 |
Klíčová slova: | vysvětlitelná umělá inteligence;transformer;neuronové sítě;strojové učení;zpracování přirozeného jazyka;atribuční metody |
Klíčová slova v dalším jazyce: | explainable ai;transformer;neural networks;machine learning;natural language processing;attribution methods |
Abstrakt: | Tato práce zkoumá atrubuční metody aplikovatelné na Transformer modely pomocí datových sad SST a CTDC. Do datové sady CTDC přidáváme anotace založené na klíčových slovech a bodové vzájemné informaci, čímž umožňujeme evaluaci atribučních metod na české datové sadě. Používáme sedm modelů různých velikostí a architektur, každý s pěti instancemi, což nám umožňuje měřit vliv náhodné inicializace a velikosti modelu. Používáme také destilovaný vícejazyčný model na datové sadě CTDC a ukazujeme, že se rozhoduje racionálně i při použití s jazykem méně frekventovaným v předtrénování. Testujeme atribuční metody s různými referenčními vstupy a počty vzorků, což poskytuje cenné poznatky pro praktické aplikace. Ukazujeme, že přeučení negativně ovlivňuje atribuční metody využívající gradient, zatímco u metody KernelSHAP, která gradient nevyužívá, dochází k velmi malému zhoršení. |
Abstrakt v dalším jazyce: | In this thesis, we evaluate multiple attribution methods applicable to Transformer models using the SST and CTDC datasets. We extend the CTDC dataset by adding ground-truth annotations based on keywords and pointwise mutual information, creating a ground-truth evaluation benchmark for the Czech language. We fine-tune seven models of various sizes and architectures with five instances each, allowing us to measure the effect of random initialization and model size. We also evaluate a distilled multilingual model on the CTDC dataset, showing that it makes rational decisions even when used with a language less represented in the pre-training process. We test attribution methods with different baseline references and sample counts, providing valuable insight for practical applications. We show that overfitting negatively affects gradient-based attribution methods, while KernelSHAP sees little performance degradation. |
Práva: | Plný text práce je přístupný bez omezení |
Vyskytuje se v kolekcích: | Diplomové práce / Theses (KIV) |
Soubory připojené k záznamu:
Soubor | Popis | Velikost | Formát | |
---|---|---|---|---|
prace.pdf | Plný text práce | 2,05 MB | Adobe PDF | Zobrazit/otevřít |
A21N0038Pposudek-op.pdf | Posudek oponenta práce | 107,04 kB | Adobe PDF | Zobrazit/otevřít |
A21N0038Phodnoceni-ved.pdf | Posudek vedoucího práce | 232,37 kB | Adobe PDF | Zobrazit/otevřít |
A21N0038Pobhajoba.pdf | Průběh obhajoby práce | 522,62 kB | Adobe PDF | Zobrazit/otevřít |
A21N0038P-zadani_DP.pdf | VŠKP - příloha | 14,24 kB | Adobe PDF | Zobrazit/otevřít Vyžádat kopii |
A21N0038P_prilohy_1.zip | VŠKP - příloha | 179,84 MB | ZIP | Zobrazit/otevřít Vyžádat kopii |
A21N0038P_prilohy_3.zip | VŠKP - příloha | 1,08 GB | ZIP | Zobrazit/otevřít Vyžádat kopii |
A21N0038P_prilohy_2.zip | VŠKP - příloha | 1,5 GB | ZIP | Zobrazit/otevřít Vyžádat kopii |
Použijte tento identifikátor k citaci nebo jako odkaz na tento záznam:
http://hdl.handle.net/11025/53734
Všechny záznamy v DSpace jsou chráněny autorskými právy, všechna práva vyhrazena.