Full metadata record
DC poleHodnotaJazyk
dc.contributor.authorVčelák, Petr
dc.contributor.authorKryl, Martin
dc.contributor.authorKratochvíl, Michal
dc.contributor.authorKlečková, Jana
dc.date.accessioned2019-11-11T11:00:21Z-
dc.date.available2019-11-11T11:00:21Z-
dc.date.issued2019
dc.identifier.citationBRYCHCÍN, T., TAYLOR, S., SVOBODA, L. Cross-lingual word analogies using linear transformations between semantic spaces. Expert Systems with Applications, 2019, roč. 135, č. NOV 30 2019, s. 287-295. ISSN 0957-4174.en
dc.identifier.issn1386-5056
dc.identifier.uri2-s2.0-85067242443
dc.identifier.urihttp://hdl.handle.net/11025/35854
dc.description.abstractPozadí: Chráněné osobní a zdravotní informace vypálené v pixelech snímku ve formátu DICOM nejsou z různých důvodů indikovány. To komplikuje sekundární použití takových dat. V posledních letech došlo k několika pokusům o anonymizaci nebo de-identifikaci souborů DICOM. Stávající přístupy mají různá omezení. Neexistuje žádné zcela spolehlivé řešení. Zejména u velkých datových souborů je nutné rychle analyzovat a identifikovat soubory, které potenciálně narušují soukromí. Metody: Klasifikace je založena na adaptivně-iterativním algoritmu navrženém k identifikaci jedné ze tří tříd. Existuje několik transformací obrazu, optické rozpoznávání znaků a filtry; pak je učiněno lokální rozhodnutí. Potvrzené lokální rozhodnutí je konečné. Klasifikátor byl trénován na datovém souboru složeném z 15 334 snímků různých modalit. Výsledky: Falešně pozitivní hodnoty jsou ve všech případech pod 4,00 % a 1,81 % v případě kritického případu detekce chráněných osobních a zdravotních informací. Vážená průměrná citlivost klasifikátoru byla 94,85 %, vážená průměrná inverzní citlivost dosahovala 97,42 % a Cohenův Kappa koeficient byl 0,920. Závěr: Navrhovaný přístup pro klasifikaci textu vypáleného ve snímcích je vysoce konfigurovatelný a schopný analyzovat obrázky z různých modalit se šumem na pozadí. Řešení bylo validováno a jeho cílem je identifikovat DICOM soubory, pro které musí být omezený přístup nebo musí být důkladně de-identifikovány kvůli problémům s výskytem osobních údajů. Na rozdíl od stávajících nástrojů lze rozpoznaný text, včetně jeho souřadnic, dále použít pro de-identifikaci.cs
dc.format9 s.cs
dc.format.mimetypeapplication/pdf
dc.language.isoenen
dc.publisherElsevieren
dc.relation.ispartofseriesExpert Systems with Applicationsen
dc.rightsPlný text je přístupný v rámci univerzity přihlášeným uživatelům.cs
dc.rights© Elsevieren
dc.subjectVypálené chráněné osobní a zdravotní údajecs
dc.subjectklasifikacecs
dc.subjectde-identifikacecs
dc.subjectDICOMcs
dc.subjectHIPAAcs
dc.subjectdetekce textucs
dc.titleIdentification and classification of DICOM files with burned-in text contenten
dc.title.alternativeIdentifikace a klasifikace DICOM souborů s vypáleným textem ve snímkucs
dc.typečlánekcs
dc.typearticleen
dc.rights.accessrestrictedAccessen
dc.type.versionpublishedVersionen
dc.description.abstract-translatedThe ability to represent the meaning of words is one of the core parts of natural language understanding (NLU), with applications ranging across machine translation, summarization, question answering, information retrieval, etc. The need for reasoning in multilingual contexts and transferring knowledge in cross- lingual systems has given rise to cross-lingual semantic spaces, which learn representations of words across different languages. With growing attention to cross-lingual representations, it has became crucial to investigate proper evaluation schemes. The word-analogy-based evaluation has been one of the most common tools to evaluate linguistic relationships (such as male-female relationships or verb tenses) encoded in monolingual meaning representations. In this paper, we go beyond monolingual representations and generalize the word analogy task across languages to provide a new intrinsic evaluation tool for cross-lingual semantic spaces. Our approach allows examining cross-lingual projections and their impact on different aspects of meaning. It helps to discover potential weaknesses or advantages of cross-lingual methods before they are incorporated into different intelligent systems. We experiment with six languages within different language families, including English, German, Spanish, Italian, Czech, and Croatian. State-of-the-art monolingual semantic spaces are transformed into a shared space using dictionaries of word translations. We compare several linear transformations and rank them for experiments with monolingual (no transformation), bilingual (one semantic space is transformed to another), and multilingual (all semantic spaces are transformed onto English space) versions of semantic spaces. We show that tested linear transformations preserve relationships between words (word analogies) and lead to impressive results. We achieve average accuracy of 51.1%, 43.1%, and 38.2% for monolingual, bilingual, and multilingual semantic spaces, respectively.en
dc.subject.translatedBurned-in protected health informationen
dc.subject.translatedClassificationen
dc.subject.translatedDe-identificationen
dc.subject.translatedDICOMen
dc.subject.translatedHIPAAen
dc.subject.translatedText detectionen
dc.identifier.doi10.1016/j.ijmedinf.2019.02.011
dc.type.statusPeer-revieweden
dc.identifier.document-number465414600016
dc.identifier.obd43926834
dc.project.IDEF17_048/0007267/InteCom: VaV inteligentních komponent pokročilých technologií pro plzeňskou metropolitní oblastcs
dc.project.IDSGS-2019-018/Zpracování heterogenních dat a jejich specializované aplikacecs
Vyskytuje se v kolekcích:Články / Articles (NTIS)
Články / Articles (KIV)
OBD

Soubory připojené k záznamu:
Soubor VelikostFormát 
20190902-vcelak-j-ijmi-201906-article.pdf6,28 MBAdobe PDFZobrazit/otevřít  Vyžádat kopii


Použijte tento identifikátor k citaci nebo jako odkaz na tento záznam: http://hdl.handle.net/11025/35854

Všechny záznamy v DSpace jsou chráněny autorskými právy, všechna práva vyhrazena.

hledání
navigace
  1. DSpace at University of West Bohemia
  2. Publikační činnost / Publications
  3. OBD