Logo BSU

Пожалуйста, используйте этот идентификатор, чтобы цитировать или ссылаться на этот документ: https://elib.bsu.by/handle/123456789/160177
Полная запись метаданных
Поле DCЗначениеЯзык
dc.contributor.authorStefanovitch, N.-
dc.date.accessioned2016-11-02T11:00:03Z-
dc.date.available2016-11-02T11:00:03Z-
dc.date.issued2016-10-25-
dc.identifier.isbn978-985-566-369-1-
dc.identifier.urihttp://elib.bsu.by/handle/123456789/160177-
dc.description.abstractWe consider in this paper the problem of detection the language of document when no assumptions are made about a document: it can be of any size and contain zero, one or several languages. Language identification is considered a solved task, but actually, among others shortcomings, does not deal with the case of accurately the presence or absence of several languages in arbitrary documents. In order to tackle these problems, we propose an approach based on word dictionaries using Bayesian statistics and ad-hoc features. We show on two datasets that with sufficient statistics our approach is able to give very satisfying results in dealing with both unsolved tasks: detection of documents with no languages and identification of languages in multilingual documents.ru
dc.language.isoenru
dc.publisherМинск: БГУru
dc.subjectЭБ БГУ::ОБЩЕСТВЕННЫЕ НАУКИ::Информатикаru
dc.subjectЭБ БГУ::ОБЩЕСТВЕННЫЕ НАУКИ::Информатикаru
dc.titleRobust multilingual document identificationru
dc.title.alternativeУстойчивая идентификация многоязычного документаru
dc.typeconference paperru
Располагается в коллекциях:Секция 6. ИНТЕЛЛЕКТУАЛЬНЫЕ ИНФОРМАЦИОННЫЕ СИСТЕМЫ

Полный текст документа:
Файл Описание РазмерФормат 
Stefanovitch.pdf471,34 kBAdobe PDFОткрыть
Показать базовое описание документа Статистика Google Scholar



Все документы в Электронной библиотеке защищены авторским правом, все права сохранены.