Logo BSU

Пожалуйста, используйте этот идентификатор, чтобы цитировать или ссылаться на этот документ: https://elib.bsu.by/handle/123456789/160177
Заглавие документа: Robust multilingual document identification
Другое заглавие: Устойчивая идентификация многоязычного документа
Авторы: Stefanovitch, N.
Тема: ЭБ БГУ::ОБЩЕСТВЕННЫЕ НАУКИ::Информатика
ЭБ БГУ::ОБЩЕСТВЕННЫЕ НАУКИ::Информатика
Дата публикации: 25-окт-2016
Издатель: Минск: БГУ
Аннотация: We consider in this paper the problem of detection the language of document when no assumptions are made about a document: it can be of any size and contain zero, one or several languages. Language identification is considered a solved task, but actually, among others shortcomings, does not deal with the case of accurately the presence or absence of several languages in arbitrary documents. In order to tackle these problems, we propose an approach based on word dictionaries using Bayesian statistics and ad-hoc features. We show on two datasets that with sufficient statistics our approach is able to give very satisfying results in dealing with both unsolved tasks: detection of documents with no languages and identification of languages in multilingual documents.
URI документа: http://elib.bsu.by/handle/123456789/160177
ISBN: 978-985-566-369-1
Располагается в коллекциях:Секция 6. ИНТЕЛЛЕКТУАЛЬНЫЕ ИНФОРМАЦИОННЫЕ СИСТЕМЫ

Полный текст документа:
Файл Описание РазмерФормат 
Stefanovitch.pdf471,34 kBAdobe PDFОткрыть
Показать полное описание документа Статистика Google Scholar



Все документы в Электронной библиотеке защищены авторским правом, все права сохранены.