Пожалуйста, используйте этот идентификатор, чтобы цитировать или ссылаться на этот документ:
https://elib.bsu.by/handle/123456789/160177Полная запись метаданных
| Поле DC | Значение | Язык |
|---|---|---|
| dc.contributor.author | Stefanovitch, N. | - |
| dc.date.accessioned | 2016-11-02T11:00:03Z | - |
| dc.date.available | 2016-11-02T11:00:03Z | - |
| dc.date.issued | 2016-10-25 | - |
| dc.identifier.isbn | 978-985-566-369-1 | - |
| dc.identifier.uri | http://elib.bsu.by/handle/123456789/160177 | - |
| dc.description.abstract | We consider in this paper the problem of detection the language of document when no assumptions are made about a document: it can be of any size and contain zero, one or several languages. Language identification is considered a solved task, but actually, among others shortcomings, does not deal with the case of accurately the presence or absence of several languages in arbitrary documents. In order to tackle these problems, we propose an approach based on word dictionaries using Bayesian statistics and ad-hoc features. We show on two datasets that with sufficient statistics our approach is able to give very satisfying results in dealing with both unsolved tasks: detection of documents with no languages and identification of languages in multilingual documents. | ru |
| dc.language.iso | en | ru |
| dc.publisher | Минск: БГУ | ru |
| dc.subject | ЭБ БГУ::ОБЩЕСТВЕННЫЕ НАУКИ::Информатика | ru |
| dc.subject | ЭБ БГУ::ОБЩЕСТВЕННЫЕ НАУКИ::Информатика | ru |
| dc.title | Robust multilingual document identification | ru |
| dc.title.alternative | Устойчивая идентификация многоязычного документа | ru |
| dc.type | conference paper | ru |
| Располагается в коллекциях: | Секция 6. ИНТЕЛЛЕКТУАЛЬНЫЕ ИНФОРМАЦИОННЫЕ СИСТЕМЫ | |
Полный текст документа:
| Файл | Описание | Размер | Формат | |
|---|---|---|---|---|
| Stefanovitch.pdf | 471,34 kB | Adobe PDF | Открыть |
Все документы в Электронной библиотеке защищены авторским правом, все права сохранены.

