Пожалуйста, используйте этот идентификатор, чтобы цитировать или ссылаться на этот документ:
https://elib.bsu.by/handle/123456789/334812
Заглавие документа: | Классификация текстов естественного языка и её приложения: дипломная работа / Татьяна Дмитриевна Кордияк; БГУ, Факультет прикладной математики и информатики, Кафедра информационных систем управления; науч. рук. Рубашко Н. К. |
Авторы: | Кордияк, Татьяна Дмитриевна |
Тема: | ЭБ БГУ::ЕСТЕСТВЕННЫЕ И ТОЧНЫЕ НАУКИ::Математика ЭБ БГУ::ЕСТЕСТВЕННЫЕ И ТОЧНЫЕ НАУКИ::Информатика |
Дата публикации: | 2025 |
Издатель: | БГУ, ФПМИ, Кафедра информационных систем управления |
Аннотация: | РЕФЕРАТ Структура и объём дипломной работы 62 страниц, 10 рисунков, 1 приложение, 9 источников Ключевые слова: АВТОМАТИЗИРОВАННАЯ ОБРАБОТКА ТЕКСТОВ, КЛАСТЕРИЗАЦИЯ ОТВЕТОВ, МАШИННОЕ ОБУЧЕНИЕ, СПАМ-ФИЛЬ- ТРАЦИЯ, СЕМАНТИЧЕСКИЙ АНАЛИЗ, DBSCAN, ОЦЕНКА ИНФОРМА- ТИВНОСТИ, NLP. Текст реферата Объект исследования — текстовые данные, получаемые в процессе проведения массовых анкетных и опросных исследований в образовательной, социологической и маркетинговой областях. Предмет исследования — методы и алгоритмы автоматизированной обработки открытых текстовых ответов в результатах опросов, включая филь- трацию спамовых сообщений, тематическую кластеризацию и автоматиче- скую оценку качества ответов. Цели исследования — разработка, программная реализация и экспери- ментальная оценка эффективности системы, позволяющей автоматически фильтровать нерелевантные и спамовые ответы, группировать сообщения по смысловой близости и производить предварительную автоматическую оценку их качества. Методы исследования — сравнительно-аналитический обзор совре- менных подходов, проектирование модульной архитектуры системы, реализа- ция и тестирование алгоритмов фильтрации, кластеризации, автоматической оценки, а также проведение экспериментальных исследований с использова- нием размеченных тестовых данных и вычисление ключевых метрик качества. Результатами являются разработанный программный комплекс, осу- ществляющий полную цепочку автоматической обработки анкетных тексто- вых данных; подтверждение высокой точности и эффективности автоматиче- ской фильтрации, тематической кластеризации и оценки качества текстов с ис- пользованием ансамблей алгоритмов и семантического анализа. Новизна ра- боты заключается в интеграции современных методов машинного обучения, гибридных архитектур фильтрации и кластеризации, поддержке русского и бе- лорусского языков, а также многоуровневой подготовке размеченной тестовой выборки для объективного сравнения методов. По результатам тестирования показано, что применение автоматических подходов позволяет снизить трудо- затраты и существенно повысить качество и скорость анализа текстовой ин- формации. Достоверность материалов и результатов работы подтверждена экс- периментальным тестированием на реальных и разнообразных по содержанию 6 корпусах открытых текстовых ответов, с многоуровневой ручной разметкой и объективной проверкой ключевых метрик качества (точность, полнота, F1, метрики кластеризации и автоматической оценки). Отдельные решения апро- бированы в нескольких сценариях применения, результаты воспроизводимы и подтверждают заявленные свойства системы. Область возможного практического применения — система может быть внедрена в корпоративные и образовательные платформы, центры ана- литики, HR-службы, исследовательские организации и любые структуры, об- рабатывающие большие массивы открытых ответов респондентов в опросах, позволяя существенно повысить качество анализа и снизить трудозатраты на обработку текстовой информации. |
URI документа: | https://elib.bsu.by/handle/123456789/334812 |
Лицензия: | info:eu-repo/semantics/openAccess |
Располагается в коллекциях: | Лучшие дипломные проекты, защищенные студентами факультета прикладной математики и информатики. 2025 |
Полный текст документа:
Файл | Описание | Размер | Формат | |
---|---|---|---|---|
ДР_ПИ_КордиякТД_2025.pdf | 6,52 MB | Adobe PDF | Открыть |
Все документы в Электронной библиотеке защищены авторским правом, все права сохранены.