Logo BSU

Пожалуйста, используйте этот идентификатор, чтобы цитировать или ссылаться на этот документ: https://elib.bsu.by/handle/123456789/118639
Заглавие документа: К вопросу об устойчивых к эмоциям информативных признаках для задачи распознавания речи
Авторы: Ткаченя, А. В.
Тема: ЭБ БГУ::ЕСТЕСТВЕННЫЕ И ТОЧНЫЕ НАУКИ::Кибернетика
Дата публикации: 2014
Издатель: Минск : БГУ
Библиографическое описание источника: Вестник БГУ. Серия 1, Физика. Математика. Информатика. - 2014. - № 3. - С. 56-61
Аннотация: Описан метод параметризации речевого сигнала, который дает устойчивый к эмоциям и инвариантный к диктору информативный признак (ИП) на основе кепстральных коэффициентов, определенных на экспоненциально-логарифмической шкале частот, для спектра, рассчитанного по параметрам линейного предсказания (ЛПСКК). При помощи полученного информативного признака решается задача распознавания эмоциональной речи на основе скрытых марковских моделей. В экспериментальной части показано, что использование линейного предсказания (ЛП) для вычисления спектра речевого сигнала более предпочтительно по сравнению с быстрым преобразованием Фурье, так как влияние изменения частоты основного тона на качество анализа линейного предсказания практически отсутствует, что обусловливает высокую эффективность распознавания гласных звуков с различной эмоциональной окраской. Также приводятся доводы в пользу применения экспоненциально-логарифмической шкалы частот при расчете кепстральных коэффициентов, так как ее использование позволяет снизить изменчивость пространства признаков. Полученные в ходе эксперимента результаты свидетельствуют о том, что рассматриваемый в статье информативный признак позволяет повысить эффективность распознавания эмоциональной речи на 4 %. = This paper presents a method of the speech signal parameterization that gives a robust to emotions and invariant to a speaker feature vector. For this purpose the cepstral coefficients based on a linear prediction power spectrum defined on the ExpoLog frequency scale is used. The described feature vector is applied for emotional speech recognition based on hidden Markov models. It is shown that usage of linear prediction to calculate the spectrum of a speech signal is more preferably compared with fast Fourier transform as the effect of a change in the pitch frequency on the quality of a linear predictive analysis is very insignificant, and a high recognition efficiency of vowel sounds with different emotional coloring is offered. Also, it is proposed to use the ExpoLog frequency scale in calculations of cepstral coefficients owing to the reduced variability of the feature vector space. The experimental results obtained show that usage of the described feature vector contributes to the improved (by 4 %) efficiency of emotional speech recognition.
URI документа: http://elib.bsu.by/handle/123456789/118639
ISSN: 1561-834X
Лицензия: info:eu-repo/semantics/openAccess
Располагается в коллекциях:2014, №3 (сентябрь)

Полный текст документа:
Файл Описание РазмерФормат 
Vestnik_1_3_2014-056-061.pdf854,79 kBAdobe PDFОткрыть
Показать полное описание документа Статистика Google Scholar



Все документы в Электронной библиотеке защищены авторским правом, все права сохранены.