МЕТОД ВИЗНАЧЕННЯ ФОРМАНТНИХ ЧАСТОТ ІЗ ВИКОРИСТАННЯМ СПЕКТРАЛЬНОГО РОЗКЛАДАННЯ МОВНОГО СИГНАЛУ

Автор(и)

DOI:

https://doi.org/10.17721/ISTS.2023.1.51-60

Ключові слова:

мовний сигнал (МС), формантні частоти, спектральна декомпозиція, обчислювальний алгоритм, вейвлет-аналіз

Анотація

Форманти є одним з основних компонентів систем ідентифікації мовця, а точність визначення формант – це основа ефективності систем ідентифікації мовця. Поліпшення існуючих систем розпізнавання мови дозволить істотно спростити взаємодію людини з комп'ютером у тому випадку, коли використання класичних інтерфейсів неможливо, а також зробити подібну роботу комфортнішою та ефективною.
Необхідність досліджень із цієї тематики пояснюється незадовільними результатами наявних систем при низькому співвідношенні сигнал/шум, залежністю результату від людини, а також невисокою швидкістю роботи подібного виду систем.
Для порівняння із запропонованим методом використовували такі чотири основні формант-трекери: PRAAT, SNACK, ASSP та DEEP. Існує багато досліджень, що стосуються порівняння формант-трекерів, однак серед них не можна виокремити такий, що має найкращу ефективність.
Виокремлення формант супроводжує цілий ряд проблем, пов'язаних з їхньою динамічної зміною у процесі мовлення. Складність також викликають проблеми, пов'язані з близьким розташуванням піків під час аналізу спектрограм і проблеми правильного визначення піків максимумів формант на спектрограмі. Розташування формант на спектрограмах мовного сигналу достатньо легко визначає людина, але автоматизація цього процесу викликає деякі труднощі.
Виокремлення формантних частот запропоновано виконувати у декілька етапів. Результатом проведеного огляду підходів до визначення формантних частот став алгоритм, що складається з дев'ятьох таких етапів. Сегментація мовного сигналу на вокалізовані фрагменти та паузи виконується методом оцінювання змін фрактальної розмірності. Отримання спектра мовного сигналу виконувалось із використанням комплексного вейвлету Морле на основі віконної функції Гаусса. Для дослідження розглядалися формант-трекери PRAAT, SNACK, ASSP і DEEP. Налаштування кожного з них здійснювали на основі набору параметрів за замовчуванням, що закладено розробниками цих трекерів. Набір налаштувань для кожного з трекерів використовували для порівняння. У дослідженні трекери самостійно виконували сегментацію на вокалізовані фрагменти і паузи, застосовуючи датасет VTR-TIMIT. Проведений порівняльний аналіз показав достатньо високу точність визначення формантних частот порівняно з існуючими формант-трекерами.

##submission.downloads##

Опубліковано

2023-03-29

Номер

Розділ

Комп’ютерні науки та інформаційні технології