МЕТОД ВИЗНАЧЕННЯ ФОРМАНТНИХ ЧАСТОТ ІЗ ВИКОРИСТАННЯМ СПЕКТРАЛЬНОГО РОЗКЛАДАННЯ МОВНОГО СИГНАЛУ

Автор(и)

DOI:

https://doi.org/10.17721/ISTS.2023.1.51-60

Ключові слова:

мовний сигнал (МС), формантні частоти, спектральна декомпозиція, обчислювальний алгоритм, вейвлет-аналіз

Анотація

Форманти є одним з основних компонентів систем ідентифікації мовця, а точність визначення формант – це основа ефективності систем ідентифікації мовця. Поліпшення існуючих систем розпізнавання мови дозволить істотно спростити взаємодію людини з комп'ютером у тому випадку, коли використання класичних інтерфейсів неможливо, а також зробити подібну роботу комфортнішою та ефективною. Необхідність досліджень із цієї тематики пояснюється незадовільними результатами наявних систем при низькому співвідношенні сигнал/шум, залежністю результату від людини, а також невисокою швидкістю роботи подібного виду систем. Для порівняння із запропонованим методом використовували такі чотири основні формант-трекери: PRAAT, SNACK, ASSP та DEEP. Існує багато досліджень, що стосуються порівняння формант-трекерів, однак серед них не можна виокремити такий, що має найкращу ефективність. Виокремлення формант супроводжує цілий ряд проблем, пов'язаних з їхньою динамічної зміною у процесі мовлення. Складність також викликають проблеми, пов'язані з близьким розташуванням піків під час аналізу спектрограм і проблеми правильного визначення піків максимумів формант на спектрограмі. Розташування формант на спектрограмах мовного сигналу достатньо легко визначає людина, але автоматизація цього процесу викликає деякі труднощі. Виокремлення формантних частот запропоновано виконувати у декілька етапів. Результатом проведеного огляду підходів до визначення формантних частот став алгоритм, що складається з дев'ятьох таких етапів. Сегментація мовного сигналу на вокалізовані фрагменти та паузи виконується методом оцінювання змін фрактальної розмірності. Отримання спектра мовного сигналу виконувалось із використанням комплексного вейвлету Морле на основі віконної функції Гаусса. Для дослідження розглядалися формант-трекери PRAAT, SNACK, ASSP і DEEP. Налаштування кожного з них здійснювали на основі набору параметрів за замовчуванням, що закладено розробниками цих трекерів. Набір налаштувань для кожного з трекерів використовували для порівняння. У дослідженні трекери самостійно виконували сегментацію на вокалізовані фрагменти і паузи, застосовуючи датасет VTR-TIMIT. Проведений порівняльний аналіз показав достатньо високу точність визначення формантних частот порівняно з існуючими формант-трекерами.

Завантажити

Дані для завантаження поки недоступні.

Посилання

Yegnanarayana, B., Veldhuis, R. N. J. (1998). Extraction of vocaltract system characteristics from speech signals, IEEE Trans. Speech Audio Process, 6 (4), 313–327.

Kim, C., Seo, K., & Sung, W. A Robust (2006). Formant Extraction Algorithm Combining Spectral Peak Picking and Root Polishing. EURASIP Journal on Applied Signal Processing, 1–16.

Wet, F. D., Weber, K., Boves, L., Cranen, B., Bengio, S., & Bourlard, H. (2004). Evaluation of Formant-Like Features for Automatic Speech Recognition. Journal of the Acoustical Society of America, 116, 1781–1791.

Mallat, S. (1999.) A Wavelet Tour of Signal Processing. Academic Press.

Yan, Q., Vaseghi, S., Zavarehei, Е., Milner, В., Darch, J., White, P., & Andrianakis, I. (Jul. 2007). Formant Tracking Linear Prediction Model using HMMs and Kalman Filters for Noisy Speech Processing. Computer Speech and Language, vol. 21, pp. 543–561.

Messaoud, Z. B., Gargouri, D., Zribi, S., & Hamida, A. B. (2009). Formant Tracking Linear Prediction Model using HMMs for Noisy Speech Processing. International Journal of Signal Processing, vol. 5, pp. 291–296.

Cooke, М., Barker, J., Cunningham, S., & X. Shao (2006). An audio-visual corpus for speech perception and automatic speech recognition. Journal of the Acoustical Society of America, vol. 120.

Acero, А. Formant Analysis and Synthesis using Hidden Markov Models (1999). Іn Proc. of the Eurospeech Conference. Budapest.

Veldhuis, R. (1997). A computationally e$cient alternative for the LF model and its perceptual evaluation. J. Acoust. Soc., 103 (1), 566–571.

Bazzi, І., Acero, А., & Deng, L. (2003). An expectation maximization approach for formant tracking using a parameter-free non-linear predictor. Іn Proc. ICASSP, vol. 1, 464–467.

Ali, J. A. M. A., Spiegel, J. V. D., & Mueller Р. (2002). Robust Auditory-based Processing using the Average Localized Synchrony Detection. Іn IEEE Transaction Speech and Audio Processing.

Vakman, D. (1996). On the analytic signal, the Teager-Kaiser energy algorithm, and other methods for defining amplitude and frequency. IEEE Trans. Signal Process, SP-44, 791–797.

Boersma, Р., & D. Weenink, (2017). Praat: doing phonetics by computer [Computer program]. Version 6.0.23, retrieved 2021-05-17. http://www.praat.org/

Kåre Sjölander(2020) The Snack Sound Toolkit [Computer program]. https://www.speech.kth.se/snack/

Scheffer, M. (2017). Available: Advanced Speech Signal Processor (libassp), retrieved 2021-05-17. http://www.sourceforge.net/projects/libassp.

Keshet, J. (2017). DeepFormant, retrieved 2021-05-25. https://github.com/MLSpeech.

Gray, А., & Wong, D.(1980, Dec.). The Burg algorithm for LPC speech analysis/Synthesis. Іn IEEE Transactions on Acoustics, Speech, and Signal Processing, vol. 28, no. 6, pp. 609–615.

Krishna, H., & Wang, Y. (1993). The Split Levinson Algorithm is Weakly Stable. SIAM Journal on Numerical Analysis, 30(5), 1498–1508., http://www.jstor.org/stable/2158249.

So, H. C., & Chan, K. W. (2004). Reformulation of Pisarenko Harmonic Decomposition Method for Single-Tone Frequency Estimation. Signal Processing, IEEE Transactions on. 52. 1128–1135. 10.1109/TSP.2004.823473.

VTR Formants Database. http://www.ee.ucla.edu/~spapl/VTRFormants.rar

Nearey, T. & Assmann, P. & Hillenbrand, J. (2002). Evaluation of a strategy for automatic formant tracking. The Journal of the Acoustical Society of America. 112. 2323. 10.1121/1.4779372.

Schiel, Florian & Zitzelsberger. Thomas (2018). Evaluation of Automatic Formant Trackers. Proceedings of the Eleventh International Conference on Language Resources and Evaluation {LREC}, Miyazaki, Japan.

Markel, J. E. & Gray, A. H. (1982). Linear Prediction of Speech. New York, NY: Springer. [24] Sun, Don X. (1995). Robust estimation of spectral center-of-gravity trajectories using mixture spline models. In EUROSPEECH-1995, 749–752.

Schalk-Schupp, Ingo. (2012). Improved Noise Reduction for Hands-Free Communication in Automobile Environments. 10.13140/2.1.4068.6724.

Бєлозьорова, Я. А. (2017). Ідентифікація диктора на основі кратномасштабного аналізу. Інженерія програмного забезпечення: наук. журн., 1(29). 15–25.

Deng, L., Cui, X., Pruvenok, R., Huang, J., Momen, S., Chen, Y. N., & Alwan, A. (2006). A Database of Vocal Tract Resonance Trajectories for Research in Speech Processing. In Proc. of the Int. Conf. on Acoustics, Speech, and Signal Processing

Завантаження

Опубліковано

2023-03-29

Номер

Розділ

Комп’ютерні науки та інформаційні технології

Як цитувати