ОЦІНЮВАННЯ ОСНОВНОГО ТОНУ У АВТОМАТИЗОВАНІЙ СИСТЕМІ РОЗПІЗНАВАННЯ МОВЦЯ КРИТИЧНОГО ЗАСТОСУВАННЯ

  • В. В. Ковтун Вінницький національний технічний університет
Ключові слова: автоматизована система розпізнавання мовців критичного застосування, основний тон, глибока нейромережа, рекурентна нейромережа, факторіальна прихована Марковська модель

Анотація

Запропоновано метод оцінювання трендів основного тону, який, на відміну від існуючих, використовує оптимізовану із застосуванням дерева переходів факторіальну приховану Марковську модель для формування трендів основного тону узагальнюючи при цьому інформацію від детекторів станів основного тону, на основі глибокої та рекурентної нейромереж, що дозволило спрогнозувати оцінки станів основного тону, використовуючи довготривалу інформацію з пакетів фреймів мовного сигналу, описати часову динаміку основного тону та зменшити вплив шумів у мовному сигналі на якість оцінок основного тону. Створено методи оцінювання станів основного тону на основі глибокої та рекурентної нейромереж та метод оцінювання трендів основного тону на основі факторіальної прихованої Марковської моделі (ФПММ). Проведено дослідження для оптимізації параметрів запропонованих методів для використання у складі автоматизованої системи розпізнавання мовця критичного застосування (АСРМКЗ). Зокрема, результати досліджень дозволяють рекомендувати нормовані за потужністю кепстральні ознаки як базові для оцінювання основного тону запропонованими методами, застосовувати в роботі методів пакети фреймів тривалістю 10 фреймів, будувати описані у методах нейромережі, використовуючи на прихованих шарах 1024 нейрони та використовувати 68 станів для опису основного тону. Результати проведених досліджень залежності якості розпізнавання мовців АСРМКЗ від рівня відношення сигнал/шум (ВСШ) у вхідному мовному матеріалі та оцінками основного тону, отриманими в результаті роботи створених методів, параметри яких оптимізовано з урахуванням результатів проведених досліджень, показали, що для всіх рівнів ВСШ найточніші оцінки основного тону дає ФПММ-метод, забезпечуючи імовірність правильного розпізнавання мовців АСРМКЗ на рівні 96…99 % для обраної тестувальної вибірки.

Біографія автора

В. В. Ковтун, Вінницький національний технічний університет

канд. техн. наук, доцент, доцент кафедри комп’ютерних систем управління

Посилання

B. S. Atal, “Automatic speaker recognition based on pitch contours,” J. Acoust. Soc. Amer., vol. 52, pp. 1687-1697, 1972.

D. J. Hermes, “Measurement of pitch by subharmonic summation,” J. Acoust. Soc. Amer., vol. 83, p. 257-264, 1988.

M. R. Schroeder, “Period histogram and product spectrum: New methods for fundamental-frequency measurement,” J. Acoust. Soc. Amer., vol. 43, pp. 829-834, 1968.

W. Chu, and A. Alwan, “SAFE: A statistical approach to F0 estimation under clean and noisy conditions,” IEEE Trans. Audio, Speech, Lang. Process., vol. 20, no. 3, pp. 933-944, 2012.

S. Gonzalez, and M. Brookes, “PEFAC-A pitch estimation algorithm robust to high levels of noise,” IEEE/ACM Trans. Audio, Speech, Lang. Process., vol. 22, no. 2, pp. 518-530, 2014.

D. Talkin, “A robust algorithm for pitch tracking (RAPT),” Speech Coding Synth., vol. 495, pp. 497-518, 1995.

A. De Cheveigne, and H. Kawahara, “YIN, a fundamental frequency estimator for speech and music,” J. Acoust. Soc. Amer., vol. 111, pp. 1917-1930, 2002.

M. Wu, D. L. Wang, and G. J. Brown, “A multipitch tracking algorithm for noisy speech,” IEEE Trans. Speech, Audio Process., vol. 11, no. 3, pp. 229-241, 2003.

Z. Jin, and D. L.Wang, “HMM-based multipitch tracking for noisy and reverberant speech,” IEEE Trans. Audio, Speech, Lang. Process., vol. 19, no. 5, pp. 1091-1102, 2011.

B. S. Lee, and D. P. W. Ellis, “Noise robust pitch tracking by subband autocorrelation classification,” in 13th Annual Conference of the International Speech Communication Association, 2012. doi 10.7916/D86M3H3S.

X. Glorot, A. Bordes, and Y. Bengio, “Deep sparse rectifier neural networks,” Proc. of AISTATS, pp. 315–323, 2011.

O. Vinyals, S. V. Ravuri, and D. Povey, “Revisiting recurrent neural networks for robust ASR,” Proc. ICASSP, pp. 4085–4088, 2012.

Z. Ghahramani, and M. Jordan, “Factorial hidden Markov models,” Mach. Learn. vol. 29, pp. 245-273, 1997.

M. Jordan, Z. Ghahramani, and T. Jaakkola, “An introduction to variational methods for graphical models,” Mach. Learn. vol. 37, pp. 183-233, 1999.

V. Zue, S. Seneff, and J. Glass, “Speech database development at MIT: TIMIT and beyond,” Speech Commun., vol. 9, no. 4, pp. 351-356, 1990.

A. Varga, and H. Steeneken, “Assessment for automatic speech recognition: II. NOISEX-92: A database and an experiment to study the effect of additive noise on speech recognition systems,” Speech Communication, vol. 12, no. 3, pp. 247-251, 1993.

L. Rabiner, M. Cheng, and A. Rosenberg, “A comparative performance study of several pitch detection algorithms,” IEEE Transactions on Acoustics, Speech and Signal Proc., vol. 24, no. 5, pp. 399-418, 1976.

R. H. Mohd, M. Zamil, and B. K. Mohd, “Speaker identification using MFCC coefficients,” in 3rd international conference on electrical and computer engineering (ICECE), 2004.

C. Kim, and R. M. Stern, “Power-normalized cepstral coefficients (PNCC) for robust speech recognition,” Proc. of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), vol. 24, pp. 1315-1329, 2012.

J. C. Wang, C. H. Lin, and E. T. Chen, “Spectral-temporal receptive fields and mfcc balanced feature extraction for noisy speech recognition,” Asia-Pacific Signal and Information Processing Association (APSIPA), 2014. doi 10.1007%2Fs11042-016-3335-0.

K. Han, and DeL. Wang, “Neural network based pitch tracking in very noisy speech,” IEEE/ACM Transactions on Audio, Speech and Language Proc., vol. 22, no. 12, pp. 2158-2168, 2014.

М. М. Биков, та В. В. Ковтун, «Оцінювання надійності автоматизованих систем розпізнавання мовців критичного застосування,» Вісник Вінницького політехнічного інституту, № 2, с. 70-76, 2017.

Опубліковано
2018-10-18
Як цитувати
[1]
В. Ковтун, ОЦІНЮВАННЯ ОСНОВНОГО ТОНУ У АВТОМАТИЗОВАНІЙ СИСТЕМІ РОЗПІЗНАВАННЯ МОВЦЯ КРИТИЧНОГО ЗАСТОСУВАННЯ, Вісник Вінницького політехнічного інституту, № 4, с. 61-73, Жов 2018.
Номер
Розділ
Інформаційні технології та комп'ютерна техніка