ПІДВИЩЕННЯ ШУМОСТІЙКОСТІ АВТОМАТИЗОВАНОЇ СИСТЕМИ РОЗПІЗНАВАННЯ МОВЦЯ КРИТИЧНОГО ЗАСТОСУВАННЯ
Ключові слова:
автоматизована система розпізнавання мовців критичного застосування, і-вектори, суміш PLDAАнотація
Актуальні системи розпізнавання мовців, де застосовується і-векторне/PLDA моделювання для опису фонограм, синтезують узагальнену PLDA модель з усередненими параметрами по всій базі фонограм без їх сегрегації за рівнем шумів. В результаті такі системи забезпечують прийнятний рівень надійності лише за наявності великої навчальної вибірки, як за кількістю, так і за тривалістю фонограм. Автори пропонують синтезувати окремі PLDA моделі для опису фонограм з детермінованими рівнями відношення сигнал/шум (ВСШ), в результаті чого фактори, які характеризують індивідуальність мовців, будуть зосереджені у наймінливіших зонах і-векторного простору. Статистичний аналіз параметрів таких зон мінливості для фонограм з детермінованим рівнем ВСШ дозволив визначити шумостійкі і інформативні для розпізнавання особи мовця фактори. Для розв’язання цієї задачі отримано аналітичний вираз для PLDA моделі, параметри якої визначаються виключно значеннями і-векторів, у яку введено показники, що описують рівні ВСШ. Також синтезовано цільові функції та етапи ЕМ-алгоритму навчання ВСШ-залежних PLDA сумішей, здійснено перевірку ефективності запропонованих моделей, порівнявши їх з результатами, які показують ВСШ-незалежні суміші для визначеної бази фонограм мовців.
Посилання
[2] R. Saeidi, and D. A. van Leeuwen, «The Radboud University Nijmegen submission to NIST SRE-2012». [Online]. Available: http://repository.ubn.ru.nl/bitstream/handle/2066/116114/116114.pdf?sequence=1. Accessed on: February 14. 2018.
[3] Y. Shao, and D. Wang, «Robust speaker identification using auditory features and computational auditory scene analysis». [Online]. Available: http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.151.4921&rep=rep1&type=pdf. Accessed on: February 14. 2018.
[4] J. Pelecanos, and S. Sridharan, «Feature warping for robust speaker verification» [Online]. Available: http://www.isca-speech.org/archive_open/archive_papers/odyssey/odys_213.pdf. Accessed on: February 14. 2018.
[5] М. М. Биков, та В. В. Ковтун, «Використання множини мікрофонів у автоматизованій системі розпізнавання мовця критичного застосування,» Вісник Вінницького політехнічного інституту, № 3, с. 84-91, 2017.
[6] P. Kenny, P. Ouellet, N. Dehak, V. Gupta, and P. Dumouchel, «A study of inter-speaker variability in speaker verification,» IEEE Transactions on Audio, Speech and Language Processing, vol. 16, no. 5, pp. 980-988, 2008.
[7] N. Dehak, P. Kenny, R. Dehak, P. Dumouchel, and P. Ouellet, «Front-end factor analysis for speaker verification,» IEEE Transactions on Audio, Speech and Language Processing, vol. 19, no. 4, pp. 788-798, 2011.
[8] C. Bishop, Pattern Recognition and Machine Learning. New York, USA: Springer, 2006.
[9] A. Hatch, S. Kajarekar, and A. Stolcke Within-class covariance normalization for SVM-based speaker recognition [Online]. Available: http://www.isca-speech.org/archive/archive_papers/interspeech_2006/i06_1874.pdf. Accessed on: February 14, 2018.
[10] T. Hasan, and John H. L. Hansen, «Maximum likelihood acoustic factor analysis models for robust speaker verification in noise,» IEEE Transactions on Audio, Speech And Language Processing, vol. 22, no. 2, pp. 381-391, 2014.
[11] Y. Lei, L. Burget, and N. Scheffer, «A noise robust i-vector extractor using vector Taylor series for speaker recognition,» Proc. of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 6788–6791. 21 October 2013. 2013. DOI: 10.1109/ICASSP.2013.6638976.
[12] Y. Lei, L. Burget, L. Ferrer, M. Graciarena, and N. Scheffer, «Towards noise-robust speaker recognition using probabilistic linear discriminant analysis,» Proc. of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 4253-4256. 31 August 2012. 2012. DOI: 10.1109/ICASSP.2012.6288858.
[13] N. Li, and M. W. Mak, «SNR-invariant PLDA modeling in nonparametric subspace for robust speaker verification,» IEEE/ACM Trans. on Audio Speech and Language Processing, vol. 23, no. 10, pp. 1648-1659, 2015.
[14] T. Hasan, and J. Hansen, «Acoustic factor analysis for robust speaker verification,» IEEE Transactions on Audio, Speech and Language Processing, vol. 21, no. 4, pp. 842-853, 2013.
[15] D. Martinez, L. Burget, T. Stafylakis, Y. Lei, P. Kenny, and E. Lleida, «Unscented transform for i-vector-based noisy speaker recognition,» Proc. of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 4070-4074. 14 July 2014. 2014. DOI: 10.1109/ICASSP.2014.6854361.
[16] M. McLaren, Y. Lei, N. Scheffer, and L. Ferrer, «Application of convolutional neural networks to speaker recognition in noisy conditions». [Online]. Available: https://pdfs.semanticscholar.org/f6b0/984d6289acdb87139f1ca4abc42d31cb24fc.pdf. Accessed on: February 14, 2018.
[17] D. A. Reynolds, T. F. Quatieri, and R. B. Dunn, «Speaker verification using adapted Gaussian mixture models,» Digital Signal Processing, vol. 10, no. 1-3, pp. 19-41, 2000.
[18] L. Rabiner, and B. H. Juang Fundamentals of Speech Recognition. NJ, USA: Prentice-Hall International, Inc., 1993.
[19] А. О. Береза, М. М. Биков, та В. В. Ковтун, «Оптимізація алфавіту інформативних ознак для автоматизованої системи розпізнавання мовців критичного застосування,» Вісник Хмельницького національного університету, серія: Технічні науки, № 3 (249), с. 222-228, 2017.
[20] M. W. Mak, and H. B. Yu, «A study of voice activity detection techniques for NIST speaker recognition evaluations,» Computer, Speech and Language, vol. 28, no. 1, pp. 295-313, 2013.
[21] D. Garcia-Romero, and C. Espy-Wilson, Analysis of i-vector length normalization in speaker recognition systems. [Online]. Available: http://www.isr.umd.edu/Labs/SCL/publications/conference/dgromero_is11_lnorm_final.pdf. Accessed on: February 14. 2018.
[22] R. Saeidi, and D. A. van Leeuwen. The Radboud University Nijmegen submission to NIST SRE-2012. [Online]. Available: http://repository.ubn.ru.nl/bitstream/handle/2066/116114/116114.pdf?sequence=1. Accessed on: February 14, 2018.
##submission.downloads##
-
PDF
Завантажень: 103
Опубліковано
Як цитувати
Номер
Розділ
Ліцензія
Автори, які публікуються у цьому журналі, згодні з такими умовами:
- Автори зберігають авторське право і надають журналу право першої публікації.
- Автори можуть укладати окремі, додаткові договірні угоди з неексклюзивного поширення опублікованої журналом версії статті (наприклад, розмістити її в інститутському репозиторії або опублікувати її в книзі), з визнанням її первісної публікації в цьому журналі.
- Авторам дозволяється і рекомендується розміщувати їхню роботу в Інтернеті (наприклад, в інституційних сховищах або на їхньому сайті) до і під час процесу подачі, оскільки це сприяє продуктивним обмінам, а також швидшому і ширшому цитуванню опублікованих робіт (див. вплив відкритого доступу).