МЕТРИКА СХОЖОСТІ КАТЕГОРІАЛЬНИХ РОЗПОДІЛІВ, ЩО ВРАХОВУЄ СПОРІДНЕНІСТЬ РІЗНИХ КАТЕГОРІЙ
DOI:
https://doi.org/10.31649/1997-9266-2023-167-2-49-57Ключові слова:
категоріальний розподіл, споріднені категорії, метрика схожості, метрика Чекановського, розпізнавання поз, підбір рецензентів, узагальнений розподіл ПаретоАнотація
Оцінювання схожості двох об’єктів — це поширена задача в розпізнаванні образів, кластеризації та класифікації. Прикладами таких задач є підбір рецензентів наукових робіт, аналіз схожості текстових документів, ідентифікація поз людей у відеоряді, кластеризація природних ареалів, формування рекомендацій в інтернет-магазинах тощо. У випадку категоріальних атрибутів об’єкти описуються деяким розподілом ступенів належності за категоріями. Метрики схожості таких розподілів зазвичай є суперпозицією схожості об’єктів за кожною категорією. Найчастіше це сума схожості за окремими категоріями. При цьому, кожна категорія розглядається незалежно та ізольовано від інших. В деяких практичних задачах категорії є спорідненими. Тому схожість між об’єктами доцільно розраховувати не лише напряму, як схожість між еквівалентними категоріями, але враховувати і непряму, перехресну схожість через споріднені категорії. Саме така метрика схожості двох категоріальних розподілів, що враховує спорідненість різних категорій, і пропонується у статті. Метрика має дві складові. Перша складова реалізована метрикою Чекановського. Вона визначає пряму схожість розподілів за категоріями як суму перетину розподілів належностей двох об’єктів. Після перетину розподілів залишаються залишки, які і враховуються другою складовою запропонованої метрики. Друга складова метрики є сумою поелементного добутку двох матриць: матриці композиції залишків належності двох категоріальних розподілів та матриці попарної спорідненості категорій. Передбачається, що коефіцієнти спорідненості кожної пари категорій є відомими. Встановлено, що за великої кількості категорій сумарний шумовий внесок від слабо споріднених категорій є значним. Тому запропоновано цей шум фільтрувати і враховувати лише внесок від сильно споріднених категорій.
Посилання
N. Sebe, J. Yu, Q. Tian, and J. Amores, “A New Study on Distance Metrics as Similarity Measurement,” in 2006 IEEE International Conference on Multimedia and Expo, Toronto, Ont., 2006, pp. 533-536. https://doi.org/10.1109/ICME.2006.262443 .
Wang Wen-June, “New similarity measures on fuzzy sets and on elements,” Fuzzy sets and systems, no. 85.3, pp. 305-309, 1997. https://doi.org/10.1016/0165-0114(95)00365-7 .
Cha, Sung-Hyuk. “Comprehensive Survey on Distance/Similarity Measures between Probability Density Functions,” International journal of mathematical models and methods in applied sciences, no. 1.4, pp. 300-307, 2007.
Jie Yu, Qi Tian, J. Amores, and N. Sebe, “Toward Robust Distance Metric Analysis for Similarity Estimation,” in 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'06), 2006, pp. 316-322, https://doi.org/10.1109/CVPR.2006.310 .
S. Shtovba, and M. Petrychko, “An Algorithm for Topic Modeling of Researchers Taking Into Account Their Interests in Google Scholar Profiles,” CEUR Workshop Proceedings, vol. 2864 “Proceedings of the Fourth International Workshop on Computer Modeling and Intelligent Systems”, pp. 299-311, 2021. https://doi.org/10.32782/cmis/2864-26 .
S. Shtovba, and M. Petrychko, “Jaccard Index-Based Assessing the Similarity of Research Fields in Dimensions,” CEUR Workshop Proceedings, vol. 2533 “Proceedings of the First International Workshop on Digital Content & Smart Multimedia”, pp. 117-128, 2019.
##submission.downloads##
-
PDF
Завантажень: 111
Опубліковано
Як цитувати
Номер
Розділ
Ліцензія
Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License.
Автори, які публікуються у цьому журналі, згодні з такими умовами:
- Автори зберігають авторське право і надають журналу право першої публікації.
- Автори можуть укладати окремі, додаткові договірні угоди з неексклюзивного поширення опублікованої журналом версії статті (наприклад, розмістити її в інститутському репозиторії або опублікувати її в книзі), з визнанням її первісної публікації в цьому журналі.
- Авторам дозволяється і рекомендується розміщувати їхню роботу в Інтернеті (наприклад, в інституційних сховищах або на їхньому сайті) до і під час процесу подачі, оскільки це сприяє продуктивним обмінам, а також швидшому і ширшому цитуванню опублікованих робіт (див. вплив відкритого доступу).