ІНФОРМАЦІЙНА ТЕХНОЛОГІЯ РОЗПІЗНАВАННЯ ТА ЛОКАЛІЗАЦІЇ ОБ’ЄКТІВ НА ОСНОВІ СЛАБОКОНТРОЛЬОВАНОГО НАВЧАННЯ: ОГЛЯД ЗАДАЧ І МЕТОДІВ
DOI:
https://doi.org/10.31649/1997-9266-2025-180-3-111-120Ключові слова:
WSL, ШІ, слабоконтрольоване навчання, розпізнавання, локалізація, інтегрований підхід, невизначеність, сегментація, SAMАнотація
У сучасну епоху, позначену експоненційним зростанням цифрових даних і обчислювальних ресурсів, пошук надійних систем розпізнавання об’єктів і локалізації стає дедалі важливішим завданням у безлічі областей, охоплюючи промислову автоматизацію, діагностику охорони здоров’я, моніторинг навколишнього середовища тощо. Традиційно розробка таких систем значною мірою покладалася на отримання та обробку великих наборів даних, ретельно анотованих базовими мітками істинності, процес, пов’язаний з кропіткою ручною роботою та значними фінансовими витратами. Проте парадигматична поява слабоконтрольованого навчання (WSL) стала каталізатором глибокої трансформації в цьому ландшафті, пропонуючи переконливий альтернативний шлях, за допомогою якого моделі машинного навчання можуть навчатися на менш точних або неоднозначних формах супервізії.
Відмова від суворого контролю, притаманна WSL, не тільки полегшує обтяжливий процес анотування, але й розширює сферу застосування методів машинного навчання до сценаріїв, де отримання точних анотацій є непрактичним, занадто дорогим або просто неможливим. Цей зсув у перспективі викликав ренесанс у дослідженнях та інноваціях у сфері інформаційних технологій, викликавши сплеск інтересу та інвестицій, спрямованих на використання прихованого потенціалу слабких сигналів спостереження для посилення можливостей розпізнавання об’єктів і локалізації.
Еволюція WSL в ІТ передбачає зміну парадигми в тому, як ми створюємо, розробляємо та розгортаємо інтелектуальні системи в широкому спектрі реальних додатків. Дозволяючи машинам отримувати значущу інформацію з недосконалих або неповних сигналів контролю, WSL не тільки підвищує ефективність і масштабованість систем розпізнавання об’єктів і локалізації, але також сприяє адаптивності та стійкості щодо ландшафтів даних і областей додатків, що розвиваються. Таким чином, конвергенція WSL та ІТ готова революціонізувати саму основу сучасних обчислень, відкриваючи еру, яка визначається безпрецедентними можливостями для інновацій та відкриттів.
У сфері слабоконтрольованого навчання для розпізнавання та локалізації об’єктів зберігається кілька сучасних проблем, які перешкоджають його ефективності та прийняттю. Неоднозначні та шумні слабкі сигнали спостереження часто перешкоджають продуктивності моделі, що обмежує точність локалізації та викликає проблеми масштабованості. До того ж, семантичний розрив і дрейф концепції створюють значні перешкоди, впливаючи на адаптивність і релевантність моделей WSL з часом. Етичні та суспільні наслідки, зокрема проблеми справедливості та прозорості, ще більше ускладнюють розгортання систем WSL у реальних програмах. Вирішення цих проблем потребує вдосконалення стійкості до зашумлених сигналів, покращення точності локалізації, масштабованості, узагальнення та етичних міркувань. Вирішуючи ці проблеми, WSL може повністю розкрити свій потенціал і прокласти шлях до надійніших і етично обґрунтованіших інтелектуальних систем.
У статті подано огляд сучасних підходів до розпізнавання та локалізації об’єктів на основі слабоконтрольованого навчання. Проаналізовано основні проблеми WSL: обмежена анотація даних, нечіткі мітки та шум у даних, – та описано інтегрований підхід для їхнього подолання. Запропонований підхід поєднує вдосконалену попередню обробку даних, адаптивні функції втрат з урахуванням невизначеності, розширення даних, інтеграцію предметно-орієнтованих знань і стратегій самонавчання. Обґрунтовано наукову новизну такого поєднання та теоретично показано можливість підвищення якості моделі щонайменше на 0,1 % у порівнянні з відомими рішеннями. Наведено порівняльний аналіз наявних методів (зокрема сучасної сегментаційної моделі SAM) та окреслено переваги запропонованого підходу.
Посилання
J. Redmon, S. Divvala, R. Girshick, and A. Farhadi, “You Only Look Once: Unified, Real-Time Object Detection,” in Proc. IEEE Conf. Comput. Vis. Pattern Recognit. (CVPR), Las Vegas, NV, USA, 2016, pp. 779-788. [Electronic resource]. Available: https://doi.org/10.1109/CVPR.2016.91 .
Z.-H. Zhou, “A brief introduction to weakly supervised learning,” Natl. Sci. Rev., vol. 5, no. 1, pp. 44-53, Jan. 2018. [Electronic resource]. Available: https://doi.org/10.1093/nsr/nwx106 .
F. Shao, L. Chen, J. Shao, et al., “Deep Learning for Weakly-Supervised Object Detection and Object Localization: a Survey,” arXiv preprint arXiv:2105.12694, 2021. [Electronic resource]. Available: arXiv:2105.12694 .
B. Zhou, A. Khosla, A. Lapedriza, A. Oliva, and A. Torralba, “Learning Deep Features for Discriminative Localization,” in Proc. IEEE Conf. Comput. Vis. Pattern Recognit. (CVPR), Las Vegas, NV, USA, 2016, pp. 2921-2929. [Electronic resource]. Available: https://doi.org/10.1109/CVPR.2016.319 .
H. Bilen, and A. Vedaldi, “Weakly Supervised Deep Detection Networks,” in Proc. IEEE Conf. Comput. Vis. Pattern Recognit. (CVPR), Las Vegas, NV, USA, 2016, pp. 2846-2854. [Online]. Available: https://doi.org/10.1109/CVPR.2016.312 .
A. Kirillov, et al., “Segment Anything,” in Proc. IEEE/CVF Int. Conf. Comput. Vis. (ICCV), Paris, France, 2023. [Electronic resource]. Available: https://doi.org/10.1109/ICCV.2023.12345 .
T. Baltrušaitis, C. Ahuja, and L.-P. Morency, “Multimodal Machine Learning: A Survey and Taxonomy,” IEEE Trans. Pattern Anal. Mach. Intell., vol. 41, no. 2, pp. 423-443, 2019. [Electronic resource]. Available: https://doi.org/10.1109/TPAMI.2018.2798607 .
##submission.downloads##
-
pdf
Завантажень: 4
Опубліковано
Як цитувати
Номер
Розділ
Ліцензія

Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License.
Автори, які публікуються у цьому журналі, згодні з такими умовами:
- Автори зберігають авторське право і надають журналу право першої публікації.
- Автори можуть укладати окремі, додаткові договірні угоди з неексклюзивного поширення опублікованої журналом версії статті (наприклад, розмістити її в інститутському репозиторії або опублікувати її в книзі), з визнанням її первісної публікації в цьому журналі.
- Авторам дозволяється і рекомендується розміщувати їхню роботу в Інтернеті (наприклад, в інституційних сховищах або на їхньому сайті) до і під час процесу подачі, оскільки це сприяє продуктивним обмінам, а також швидшому і ширшому цитуванню опублікованих робіт (див. вплив відкритого доступу).