ГІБРИДНИЙ ПІДХІД ДО ПОШУКУ ТА ОБРОБКИ СКЛАДНОСТРУКТУРОВАНИХ ДАНИХ ВЕЛИКОГО ОБСЯГУ ДЛЯ ПОБУДОВИ ІНТЕГРОВАНОГО АЛГОРИТМУ АНАЛІЗУ КУЛЬТУРНОЇ СПАДЩИНИ УКРАЇНИ
DOI:
https://doi.org/10.31649/1997-9266-2025-183-6-127-138Ключові слова:
культурна спадщина, обробка данихАнотація
Проблематика збереження та аналізу культурної спадщини України вимагає створення сучасних інтелектуальних інструментів, здатних обробляти складноструктуровані, багатомодальні та різнотипні дані великого обсягу. Традиційні методи пошуку й аналізу інформації здебільшого не враховують багатомовність архівів, наявність рукописних документів, історичних варіацій термінології та необхідність верифікації фактів, що істотно знижує ефективність інтеграції відомостей з різних джерел. Для вирішення цих проблем у роботі запропоновано гібридний підхід на базі розробки інтегрованого алгоритму обробки та аналізу даних, який поєднує парсинг інтернет-ресурсів, методи оптичного та рукописного розпізнавання текстів, технології обробки природної мови, механізми виявлення дублікатів і недостовірних фактів, а також побудову графа знань з подальшим застосуванням алгоритмів кластеризації. Особливістю системи є наявність адаптивного пошукового модуля, що забезпечує автоматичне вилучення, структуризацію та перевірку даних, а також інтерактивна мапа з геоприв’язкою діячів культурної спадщини, реалізована засобами бібліотеки Leaflet і технологій OpenStreetMap. Архітектура системи передбачає багаторівневу обробку інформації — від нормалізації, лематизації та ідентифікації сутностей до семантичного аналізу, асоціативного пошуку та формування прогнозних моделей розвитку культурних процесів. Проведені обчислювальні експерименти підтвердили ефективність запропонованого підходу, що свідчить про придатність її використання у режимі реального часу. Отримані результати демонструють перспективність розробленої інформаційної системи для створення комплексної програмної платформи збору та збереження даних культурної спадщини України. Практичне застосування гібридного підходу охоплює музейну, архівну, освітню та наукову діяльність, забезпечуючи уніфікований доступ до цифрових джерел, підвищення достовірності аналітики й розвиток інфраструктури цифрової гуманітаристики.
Посилання
S. Barzaghi, A. Moretti, I. Heibi, and S. Peroni, “CHAD-KG: A knowledge graph for representing cultural heritage objects and digitisation paradata,” arXiv preprint, 2025. [Electronic resource]. Available: https://arxiv.org/abs/2505.13276. Accessed: 09-Oct-2025.
M. T. Biagetti, “An ontological model for the integration of cultural heritage information: CIDOC-CRM,” Italian Journal of Library, 2016. [Electronic resource]. Available: https://www.cidoc-crm.org/Resources/an-ontological-model-for-the-integration-of-cultural-heritage-information-cidoc-crm. Accessed: 09-Oct-2025.
H. El-Hajj and M. Valleriani, “Representing and validating cultural heritage knowledge graphs in CIDOC-CRM ontology,” Future Internet, vol. 13, no. 11, p. 277, 2021, https://doi.org/10.3390/fi13110277 .
M. Puren, and P. Vernus, “Towards a domain ontology for the analysis of ancient fabrics: The SILKNOW Project and the case of European silk heritage,” arXiv preprint, 2021. [Electronic resource]. Available: https://arxiv.org/abs/2112.15341. Accessed: 09-Oct-202.
P. Fafalios, A. Kritsotaki, and M. Doerr, “The SeaLiT Ontology — an Extension of CIDOC-CRM for the Modelling and Integration of Maritime History Information,” arXiv preprint, 2023. [Electronic resource]. Available: https://arxiv.org/abs/2301.04493. Accessed: 09-Oct-2025.
Z. Wang, and H. Song, “A fusion model for artwork identification based on convolutional neural networks and transformers,” arXiv preprint, 2025. [Electronic resource]. Available: https://arxiv.org/abs/2502.18083. Accessed: 09-Oct-2025.
T. Fan, H. Wang, and S. Deng, “Intangible cultural heritage image classification with multimodal attention and hierarchical fusion,” Expert Systems with Applications, vol. 231, 2023, https://doi.org/10.1016/j.eswa.2023.120555 .
H. El-Hajj, and M. Valleriani, “CIDOC2VEC: Extracting information from atomized CIDOC-CRM humanities knowledge graphs,” Information, vol. 12, no. 12, p. 503, 2021, https://doi.org/10.3390/info12120503 .
##submission.downloads##
-
pdf
Завантажень: 0
Опубліковано
Як цитувати
Номер
Розділ
Ліцензія

Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License.
Автори, які публікуються у цьому журналі, згодні з такими умовами:
- Автори зберігають авторське право і надають журналу право першої публікації.
- Автори можуть укладати окремі, додаткові договірні угоди з неексклюзивного поширення опублікованої журналом версії статті (наприклад, розмістити її в інститутському репозиторії або опублікувати її в книзі), з визнанням її первісної публікації в цьому журналі.
- Авторам дозволяється і рекомендується розміщувати їхню роботу в Інтернеті (наприклад, в інституційних сховищах або на їхньому сайті) до і під час процесу подачі, оскільки це сприяє продуктивним обмінам, а також швидшому і ширшому цитуванню опублікованих робіт (див. вплив відкритого доступу).