АВТОМАТИЧНЕ ВИДОБУВАННЯ ЗНАНЬ З ЕКОЛОГІЧНИХ ЗВІТІВ З ПРИВ’ЯЗКОЮ ДО ЧАСУ ТА ДО ПРОСТОРОВИХ КООРДИНАТ МАСИВІВ ВОД

Автор(и)

  • К. О. Бондалєтов Вінницький національний технічний університет
  • В. Б. Мокін Вінницький національний технічний університет
  • І. М. Штельмах Вінницький національний технічний університет
  • О. В. Слободянюк Вінницький національний технічний університет

DOI:

https://doi.org/10.31649/1997-9266-2025-180-3-101-110

Ключові слова:

видобування знань, SPO-триплети, штучний інтелект, геоприв’язка даних, масив вод, великі мовні моделі, генерація з доповненим пошуком

Анотація

Запропоновано новий метод автоматичного видобування екологічних знань з текстів звітів та новин про факти щодо стану вод річок чи їхнього забруднення. Видобування знань здійснюється з урахуванням прив’язки отриманих фактів до просторових координат конкретних масивів вод і інтервалів часу. Актуальність роботи зумовлена значною доступністю таких екологічних даних у новинах, веб-сайтах установ та соціальних медіа, необхідністю їхнього швидкого та точного оброблення. Запропонований метод поєднує виявлення фактів про стан вод чи про їх забруднення, розпізнавання географічних назв з тексту та заголовків, а також визначення часових ознак за допомогою аналізу ієрархічної структури документа. Метод оптимізує контекстно-семантичний критерій, який максимізує повноту та ймовірність виявлення усіх наявних зв’язків між ключовими словосполученнями у тексті фактів, періодами часу і масивами вод та, одночасно, мінімізує кількість хибнопозитивних зв’язків між ними, за рахунок формалізації зв’язків у вигляді триплетів “subject–predicate–object” (SPO) та використання міри Жаккара для пошуку ступеня подібності між списками ключових словосполучень, що характеризують ці факти і масиви вод. Видобування знань основано на виявленні і використанні ієрархічної структури документа, використанні великих мовних моделей, на актуалізації бази знань інформацією з використанням методу генерації з доповненням через пошук (RAG) для регулярного оновлення знань та їхньої прив’язки до періоду часу і просторових координат. Результатом є структурована база знань у вигляді триплетів «факт–масив вод–інтервал часу», який може використовуватися для аналізу динаміки стану вод, виявлення тенденцій та ухвалення управлінських рішень щодо поліпшення стану поверхневих вод.

Наведено результат застосування запропонованого методу на прикладі річного звіту про діяльність Басейного управління водних ресурсів річки Південний Буг за 2019 рік, який проілюстрував його працездатність.

Біографії авторів

К. О. Бондалєтов, Вінницький національний технічний університет

аспірант кафедри системного аналізу та інформаційних технологій

В. Б. Мокін, Вінницький національний технічний університет

д-р техн. наук, професор, завідувач кафедри системного аналізу та інформаційних технологій

І. М. Штельмах, Вінницький національний технічний університет

канд. техн. наук, асистент кафедри системного аналізу та інформаційних технологій

О. В. Слободянюк, Вінницький національний технічний університет

 канд. пед. наук, доцент, доцент кафедри опору матеріалів, теоретичної механіки та інженерної графіки

Посилання

Верховна Рада України, «Водний Кодекс України», Постанова ВР № 214/95-ВР від 06.06.95, Відомості Верховної Ради (ВВР), 1995, № 24, ст. 189). [Електронний ресурс]. Режим доступу: http://zakon2.rada.gov.ua/laws/show /213/95-%D0%B2%D1%80 .

Кабінет Міністрів України, Водна стратегія України на період до 2050 року. Розпорядження від 9 грудня 2022 р. № 1134-р. [Електронний ресурс]. Режим доступу: https://zakon.rada.gov.ua/laws/show/1134-2022-%D1%80#Text .

Водна Рамкова Директива ЄС 2000/60/ЄС. Основні терміни та їх визначення. Київ, Україна, 2006, 240 с. [Електронний ресурс]. Режим доступу: http://dbuwr.com.ua/docs/Waterdirect.pdf .

J. Zhu, “A Temporal Knowledge Graph Generation Dataset Supervised Distantly by Large Language Models,” Scientific Data, no. 12, p. 734, 2025. [Electronic resource]. Available: https://doi.org/10.1038/s41597-025-05062-0 .

К. Salmas et al., “Extracting Geographic Knowledge from Large Language Models: An Experiment,” Workshop LM-KBC, 2023, [Electronic resource]. Available: https://lm-kbc.github.io/workshop2023/proceedings/13_Salmas.pdf .

М. Gritta et al., “What’s missing in geographical parsing?” Springer Nature Link. [Electronic resource]. Available: https://link.springer.com/article/10.1007/s10579-017-9385-8 .

A. Halterman “Mordecai 3: A Neural Geoparser,” arXiv, 2023, [Electronic resource]. Available: https://arxiv.org/pdf/2303.13675 .

Hanwen Zheng, et al., “A Comprehensive Survey on Document-Level Information Extraction,” in Proceedings of the Workshop on the Future of Event Detection (FuturED), 2024, pp. 58-72, USA: Association for Computational Linguistics. [Electronic resource]. Available: https://aclanthology.org/2024.futured-1.6.pdf .

J. Dagdelen, et al., “Structured information extraction from scientific text with large language models,” Nature Commun. no. 15, pp.1418, 2024. [Electronic resource]. Available: https://doi.org/10.1038/s41467-024-45563-x .

В. Б. Мокін, К. О. Бондалєтов, Є. М. Крижановський, і В. О. Караваєв, «Метод аугментації текстів про стан масивів вод на основі інтелектуальної прив’язки до багатозв’язних геоінформаційних систем іменованих сутностей», Вісник Вінницького політехнічного інституту, № 3, с. 55-65, 2023. https://doi.org/10.31649/1997-9266-2023-168-3-55-65 .

D. Dessí, et al., “CS-KG 2.0: A Large-scale Knowledge Graph of Computer Science,” Scientific Data, no. 12, pp. 964, 2025. [Electronic resource]. Available: https://doi.org/10.1038/s41597-025-05200-8 .

Yunyi Zhang, “Automated Mining of Structured Knowledge from Text in the Era of Large Language Models,” in KDD‘24: Proceedings of the 30th ACM SIGKDD Conference on Knowledge Discovery and Data Mining. [Electronic resource]. Available: https://doi.org/10.1145/3637528.3671469 .

Haoran Luo, et al., “Text2NKG: Fine-Grained N-ary Relation Extraction for N-ary relational Knowledge Graph Construction,” Advances in Neural Information Processing Systems 37 (NeurIPS), 2024. [Electronic resource]. Available: https://proceedings.neurips.cc/paper_files/paper/2024/hash/Abstract-Conference.html (date of access: 06.06.2025) .

R. Bommasani, et al. “On the Opportunities and Risks of Foundation Models,” Computer Science, Machine Learning, 2021. [Electronic resource]. Available: https://arxiv.org/abs/2108.07258 .

К. Бондалєтов, і В. Мокін, « Інтелектуальна автоматизація геоприв’язки повідомлень з соцмереж до масивів вод за допомогою зваженої Jaccard-міри,» ВНТКП ВНТУ. Факультет інтелектуальних інформаційних технологій та автоматизації ВНТУ, Вінниця, 24-27 березня 2025. [Електронний ресурс]. Режим доступу: https://conferences.vntu.edu.ua/index.php/all-fksa/all-fksa-2025/paper/view/23298/19275 .

Річний звіт про діяльність басейнового управління водних ресурсів річки Південний Буг з питань управління водними ресурсами за 2019 рік, Вінниця. Україна: БУВР, 2019.

##submission.downloads##

Переглядів анотації: 43

Опубліковано

2025-06-27

Як цитувати

[1]
К. О. Бондалєтов, В. Б. Мокін, І. М. . Штельмах, і О. В. Слободянюк, «АВТОМАТИЧНЕ ВИДОБУВАННЯ ЗНАНЬ З ЕКОЛОГІЧНИХ ЗВІТІВ З ПРИВ’ЯЗКОЮ ДО ЧАСУ ТА ДО ПРОСТОРОВИХ КООРДИНАТ МАСИВІВ ВОД», Вісник ВПІ, вип. 3, с. 101–110, Черв. 2025.

Номер

Розділ

Інформаційні технології та комп'ютерна техніка

Метрики

Завантаження

Дані завантаження ще не доступні.

Статті цього автора (авторів), які найбільше читають

1 2 3 4 5 6 7 8 > >>