Method of Augmentation of Texts About the State of Water Bodies on the Base of Intellectual Referencing to Multi-Related Geoinformation Systems of Named Entities

Authors

  • V. B. Mokin Vinnytsia National Technical University
  • K. O. Bondalietov Vinnytsia National Technical University
  • Ye. M. Kryzhanovskyi Vinnytsia National Technical University
  • V. O. Karavaiev1 Vinnytsia National Technical University

DOI:

https://doi.org/10.31649/1997-9266-2023-168-3-55-65

Keywords:

text augmentation, natural language processing, NLP, named entities, spatial data, multi-related geoinformation systems, analytical web systems, intelligent technology

Abstract

The article is dedicated to the augmentation of Ukrainian-language texts about the state of surface water bodies in a river basin for the training of machine learning models that should automatically annotate these texts, i. e. referencing in space and time and performing their classification.

The authors describe the progress made in creating the "Water Information System with Spatial and Temporal Referencing for the Southern Bug Basin" ("WISEST-SBB"), which is being populated with annotated data on the state of water bodies in the river basin using technologies and algorithms developed by the authors earlier. It is noted that the experience has shown a lack of information for training machine learning models intended for automating its annotation. An analysis of modern methods of text data augmentation applicable to Ukrainian texts has been conducted, highlighting their drawbacks, primarily the high probability of synthesizing unreliable information.

The proposed approach suggests augmenting data on water bodies of a river network, considering the propagation of reliable information about one water body to others located upstream or downstream or otherwise connected to them. To formalize and automate this process, a new formalization of the river network in the form of a multi-related geoinformation system of named entities (MGISNE) is proposed, which involves identifying named entities among all objects and then establishing spatial relationships between them. Examples of MGISNE are described, including hydrographic or ecological networks, networks of administrative entities, and others. The previously proposed recursive algorithm for referencing water body data with named entities in MGISNE is improved, and its formalized description is developed. After referencing texts with water bodies, the augmentation of the texts is proposed with subsequent verification of the results in a semi-automated manner, which can later be made more automated.

The results of the proposed method, algorithm, and approaches in the WISEST-SBB system are characterized, demonstrating their effectiveness. The findings of this work can be extended to other types of MGISNE, both for basins of other rivers and systems of a different character.

Author Biographies

V. B. Mokin, Vinnytsia National Technical University

Dr. Sc. (Eng.), Professor, Head of the Chair of System Analysis and Information Technology

K. O. Bondalietov, Vinnytsia National Technical University

Post-Graduate Student of the Chair of System Analysis and Information Technology

Ye. M. Kryzhanovskyi, Vinnytsia National Technical University

Cand. Sc. (Eng.), Associate Professorof the Chair of System Analysis and Information Technology

V. O. Karavaiev1, Vinnytsia National Technical University

Student of the Department of Intelligent Information Technologies and Automation

References

В. Б. Мокін, М. А. Гораш, Є. М. Крижановський, і Т. Є. Вуж, «Інформаційна інтелектуальна технологія автоматизованої геоприв’язки екологічної текстової природно-мовної інформації,» Наукові праці ВНТУ, № 4, 2020. [Електронний ресурс]. Режим доступу: https://praci.vntu.edu.ua/index.php/praci/article/view/624 .

Directive 2000/60/ec of the European Parliament and of the Council. EUR-Lex – Access to European Union Law. [Electronic resource]. Available: https://eur-lex.europa.eu/resource.html?uri=cellar:5c835afb-2ec6-4577-bdf8-756d3d694eeb.0004.02/DOC_1&format=PDF . Access: 07.06.2023.

Верховна Рада України, Водний кодекс України, Кодекс України від 06.06.1995 р. № 213/95-ВР, станом на 19 серп. 2022 р. [Електронний ресурс]. Режим доступу: https://zakon.rada.gov.ua/laws/show/213/95-вр#Text . Дата звернення: 07.06.2023.

Кабінет міністрів України, Постанова від 18.05.2017 р. № 336, Про затвердження Порядку розроблення плану управління річковим басейном [Електронний ресурс]. Режим доступу: https://www.kmu.gov.ua/npas/249999756 . Дата звернення 04.06.2023.

В. Б. Мокін, і К. О. Бондалєтов, Інтелектуальні методи видобування ключових словосполучень із тексту для побудови онтологічних моделей інформаційно-пошукових систем. Інформаційно-комунікаційні технології тa сталий розвиток, колективна моногр. за матеріалами XXI Міжнародної науково-практичної конференції, Київ, 14-16 листопада 2022 р., С. О. Довгий, Заг. ред. Київ, Україна: ТОВ «Видавництво «стон», 2022, 242 с.

А. І. Лісовенко, і О. В. Бісікало, Інформаційна технологія підтримки функції «запитання-відповідь» на основі образного аналізу фахових текстів, моногр. Вінниця, Україна: ВНТУ, 2019, 180 с. ISBN 978-966-641-764-3. [Електронний ресурс]. Режим доступу: https://press.vntu.edu.ua/index.php/vntu/catalog/book/512 .

Vitalii Mokin, “NLP for WR: Summarizing using BERT, GPT2, XLNET,” Kaggle: Your Machine Learning and Data Science Community. [Electronic resource]. Available: https://www.kaggle.com/code/vbmokin/nlp-for-wr-summarizing-using-bert-gpt2-xlnet . Access: 07.06.2023.

Oleh Bisikalo, and Alexander Yahimovich, Keyword search based on lexical relationships in the text, Mauritius: Lap Lambert Academic Publishing, 2019, 57 p. ISBN 978-620-0-00314-0 .

A. Fiori, Trends and Applications of Text Summarization Techniques. IGI Global, 2019.

В. Б. Мокін, І. В. Варчук, і Є. М. Крижановський, Інформаційна технологія аналізу та оптимізації топологічної спостережуваності багатозв’язних геоінформаційних систем: моногр., Вінниця, Україна: ВНТУ, 2019, 121 с.

Vitalii Mokin, “NLP for UA : BERT CLS & 10 Classifiers,” Kaggle: Your Machine Learning and Data Science Community. [Electronic resource]. Available: https://www.kaggle.com/code/vbmokin/nlp-for-ua-bert-cls-10-classifiers. Access: 07.06.2023.

“Environmental indicators: typology and overview,” European Environment Agency. [Electronic resource]. Available: https://www.eea.europa.eu/publications/TEC25 .

В. М. Дубовой, Р. Н. Квєтний, О. І. Михальов, і А. В. Усов, Моделювання та оптимізація систем, підруч. Вінниця, Україна: ПП «ТД«Едельвейс», 2017, 804 с.

Vitalii Mokin, and Kostiantyn Bondaletov, “SpaCy for Ukrainian text similarity,” Kaggle: Your Machine Learning and Data Science Community. [Electronic resource]. Available: https://www.kaggle.com/code/bondaletov/spacy-for-ukrainian-text-similarity . Access: 07.06.2023.

Downloads

Abstract views: 118

Published

2023-06-30

How to Cite

[1]
V. B. Mokin, K. O. . Bondalietov, Y. M. Kryzhanovskyi, and V. O. Karavaiev1, “Method of Augmentation of Texts About the State of Water Bodies on the Base of Intellectual Referencing to Multi-Related Geoinformation Systems of Named Entities”, Вісник ВПІ, no. 3, pp. 55–65, Jun. 2023.

Issue

Section

Information technologies and computer sciences

Metrics

Downloads

Download data is not yet available.

Most read articles by the same author(s)

1 2 3 4 5 6 7 > >>