АВТОМАТИЗОВАНИЙ ПІДХІД ДО ДАТУВАННЯ АНГЛОМОВНОГО ТЕКСТУ З ВИКОРИСТАННЯМ ТРАНСФОРМЕРНИХ НЕЙРОННИХ МЕРЕЖ

М. О. Литвин; Л. М. Олещенко

doi:10.31649/1997-9266-2025-180-3-133-139

Автор(и)

М. О. Литвин Національний технічний університет України «Київський політехнічний інститут ім. Ігоря Сікорського»
Л. М. Олещенко Національний технічний університет України «Київський політехнічний інститут ім. Ігоря Сікорського»

DOI:

https://doi.org/10.31649/1997-9266-2025-180-3-133-139

Ключові слова:

програмна обробка природного мовлення (NLP), машинне навчання, трансформерні нейронні мережі (TNN), передавальне навчання, BERT, датування тексту, стилометрія, аналіз історичних текстів

Анотація

Розглянуто наявні методи датування тексту за допомогою нейронних мереж, їхні переваги та недоліки. Датування тексту є актуальною задачею в таких сферах, як історія, архівознавство, лінгвістика та криміналістика, оскільки точне визначення часу створення документа дозволяє підтвердити його достовірність, встановити авторство та виявити підробки. Проте традиційні методи, основані на стилометричних або статистичних підходах, мають обмежену точність, особливо для великих обсягів текстових даних. Авторами запропоновано автоматизований підхід до датування англомовного тексту з використанням трансформерних нейронних мереж, який дозволяє визначати приблизне десятиліття написання фрагмента тексту з точністю до 30 років на рівні 85 % у проміжку XV—XX ст. Це перевищує результати аналогічних методів, що працюють з англомовними текстами. Основна ідея запропонованого підходу полягає у використанні принципів передавального навчання для додатково адаптованої до конкретного завдання та попередньо навченої трансформерної нейронної мережі, оптимізованої для класифікації текстових фрагментів за десятиліттями. Однією з ключових переваг запропонованого підходу є застосування трансформерної архітектури, що завдяки механізму уваги враховує складні зв’язки між частинами тексту. Іншою важливою перевагою є використання передавального навчання, що значно зменшує затрати часу та обчислювальних ресурсів у порівнянні з безпосереднім навчанням моделі. Реалізація запропонованого підходу виконувалася мовою Python з використанням бібліотек “transformers” для навчання та тестування нейронної мережі, “datasets” для роботи з набором даних та “numpy” для обчислень. Результати експериментів продемонстрували високу точність підходу: 86 % з точністю до 30 років та 73 % з точністю до 20 років на тестовому наборі даних. Для XIX та XX століть точність досягала 89 % та 90 % відповідно, тоді як для попередніх століть точність була нижчою і становила близько 30 %. Також у дослідженні розглянуто можливість виділення ознак належності тексту певному періоду, через виділення слів з найбільшим показником уваги. Подальші дослідження спрямовані на підвищення точності для малопредставлених у навчальному наборі періодів шляхом розширення та вдосконалення корпусу даних. Додаткові поліпшення можливі через оптимізацію гіперпараметрів моделі та тестування інших архітектур нейронних мереж. Іншим напрямком подальших досліджень є пошук способів виділення лінгвістичних чи стилістичних ознак належності текстів певному періоду, задля можливості інтерпретації результатів роботи нейронної мережі користувачами. Запропонований підхід може бути використаний у таких сферах, як історичні дослідження, аналіз автентичності документів, виявлення плагіату, літературознавство та криміналістика.

Біографії авторів

М. О. Литвин, Національний технічний університет України «Київський політехнічний інститут ім. Ігоря Сікорського»

студент факультету прикладної математики

Л. М. Олещенко, Національний технічний університет України «Київський політехнічний інститут ім. Ігоря Сікорського»

канд. техн. наук, доцент, доцент кафедри програмного забезпечення комп’ютерних систем

Посилання

Y. Assael, T. Sommerschield, et al, “Restoring and attributing ancient texts using deep neural networks,” Nature 603, pp. 280-283, 2022. https://doi.org/10.1038/s41586-022-04448-z .

Shikhar Vashishth, Shib Sankar Dasgupta, Swayambhu Nath Ray, and Partha Talukdar. “Dating Documents using Graph Convolution Networks,” in Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics, vol. 1 (Long Papers), pp. 1605-1615, Melbourne, Australia. Association for Computational Linguistics. 2018. https://doi.org/10.18653/v1/P18-1149 .

Wahlberg, Fredrik & Wilkinson, Tomas & Brun, Anders, Historical Manuscript Production Date Estimation Using Deep Convolutional Neural Networks, 2016. https://doi.org/10.1109/ICFHR.2016.0048 .

O. Hellwig, “Dating Sanskrit texts using linguistic features and neural networks,” 2019. [Електронний ресурс]. Режим доступу: https://www.academia.edu/53885816/Dating_Sanskrit_texts_using_linguistic_features_and_neural_networks.3073703.

Ashish Vaswani, et al., “Attention is all you need,” in Proceedings of the 31st International Conference on Neural Information Processing Systems (NIPS'17), pp. 6000-6010, 2017. [Electronic resource]. Available: https://dl.acm.org/doi/10.5555/3295222.3295349 .

Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova, “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding,” 2018. https://doi.org/10.48550/arXiv.1810.04805 .

Project Gutenberg — English Language eBooks. [Electronic resource]. Available: https://huggingface.co/datasets/sedthh/gutenberg_english .

АВТОМАТИЗОВАНИЙ ПІДХІД ДО ДАТУВАННЯ АНГЛОМОВНОГО ТЕКСТУ З ВИКОРИСТАННЯМ ТРАНСФОРМЕРНИХ НЕЙРОННИХ МЕРЕЖ

Автор(и)

DOI:

Ключові слова:

Анотація

Біографії авторів

М. О. Литвин, Національний технічний університет України «Київський політехнічний інститут ім. Ігоря Сікорського»

Л. М. Олещенко, Національний технічний університет України «Київський політехнічний інститут ім. Ігоря Сікорського»

Посилання

##submission.downloads##

Опубліковано

Як цитувати

Номер

Розділ

Метрики

Завантаження

Ліцензія

Мова

Подати статтю

Інформація

Відвідування

Поточний номер