АВТОМАТИЗОВАНИЙ ПІДХІД ДО ДАТУВАННЯ АНГЛОМОВНОГО ТЕКСТУ З ВИКОРИСТАННЯМ ТРАНСФОРМЕРНИХ НЕЙРОННИХ МЕРЕЖ
DOI:
https://doi.org/10.31649/1997-9266-2025-180-3-133-139Ключові слова:
програмна обробка природного мовлення (NLP), машинне навчання, трансформерні нейронні мережі (TNN), передавальне навчання, BERT, датування тексту, стилометрія, аналіз історичних текстівАнотація
Розглянуто наявні методи датування тексту за допомогою нейронних мереж, їхні переваги та недоліки. Датування тексту є актуальною задачею в таких сферах, як історія, архівознавство, лінгвістика та криміналістика, оскільки точне визначення часу створення документа дозволяє підтвердити його достовірність, встановити авторство та виявити підробки. Проте традиційні методи, основані на стилометричних або статистичних підходах, мають обмежену точність, особливо для великих обсягів текстових даних. Авторами запропоновано автоматизований підхід до датування англомовного тексту з використанням трансформерних нейронних мереж, який дозволяє визначати приблизне десятиліття написання фрагмента тексту з точністю до 30 років на рівні 85 % у проміжку XV—XX ст. Це перевищує результати аналогічних методів, що працюють з англомовними текстами. Основна ідея запропонованого підходу полягає у використанні принципів передавального навчання для додатково адаптованої до конкретного завдання та попередньо навченої трансформерної нейронної мережі, оптимізованої для класифікації текстових фрагментів за десятиліттями. Однією з ключових переваг запропонованого підходу є застосування трансформерної архітектури, що завдяки механізму уваги враховує складні зв’язки між частинами тексту. Іншою важливою перевагою є використання передавального навчання, що значно зменшує затрати часу та обчислювальних ресурсів у порівнянні з безпосереднім навчанням моделі. Реалізація запропонованого підходу виконувалася мовою Python з використанням бібліотек “transformers” для навчання та тестування нейронної мережі, “datasets” для роботи з набором даних та “numpy” для обчислень. Результати експериментів продемонстрували високу точність підходу: 86 % з точністю до 30 років та 73 % з точністю до 20 років на тестовому наборі даних. Для XIX та XX століть точність досягала 89 % та 90 % відповідно, тоді як для попередніх століть точність була нижчою і становила близько 30 %. Також у дослідженні розглянуто можливість виділення ознак належності тексту певному періоду, через виділення слів з найбільшим показником уваги. Подальші дослідження спрямовані на підвищення точності для малопредставлених у навчальному наборі періодів шляхом розширення та вдосконалення корпусу даних. Додаткові поліпшення можливі через оптимізацію гіперпараметрів моделі та тестування інших архітектур нейронних мереж. Іншим напрямком подальших досліджень є пошук способів виділення лінгвістичних чи стилістичних ознак належності текстів певному періоду, задля можливості інтерпретації результатів роботи нейронної мережі користувачами. Запропонований підхід може бути використаний у таких сферах, як історичні дослідження, аналіз автентичності документів, виявлення плагіату, літературознавство та криміналістика.
Посилання
Y. Assael, T. Sommerschield, et al, “Restoring and attributing ancient texts using deep neural networks,” Nature 603, pp. 280-283, 2022. https://doi.org/10.1038/s41586-022-04448-z .
Shikhar Vashishth, Shib Sankar Dasgupta, Swayambhu Nath Ray, and Partha Talukdar. “Dating Documents using Graph Convolution Networks,” in Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics, vol. 1 (Long Papers), pp. 1605-1615, Melbourne, Australia. Association for Computational Linguistics. 2018. https://doi.org/10.18653/v1/P18-1149 .
Wahlberg, Fredrik & Wilkinson, Tomas & Brun, Anders, Historical Manuscript Production Date Estimation Using Deep Convolutional Neural Networks, 2016. https://doi.org/10.1109/ICFHR.2016.0048 .
O. Hellwig, “Dating Sanskrit texts using linguistic features and neural networks,” 2019. [Електронний ресурс]. Режим доступу: https://www.academia.edu/53885816/Dating_Sanskrit_texts_using_linguistic_features_and_neural_networks.3073703.
Ashish Vaswani, et al., “Attention is all you need,” in Proceedings of the 31st International Conference on Neural Information Processing Systems (NIPS'17), pp. 6000-6010, 2017. [Electronic resource]. Available: https://dl.acm.org/doi/10.5555/3295222.3295349 .
Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova, “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding,” 2018. https://doi.org/10.48550/arXiv.1810.04805 .
Project Gutenberg — English Language eBooks. [Electronic resource]. Available: https://huggingface.co/datasets/sedthh/gutenberg_english .
##submission.downloads##
-
pdf
Завантажень: 6
Опубліковано
Як цитувати
Номер
Розділ
Ліцензія

Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License.
Автори, які публікуються у цьому журналі, згодні з такими умовами:
- Автори зберігають авторське право і надають журналу право першої публікації.
- Автори можуть укладати окремі, додаткові договірні угоди з неексклюзивного поширення опублікованої журналом версії статті (наприклад, розмістити її в інститутському репозиторії або опублікувати її в книзі), з визнанням її первісної публікації в цьому журналі.
- Авторам дозволяється і рекомендується розміщувати їхню роботу в Інтернеті (наприклад, в інституційних сховищах або на їхньому сайті) до і під час процесу подачі, оскільки це сприяє продуктивним обмінам, а також швидшому і ширшому цитуванню опублікованих робіт (див. вплив відкритого доступу).