ВИЯВЛЕННЯ ПОДІБНОСТІ МІЖ ТЕКСТАМИ ДОПИСІВ ВІРТУАЛЬНИХ СПІЛЬНОТ ДЛЯ ФОРМУВАННЯ ДОКУМЕНТАЦІЇ ПРОГРАМНОГО ЗАБЕЗПЕЧЕННЯ
DOI:
https://doi.org/10.31649/1997-9266-2024-172-1-45-50Ключові слова:
віртуальна спільнота, документація, програмне забезпечення, косинусоїдна подібністьАнотація
Галузь інформаційних технологій складається з двох суттєво різних частин: виробництво інформаційної техніки (машин, обладнання, програм тощо) і виробництво безпосередньо інформації, яка повинна бути задокументованою. На сьогодні попит на розробку програмного забезпечення є рекордно високим і навіть перевищує пропозицію на ринку. Важливою рисою програмного забезпечення є наявність належної супровідної документації, яка є потрібною як для розробників, так і для кінцевих споживачів. Інформаційними джерелами для формування документації програмного забезпечення можуть бути віртуальні спільноти, які є найвідвідуванішими ресурсами серед користувачів мережі Інтернет. Переваги використання віртуальних спільнот перелічені у роботі. Однією з характеристик документації є наявність унікального інформаційного наповнення, для виконання якого, після завантаження дописів з відібраних експертом віртуальних спільнот до сховища даних, необхідно перевірити їхній вміст. В результаті чого розроблено підхід до виявлення подібності, який відображає косинусоїдну подібність між всіма наявними дописами. Проведене дослідження показало, що більшість дописів містять унікальний контент, але деякі можуть мати подібні тексти. Перевагою застосування підходу до виявлення подібності є те, що після його виконання серед усіх попарно порівнювальних дописів можна визначити позиції пар дописів, значення мір яких зацікавлять дослідника та дозволять провести аналіз за різними методами. Досліджено випадки подібності тестів дописів та описано дії щодо їхнього вирішення, одним з яких є об’єднання подібних дописів та збереження всіх коментарів. Рекомендовано для дописів, що отримали високе значення міри подібності завдяки описаному підходу, надалі застосувати метод N-грам, який дозволить виявити ті частини текстів, що є різними для подальшого прийняття рішень.
Посилання
О. В. Марковець, і А. І. Синько, «Формування якісної технічної документації до програмного забезпечення,» Вісник Вінницького політехнічного інституту, вип. 2 (155), с. 98-106, 2021. https://doi.org/10.31649/1997-9266-2021-155-2-98-106 .
П. І. Жежнич, і О. О. Сопрунюк, «Консолідація відкритих інформаційних ресурсів в туристичній сфері,» Комп’ютерні науки та інформаційні технології: Вісник Національного університету «Львівська політехніка», № 771, с. 3-11, 2013.
Л. М. Колєчкіна, і О. П. Пухтєєва, «Розробка методу і алгоритму перевірки тексту на унікальність,» Нові технології, № 1-2, с. 58-62, 2013.
К. К. Духновська, Я. А. Страшок, і П. В. Шило, «Інформаційна технологія для проведення лематизації і стемінгу в україномовних текстах,» Прикладні системи та технології в інформаційному суспільстві, зб. тез VI Міжнародної науково-практичної конференції, № 1, с. 119-127, 2013. Режим доступу: http://kist.ntu.edu.ua/konferencii/32_konf_2022.pdf#page=119 .
D. Khyani, B. S. Siddhartha, N. M. Niveditha, and B.M. Divya, “An Interpretation of Lemmatization and Stemming in Natural Language Processing,” Journal of University of Shanghai for Science and Technology, vol. 22 (10), pp. 350-357, 2020.
A. Jalilifard, V. F. Carida, A. F. Mansando, R. S. Cristo, F. Penhorate, and C. Fonseca, “Semantic Sensitive TF-IDF to Determine Word Relevance in Documents,” Computing and Network Communications, vol. 736, pp. 327-337, 2021. https://doi.org/10.1007/978-981-33-6987-0_27 .
Ю. А. Кравченко, А. М. Мансур, і Ж. Х. Мохаммад, «Векторизация текста с использованием методов интеллектуального анализа данных,» Известия ЮФУ, № 2, с. 154-167, 2021. https://doi.org/10.18522/2311-3103-2021-2-154-167 .
P. Kwangil, H. S. June, and K. Wooju, “A Methodology Combining Cosine Similarity with Classifier for Text Classification,” An International Journal Applied Artificial Intelligence, vol. 34, pp. 396-411, 2020. https://doi.org/https://doi.org/10.1080/08839514.2020.1723868 .
J. Awwalu, A. A. Bakar, and M. R. Yaakub, “Hybrid N-gram model using Naïve Bayes for classification of political sentiments on Twitter,” Neural Computing and Applications, no. 31, pp. 9207-9220, 2019. https://doi.org/10.1007/s00521-019-04248-z .
К. Т. Кузьма, «Інформаційна технологія оцінки рівня подібності рядків на основі методу N-грам,» Вчені записки ТНУ імені В.І. Вернадського, т. 31 (70), ч. 1, № 6, с. 96-99, 2020. https://doi.org/10.32838/TNU-2663-5941/2020.6-1/16 .
##submission.downloads##
-
PDF
Завантажень: 20
Опубліковано
Як цитувати
Номер
Розділ
Ліцензія
Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License.
Автори, які публікуються у цьому журналі, згодні з такими умовами:
- Автори зберігають авторське право і надають журналу право першої публікації.
- Автори можуть укладати окремі, додаткові договірні угоди з неексклюзивного поширення опублікованої журналом версії статті (наприклад, розмістити її в інститутському репозиторії або опублікувати її в книзі), з визнанням її первісної публікації в цьому журналі.
- Авторам дозволяється і рекомендується розміщувати їхню роботу в Інтернеті (наприклад, в інституційних сховищах або на їхньому сайті) до і під час процесу подачі, оскільки це сприяє продуктивним обмінам, а також швидшому і ширшому цитуванню опублікованих робіт (див. вплив відкритого доступу).