МЕТОД СИНТЕЗУ БЕНЧМАРКУ ДЛЯ ОЦІНЮВАННЯ РОБАСТНОЇ СТІЙКОСТІ ВЕЛИКИХ МОВНИХ МОДЕЛЕЙ ДО ДЕЗІНФОРМАЦІЇ ТА МАНІПУЛЯЦІЙ З ФАКТАМИ

Автор(и)

  • С. М. Левіцький Вінницький національний технічний університет
  • В. Б. Мокін Вінницький національний технічний університет

DOI:

https://doi.org/10.31649/1997-9266-2025-178-1-128-136

Ключові слова:

бенчмарк, інтелектуальна технологія, штучний інтелект, великі мовні моделі, навчання з підкріпленням, маніпуляція, дезінформація, оптимізація моделі

Анотація

З розвитком і поширенням інтелектуальних асистентів на основі великих мовних моделей (LLM) вагомішим стає тестування цих моделей за різними критеріями. Одним з найважливіших з них є робастна стійкість до дезінформації та маніпуляцій. Нестійкі моделі можуть нести серйозну загрозу рішенням на їхній основі у сфері безпеки, здоров’я, чутливих соціальних питань тощо. Для такого оцінювання використовують спеціальні тести на основі еталонних розмічених датасетів — бенчмарки. Але більшість подібних тестів розроблені для питань без контексту (одноходовий режим). Натомість, чат-боти на основі LLM використовуються, зазвичай, у багатоходовому діалоговому режимі (з контекстом). Такі бенчмарки суттєво залежать від предметної сфери їхнього використання, а отже, потрібен не лише сам тест, а й метод його синтезу.

У статті запропоновано метод синтезу бенчмарків для оцінювання робастної стійкості LLM до багатоходових маніпуляцій з твердженнями, про які наперед точно відомо, що усі вони хибні. Метод дозволяє синтезувати бенчмарк, який сформує таку послідовність маніпуляцій хибного твердження, з яким врешті-решт LLM з поганою стійкістю погодиться, що цей фейк, насправді не є фейком. Метод основано на формуванні множини еталонних, виключно хибних, тверджень на основі заданої предметної області з їхньою подальшою кластеризацією та виділенням типових варіантів, на формуванні множин шаблонів для маніпуляцій з довільними твердженнями за використання логіки аргументації, без зміни хибності цих тверджень, та на використанні машинного навчання з підкріпленням для синтезу оптимальної політики (стратегії) формування послідовності маніпуляцій з фактами для кожного виду типового варіанта еталонних хибних тверджень. Запропоновано як критерій робастності LLM використовувати відсоток класифікації хибних тверджень як дійсно хибні.

Експериментальні випробування довели ефективність запропонованого методу. Побудовано бенчмарк, який використано для оцінювання відомої LLM «Llama 3.2 3B Instruct». Ця модель мала помірну (65 %) робастну стійкість до дезінформації та маніпуляцій в одноходовому режимі (без контексту). Але після застосування синтезованого за розробленим методом бенчмарку з діалоговим режимом її робастність зменшилась у понад 2 рази (до 30 %). Це довело вразливість LLM до складніших маніпулятивних сценаріїв та продемонструвало ефективність запропонованого методу синтезу таких бенчмарків.

Біографії авторів

С. М. Левіцький , Вінницький національний технічний університет

аспірант кафедри системного аналізу та інформаційних технологій

В. Б. Мокін, Вінницький національний технічний університет

д-р техн. наук, професор, завідувач кафедри системного аналізу та інформаційних технологій

Посилання

Philip J. Fleming, and John J. Wallace, “How not to lie with statistics: the correct way to summarize benchmark results,” Communications of the ACM, no. 29 (3), pp. 218-221, 1986. https://doi.org/10.1145/5666.5673 .

J. Wei, Ng. Karina, et al.,“Measuring short-form factuality in large language models,” arXiv preprint, arXiv:2411.04368, Nov 2024.

C. E. Jimenez, et al., “SWE-bench: Can Language Models Resolve Real-World GitHub Issues?,” arXiv preprint, arXiv:2310.06770, 2024.

S. Lin et al., “TruthfulQA: Measuring How Models Mimic Human Falsehoods,” arXiv preprint, arXiv:2109.07958v2, May 2022.

J. Thorne, et al., “FEVER: a large-scale dataset for Fact Extraction and VERification,” arXiv preprint, arXiv:1803.05355v3, Dec 2018.

M. Andriushchenko, et al., “AgentHarm: A Benchmark for Measuring Harmfulness of LLM Agents,” arXiv preprint, arXiv:2410.09024, Oct 2024.

S. Bringsjord, et al., Argument-based inductive logics, with coverage of compromised perception, Jan 2024, https://doi.org/10.3389/frai.2023.1144569

J. Schulman, “Proximal Policy Optimization Algorithms,” arXiv preprin, arXiv:1707.06347, Aug 2017.

М. В. Дратований, і В. Б. Мокін, «Інтелектуальний метод з підкріпленням синтезу оптимального конвеєру операцій попереднього оброблення даних у задачах машинного навчання,» Наукові праці ВНТУ, вип. 4, грудень 2022. https://doi.org/10.31649/2307-5392-2022-4-15-24 .

##submission.downloads##

Переглядів анотації: 14

Опубліковано

2025-02-27

Як цитувати

[1]
С. М. Левіцький і В. Б. Мокін, «МЕТОД СИНТЕЗУ БЕНЧМАРКУ ДЛЯ ОЦІНЮВАННЯ РОБАСТНОЇ СТІЙКОСТІ ВЕЛИКИХ МОВНИХ МОДЕЛЕЙ ДО ДЕЗІНФОРМАЦІЇ ТА МАНІПУЛЯЦІЙ З ФАКТАМИ», Вісник ВПІ, вип. 1, с. 128–136, Лют. 2025.

Номер

Розділ

Інформаційні технології та комп'ютерна техніка

Метрики

Завантаження

Дані завантаження ще не доступні.

Статті цього автора (авторів), які найбільше читають

1 2 3 4 5 6 7 > >>