АНАЛІЗ ТА ЕКСПЕРИМЕНТАЛЬНЕ ДОСЛІДЖЕННЯ МЕТОДУ БЕЗМОДЕЛЬНОГО НАВЧАННЯ З ПІДКРІПЛЕННЯМ

  • В. В. Півошенко Вінницький національний технічний університет
  • М. С. Кулик Вінницький національний технічний університет
  • Ю. Ю. Іванов Вінницький національний технічний університет
  • А. С. Васюра Вінницький національний технічний університет
Ключові слова: штучний інтелект, машинне навчання, навчання з підкріпленням, Q-навчання, стратегія навчання, , інтелектуальний програмний агент, бот, оптимальні параметри, криві навчання, експериментальні дослідження

Анотація

Розглянуто сучасний метод машинного навчання, який має назву навчання з підкріпленням. У задачах, які розв’язуються на основі взаємодії, найчастіше непрактично намагатися отримувати приклади необхідної поведінки інтелектуального програмного агента, які були б одночасно коректними та доречними для всіх ситуацій, оскільки наявні умови невизначеності, що виникають через неповноту інформації про навколишнє середовище та можливі дії інших ботів або людей. Тому програмний агент повинен навчатися на основі власного досвіду. Важливою перевагою навчання з підкріпленням є можливість навчання бота «з нуля» за рахунок збалансованого поєднання (пошук компромісу) режимів «дослідження» — «застосування» та вивчення стратегій, які дозволяють жертвувати малим на певному етапі заради отримання більшої вигоди в подальшому. Дослідження в області навчання з підкріпленням можна вважати частиною загального процесу, який розвивається в останні роки. Він складається зі взаємодії штучного інтелекту та інженерних дисциплін, тому саме у навчанні з підкріпленням розвиваються ідеї, взяті з теорії оптимального управління, стохастичної оптимізації та апроксимації, прагнучи реалізації загальніших і амбітних цілей штучного інтелекту.

Представлено математичний апарат навчання з підкріпленням із залученням методу безмодельного Q-навчання, показано практичні аспекти його застосування, а також розроблено ефективну стратегію навчання бота у штучному середовищі (комп’ютерній відеогрі). В ролі спостережуваних змінних об’єкта виступає інформація, яку використовує агент, а прихованими змінними є довгострокові оцінки отриманої ним вигоди. Залежно від поточного стану середовища і дій бота розраховується функція вигоди, яку отримає агент у наступний момент часу. З використанням розробленого програмного забезпечення виконано експериментальні дослідження розглянутого методу. У роботі отримано оптимальні параметри налаштування, криві та час навчання бота. Результати дослідження можуть бути корисними для комп’ютерних систем різного функціонального призначення, їх можна застосовувати у моделюванні та проектуванні, в системах автоматичного керування та прийняття рішень, робототехніці, на фондових ринках тощо.

Біографії авторів

В. В. Півошенко, Вінницький національний технічний університет

студент факультету комп’ютерних систем і автоматики

М. С. Кулик, Вінницький національний технічний університет

студент факультету комп’ютерних систем і автоматики

Ю. Ю. Іванов, Вінницький національний технічний університет

канд. техн. наук, старший викладач кафедри автоматизації та інтелектуальних інформаційних технологій

А. С. Васюра, Вінницький національний технічний університет

канд. техн. наук, професор, професор кафедри автоматизації та інтелектуальних інформаційних технологій

Посилання

O. Hernández-Lerma, J. Hennet, and J. Lasserre, “Average Сost Markov Decision Processes: Optimality conditions,” Journal of Mathematical Analysis and Applications, vol. 158, no. 2, pp. 396-406, 1991.

R. Bellman, “A Markovian Decision Process,” Indiana University Mathematics Journal, vol. 6, no. 4, pp. 679-684, 1957.

L. Busoniu, R. Babuska, B. Schutter, and D. Ernst, “Reinforcement Learning and Dynamic Programming Using Function Approximators,” Automation and Control Engineering, pp. 55-88, 2010.

А. С. Васюра, Т. Б. Мартинюк, та Л. М. Куперштейн, Методи та засоби нейроподібної обробки даних для систем керування. Вінниця, Україна: Універсум-Вінниця, 2008.

C. J. C. H. Watkins, and P. Dayan, Reinforcement Learning, Technical Note, 1992, pp. 55-68.

F. Chollet, Deep learning with Python. Shelter Island. NY: Manning Publications Co., 2018, pp. 27-38.

J. Gläscher, N. Daw, P. Dayan, and J. P. O’doherty, “States versus Rewards: Dissociable Neural Prediction Error Signals Underlying Model-Based and Model-Free Reinforcement Learning,” Neuron, vol. 66, no. 4, pp. 585-595, 2010.

R. S. Sutton, and A. G. Barto, Reinforcement learning: an introduction. Cambridge: The MIT Press, 2015, pp. 143-160.

Т. М. Боровська, А. С. Васюра, та В. А. Северілов, Моделювання та оптимізація систем автоматичного управління. Вінниця, Україна: ВНТУ, 2009.

C. Jin, Z. Allen-Zhu, S. Bubeck, and M. Jordan, "Is Q-learning Provably Efficient?", arXiv.org, 2018. [Electronic resource]. Available: https://arxiv.org/pdf/1807.03765.pdf . Accessed: Jul. 10, 2018.

J. Dornheim, N. Link, and P. Gumbsch, “Model-Free Adaptive Optimal Control of Sequential Manufacturing Processes Using Reinforcement Learning,” arXiv.org, 2019. [Electronic resource]. Available: https://arxiv.org/abs/1809.06646v1 . Accessed: Jan. 07. 2019.

W. Haskell, and W. Huang, "Stochastic Approximation for Risk-Aware Markov Decision Processes", Arxiv.org, 2018. [Electronic resource]. Available: https://arxiv.org/pdf/1805.04238.pdf. Accessed: May. 17, 2018.

R. Bellman, “Dynamic programming and stochastic control processes,” Information and Control, vol. 1, no. 3, pp. 228-239, 1958.

C. J. C. H. Watkins, Learning from delayed rewards. University of Cambridge, 1989, pp. 55-68.

L. P. Kaelbling, M. L. Littman, and A. W. Moore, “An Introduction to Reinforcement Learning,” The Biology and Technology of Intelligent Autonomous Agents, 1995, pp. 90–127.

M. Rahman and H. Rashid, “Implementation of Q Learning and Deep Q Network for Controlling a Self-Balancing Robot Model,” ArXiv.org, 2018. [Electronic resource]. Available: https://arxiv.org/pdf/1807.08272.pdf . Accessed: Jul. 22, 2018.

C. J. C. H. Watkins and P. Dayan, “Q-learning,” Machine Learning, vol. 8, no. 3-4, pp. 279-292, 1992.

E. Even-Dar and Y. Mansour, “Learning Rates for Q-Learning,” Lecture Notes in Computer Science Computational Learning Theory, 2001, pp. 589–604.

Опубліковано
2019-06-26
Як цитувати
[1]
В. Півошенко, М. Кулик, Ю. Іванов, і А. Васюра, АНАЛІЗ ТА ЕКСПЕРИМЕНТАЛЬНЕ ДОСЛІДЖЕННЯ МЕТОДУ БЕЗМОДЕЛЬНОГО НАВЧАННЯ З ПІДКРІПЛЕННЯМ, Вісник Вінницького політехнічного інституту, № 3, с. 40-49, Чер 2019.
Номер
Розділ
Інформаційні технології та комп'ютерна техніка