Опис дисципліни

Код: 318402

Назва:

Навчання з підкріпленням

Анотація: Метою і завданням навчальної дисципліни "Навчання з підкріпленням" є висвітлення основних підходів та методів розв?язання недостатньо формалізованих задач за допомогою побудови інтелектуальних систем, які базуються на нейронних мережах. Курс охоплює такі теми, як: визначення підсилювального навчання, проблема зрізаного горизонту та проблема великої кількості можливих дій; основні компоненти підсилювального навчання, такі як агент, середовище та стратегії; методи навчання зі зміщенням та без зміщення, такі як TD(0) та MC; методи навчання з функцією оцінювання та з функцією дії, такі як Q-навчання та Sarsa; методи навчання зі стратегіями, такі як Policy Gradient та Actor-Critic; а також різноманітні додаткові теми, такі як зіставлення навчання та планування. Дисципліна є вибірковою (циклу професійної та практичної підготовки для студентів ОНП "Прикладна математика").

Тип дисципліни: вибірковий

Рік навчання: 1

Семестр: 2 (весняний)

Кількість кредитів: 4

Форма контролю: залік

Викладач(і): доц., к. ф-м. н. Швай Н.О.

Результати навчання: У результаті вивчення навчальної дисципліни студент повинен знати:
основні методи та теорію побудови алгоритмів навчання з підкріпленням; загальні принципи розробки ефективних моделей агентів та агентів глибинного навчання; сучасні методи аналізу архітектури агентів; способи та механізми ефективного застосування сучасних алгоритмів та архітектур агентів навчання з підкріпленням.
У результаті вивчення навчальної дисципліни студент повинен уміти:
проектувати алгоритми агентів навчання з підкріпленням. розробляти нові методи агентів навчання з підкріпленням; аналізувати продуктивність побудованих моделей; вибирати ефективні методи для вирішення конкретних задач; застосовувати сучасні прийоми під час проектування архітектури агентів.

Спосіб навчання: дистанційний

Необхідні обовязкові попередні й супутні модулі: базові знання з математичного аналізу, програмування, основних алгоритмів штучного інтелекту; бажаним є прослуховування курсу "Машинне навчання".

Зміст дисципліни: Модуль 1. КЛАСИЧНІ МЕТОДИ НАВЧАННЯ З ПІДКРІПЛЕННЯМ. Вступ до методів навчання з підкріпленням. Планування табличних Марківських процесів. Оцінка стратегії агента в табличному представленні. Q-навчання. Модуль 2. НЕЙРОМЕРЕЖЕВІ МЕТОДИ НАВЧАННЯ З ПІДКРІПЛЕННЯМ. Навчання з підкріпленням з апроксимацією: лінійна. Навчання з підкріпленням з апроксимацією функцій: збіжність. Навчання з підкріпленням з апроксимацією функцій. Нейронний підхід до пошуку стратегій. Proximal Policy Optimization. Узагальнювальна лекція.

Рекомендована література: 1. Sutton та Barton: Reinforcement Learning: An Introduction
2. Stanford CS234 course: https://www.youtube.com/playlist?list=PLoROMvodv4rOSOPzutgyCTapiGlY2Nd8u
3. UCL course on RL, David Silver: https://www.davidsilver.uk/teaching/
4. John Shulman lectures: https://youtu.be/9dXiAecyJrY?t=499
5. Pieter Abbeel lectures: https://www.youtube.com/watch?v=AKbX1Zvo7r8
6. OpenAI Evolution strategies as a scalable alternative to reinforcement learning https://openai.com/research/evolution-strategies

Форми та методи навчання: лекції (лекції проблемного характеру), практичні заняття, індивідуальна робота, робота в малих групах, семінари-дискусії, мозкові атаки, презентації, комп'ютерні симуляції, метод сценаріїв, банки візуального супроводу.

Методи й критерії оцінювання: рейтингова система оцінювання за 100-бальною шкалою: - робота в семестрі (індивідуальні роботи, активність на пратичних заняттях, тестові роботи) - 70%; - залік - 30%.

Мова навчання: українська