Код: 318402Назва:
Навчання з підкріпленням
Анотація: Метою і завданням навчальної дисципліни "Навчання з підкріпленням" є висвітлення основних підходів та методів розв?язання недостатньо формалізованих задач за допомогою побудови інтелектуальних систем, які базуються на нейронних мережах.
Курс охоплює такі теми, як: визначення підсилювального навчання, проблема зрізаного горизонту та проблема великої кількості можливих дій; основні компоненти підсилювального навчання, такі як агент, середовище та стратегії; методи навчання зі зміщенням та без зміщення, такі як TD(0) та MC; методи навчання з функцією оцінювання та з функцією дії, такі як Q-навчання та Sarsa; методи навчання зі стратегіями, такі як Policy Gradient та Actor-Critic; а також різноманітні додаткові теми, такі як зіставлення навчання та планування.
Дисципліна є вибірковою (циклу професійної та практичної підготовки для студентів ОНП "Прикладна математика").Тип дисципліни: вибірковийРік навчання: 1Семестр: 2 (весняний)Кількість кредитів: 4Форма контролю: залікВикладач(і): доц., к. ф-м. н. Швай Н.О.Результати навчання: У результаті вивчення навчальної дисципліни студент повинен знати:основні методи та теорію побудови алгоритмів навчання з підкріпленням; загальні принципи розробки ефективних моделей агентів та агентів глибинного навчання; сучасні методи аналізу архітектури агентів; способи та механізми ефективного застосування сучасних алгоритмів та архітектур агентів навчання з підкріпленням.У результаті вивчення навчальної дисципліни студент повинен уміти:проектувати алгоритми агентів навчання з підкріпленням. розробляти нові методи агентів навчання з підкріпленням; аналізувати продуктивність побудованих моделей; вибирати ефективні методи для вирішення конкретних задач; застосовувати сучасні прийоми під час проектування архітектури агентів.Спосіб навчання: дистанційнийНеобхідні обовязкові попередні й супутні модулі: базові знання з математичного аналізу, програмування, основних алгоритмів штучного інтелекту; бажаним є прослуховування курсу "Машинне навчання".Зміст дисципліни: Модуль 1. КЛАСИЧНІ МЕТОДИ НАВЧАННЯ З ПІДКРІПЛЕННЯМ.
Вступ до методів навчання з підкріпленням. Планування табличних Марківських процесів. Оцінка стратегії агента в табличному представленні. Q-навчання.
Модуль 2. НЕЙРОМЕРЕЖЕВІ МЕТОДИ НАВЧАННЯ З ПІДКРІПЛЕННЯМ.
Навчання з підкріпленням з апроксимацією: лінійна. Навчання з підкріпленням з апроксимацією функцій: збіжність. Навчання з підкріпленням з апроксимацією функцій. Нейронний підхід до пошуку стратегій. Proximal Policy Optimization. Узагальнювальна лекція.Рекомендована література: 1. Sutton та Barton: Reinforcement Learning: An Introduction 2. Stanford CS234 course: https://www.youtube.com/playlist?list=PLoROMvodv4rOSOPzutgyCTapiGlY2Nd8u3. UCL course on RL, David Silver: https://www.davidsilver.uk/teaching/4. John Shulman lectures: https://youtu.be/9dXiAecyJrY?t=4995. Pieter Abbeel lectures: https://www.youtube.com/watch?v=AKbX1Zvo7r86. OpenAI Evolution strategies as a scalable alternative to reinforcement learning https://openai.com/research/evolution-strategies Форми та методи навчання: лекції (лекції проблемного характеру), практичні заняття, індивідуальна робота, робота в малих групах, семінари-дискусії, мозкові атаки, презентації, комп'ютерні симуляції, метод сценаріїв, банки візуального супроводу. Методи й критерії оцінювання: рейтингова система оцінювання за 100-бальною шкалою:
- робота в семестрі (індивідуальні роботи, активність на пратичних заняттях, тестові роботи) - 70%;
- залік - 30%.Мова навчання: українська