Preview

Вестник Новгородского государственного университета

Расширенный поиск

Влияние оценки неизвестной дисперсии дохода на потери при использовании стратегии UCB для гауссовского двурукого бандита

https://doi.org/10.34680/2076-8052.2021.2(123).17-20

Аннотация

Рассматривается задача о двуруком бандите с гауссовским распределением доходов действий с неизвестными математическим ожиданием и дисперсией. Гауссовские двурукие бандиты могут быть использованы при рассмотрении пакетной обработки, когда имеются два возможных метода обработки. Показано, что при использовании стратегии UCB1 величина ожидаемых потерь непрерывно зависит от оценки дисперсии доходов действий. С использованием метода Монте-Карло установлен характер зависимости. Отмечается, что использование некорректной оценки равносильно неоптимальному выбору параметров алгоритма, но величина потерь расчета незначительна при достаточно большой ошибке, что дает возможность оценить величину дисперсии на начальном этапе управления.

Об авторе

С. В. Гарбарь
Новгородский государственный университет имени Ярослава Мудрого
Россия


Список литературы

1. Lattimore T., Szepesvari C. Bandit Algorithms. Cambridge University Press, 2020. 536 р.

2. Колногоров А.В. Гауссовский двурукий бандит и оптимизация групповой обработки данных // Пробл. передачи информ. 2018. Т.54. №1. С.93-111.

3. Колногоров А.В., Гауссовский двурукий бандит: предельное описание // Пробл. передачи информ. 2020. Т.56. №3. С.86-111.

4. Bather J.A. The Minimax Risk for the Two-Armed Bandit Problem // Mathematical Learning Models — Theory and Algorithms. Lecture Notes in Statistics. 1983. V.20. P.1-11. DOI: https://doi.org/10.1007/978-1-4612-5612-0_1

5. Lai T.L. Adaptive Treatment Allocation and the Multi-Armed Bandit Problem // The Annals of Statist. 1987. V.25. P.1091-1114.

6. Auer P. Using Confidence Bounds for ExploitationExploration Trade-offs // Journal of Machine Learning Research. 2002. V.3. P.397-422.

7. Reverdy P.B., Srivastava V., Leonard N.E. Modeling Human Decision Making in Generalized Gaussian Multiarmed Bandits // Proceedings of the IEEE. 2014. V.102. №4. P.544-571. DOI: https://doi.org/10.1109/JPROC.2014.2307024

8. Reverdy P. Gaussian multi-armed bandit problems with multiple objectives // Proceedings of the American Control Conference (ACC). Boston, USA, 2016. P.5263-5269, DOI: 10.1109/ACC.2016.7526494

9. Kolnogorov A.V., Shiyan D.N. Parallel Version of the Mirror Descent Algorithm for the Two-Armed Bandit Problem // Proceedings of the 2016 Third International Conference on Mathematics and Computers in Sciences and in Industry (MCSI 2016). Chania, Crete. 27-29 August 2016. P.241-245. DOI: https://doi.org/10.1109/MCSI.2016.052

10. Garbar S.V. Invariant description for batch version of UCB strategy for multi-armed bandit // Journal of Physics: Conference Series. 2020. Vol.1658. Article number: 012015. DOI: https://doi.org/10.1088/1742-6596/1658/1/012015

11. Garbar S., Kolnogorov A. Invariant description for regret of UCB strategy for Gaussian multi-arm bandit // Proceedings of the 6th Stochastic Modeling Techniques and Data Analysis International Conference with Demographics Workshop (SMTDA). Barcelona, Spain, 2-5 June 2020. P.251-260.

12. Vogel W. An Asymptotic Minimax Theorem for the TwoArmed Bandit Problem // Ann. Math. Statist. 1960. V.31. P.444-451.


Рецензия

Для цитирования:


Гарбарь С.В. Влияние оценки неизвестной дисперсии дохода на потери при использовании стратегии UCB для гауссовского двурукого бандита. Вестник Новгородского государственного университета. 2021;(2(123)):17-20. https://doi.org/10.34680/2076-8052.2021.2(123).17-20

For citation:


Garbar S.V. Relation between reward variance estimation and losses for UCB strategy for Gaussian two-armed bandit. Title in english. 2021;(2(123)):17-20. (In Russ.) https://doi.org/10.34680/2076-8052.2021.2(123).17-20

Просмотров: 39


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 2076-8052 (Print)