何斯迈1,* 金羽佳2 王华2 葛冬冬3
HE Simai1,* JIN Yujia2 WANG Hua2 GE Dongdong3
摘要:
本文尝试对在线学习领域的最新研究成果、相关主要理论和算法进行综述. 在线学习的内容非常广博, 本文希望能够为读者介绍其中一些基本的算法和想法, 从最经典的理论模型和算法设计开始, 对在线学习的发展情况作一个一般性的介绍. 首先, 以经典的在线优化模型------多摇臂赌博机问题为例, 引入了汤普森抽样算法和信心上界算法, 分析、展示了它们的基本思路和最新成果, 并进一步讨论了汤普森抽样算法在更复杂的在线学习问题中的变式和应用. 本文同时对在线凸优化算法做了初步探讨, 它也是解决多摇臂赌博机问题和其他许多在线学习的应用问题时一种强有力的工具.