您的位置:首页 >百科快讯 >

重尾噪声奖励下的最优决策算法

在数据科学中,研究人员通常处理包含嘈杂观察结果的数据。数据科学家在这方面探索的一个重要问题是顺序决策问题。这通常被称为“随机多臂老虎机”(stochasticMAB)。

在这里,智能代理会在不确定的环境下根据嘈杂的奖励顺序探索和选择行动。它的目标是最小化累积遗憾——最大奖励与所选动作的预期奖励之间的差异。较小的遗憾意味着更有效的决策。

大多数关于随机MAB的现有研究都在奖励噪声遵循轻尾分布的假设下进行了遗憾分析。然而,许多真实世界的数据集实际上显示出重尾噪声分布。其中包括用于开发个性化推荐系统的用户行为模式数据、用于自动交易开发的股票价格数据以及用于自动驾驶的传感器数据。

在最近的一项研究中,韩国中央大学的KyungjaeLee助理教授和蔚山科学技术学院的SungbinLim助理教授解决了这个问题。在他们的理论分析中,他们证明了现有的随机MAB算法对于重尾奖励来说是次优的。

更具体地说,这些算法中采用的方法——稳健的置信上限(UCB)和具有无界扰动的自适应扰动探索(APE)——不能保证极小极大(最大可能损失的最小化)最优性。

“基于此分析,提出了极小极大最优稳健(MR)UCB和APE方法。MR-UCB利用稳健均值估计器的更严格的置信界限,而MR-APE是其随机版本。它采用有界扰动,其尺度遵循修改了MR-UCB中的置信度界限,”Lee博士在谈到他们的工作时解释说,该工作发表在IEEETransactionsonNeuralNetworksandLearningSystems上。

接下来,研究人员得出了累积遗憾的依赖于间隙和独立的上限。对于所提出的两种方法,后者的值与重尾噪声假设下的下界相匹配,从而实现极小极大最优。此外,新方法需要最少的先验信息,并且仅取决于奖励的有限时刻的最大阶数。相比之下,现有算法需要先验时刻的上限——在许多现实世界的问题中可能无法获得的信息。

在建立了他们的理论框架后,研究人员通过在Pareto和Fréchet噪声下进行模拟来测试他们的方法。他们发现MR-UCB始终优于其他探索方法,并且在重尾噪声下随着动作数量的增加而更加稳健。

此外,两人使用加密货币数据集验证了他们的真实世界数据方法,表明MR-UCB和MR-APE在处理重尾合成和真实世界随机MAB方面是有益的——极小极大最优遗憾界限和最少的先验知识问题。

“由于容易受到重尾噪声的影响,现有的MAB算法在建模股票数据时表现不佳。它们无法预测股价的大幅上涨或突然下跌,造成巨大损失。相比之下,MR-APE可用于自主交易通过股票投资获得稳定预期回报的系统,”李博士在讨论当前工作的潜在应用时说。

“此外,由于行为数据显示重尾噪声,它还可以应用于个性化推荐系统。通过更好地预测个人行为,可以提供比传统方法更好的推荐,从而最大限度地提高广告收入,”他总结道。

免责声明:本文由用户上传,如有侵权请联系删除!