作者:李媛 来源:中国科学报 发布时间:2025/7/24 9:12:00
选择字号:
无模型强化学习重塑在线选品优化

 

面对在线选品优化大模型的局限性问题,西安交通大学管理学院智能决策与机器学习研究中心团队联合国内外团队,开展了全新的基于人工智能技术的研究策略,提出了一种无模型(Model-free)的深度强化学习(Deep reinforcement learning)方法。

该方法通过使用一个特别设计的深度神经网络(DNN)来构建选品策略,并利用从历史交易数据构建的模拟器,通过优势演员-评论家(A2C)算法更新DNN的网络参数,以有效解决传统强化学习训练需要大量、甚至不切实际的交易数据的问题。近日,该研究成果发布在《生产与运作管理》上。

在线选品优化(以酒店预订为例)。西安交通大学供图

  ?

在线选品优化是近年来运营管理领域中备受关注的重要研究方向。其核心在于探讨平台如何从有限的产品库存中精心挑选出一组最优的产品组合(即“选品”),并将其推荐给随着时间陆续到达的多样化客户群体,以实现在特定时间段内的平台总收益最大化。

众多现实场景,例如酒店预订、演出票销售以及短生命周期产品的推荐等,均可被建模为在线选品优化问题。然而,现有主流模型驱动方法(如离散选择模型)的模型假设通常存在局限性,与真实用户行为不符,且在相应的高维动态规划问题求解中计算代价显著。

“一系列合成数据与实际数据上的实验结果表明,与主流方法相比,所提方法能够显著提高长期收益,并且在各种实际条件下保持稳健性。”西安交通大学管理学院智能决策与机器学习研究中心教授王尧说,研究还证明了新方法的灵活性,即可以进一步考虑客户属性以实现个性化策略,并且可通过在DNN的输入状态中增加历史销售信息,扩展至包含可重复使用产品的应用场景中。

相关论文信息:https://doi.org/10.1177/10591478251351737

 
版权声明:凡本网注明“来源:中国科学报、科学网、科学新闻杂志”的所有作品,网站转载,请在正文上方注明来源和作者,且不得对内容作实质性改动;微信公众号、头条号等新媒体平台,转载请联系授权。邮箱:shouquan@stimes.cn。
 
 打印  发E-mail给: 
    
 
相关新闻 相关论文

图片新闻
中国学者研究入选联合国可持续发展案例 人工智能在黄石公园下发现8.6万次地震
研究发现调控甜瓜成熟的两个关键转录因子 月壤取水 可产燃料
>>更多
 
一周新闻排行
 
编辑部推荐博文