在一个庞大的自动化仓库内,数百台机器人在过道中穿梭,收集和分拣物品,以完成源源不断的客户订单。在这种繁忙的环境中,即便是微小的交通堵塞或轻微碰撞,都可能演变成严重的运行迟滞。
为了避免这种低效状况的连锁反应,美国麻省理工学院的研究人员与科技公司Symbotic合作开发了一种新方法,可自动让机器人车队平稳运行。该方法根据拥堵的形成方式,学习在每一时刻应让哪些机器人先行,并自适应地优先处理即将受阻的机器人。通过这种方式,系统可以提前为机器人重新规划路线,从而避开瓶颈。3月24日,这项研究发表于《人工智能研究杂志》。
在电商仓库中同时协调数百台机器人并非易事。 图源:MIT
该混合系统利用深度强化学习来确定哪些机器人应获得优先权。随后,一个快速可靠的规划算法将指令传达给机器人,使它们能够在不断变化的条件中快速响应。
在模拟真实电商仓库布局的仿真环境中,这种新方法实现的吞吐量比其他方法高出约25%。重要的是,该系统能够快速适应不同机器人数量或不同仓库布局的新环境。
“在制造业和物流领域,许多决策问题中,企业依赖的是专家设计的算法。但我们证明,借助深度强化学习的力量,可以实现超越人类的表现。这是一种非常有前景的方法,因为在这些巨型仓库中,即使吞吐量提升2%或3%,也能产生巨大的影响。”研究论文的第一作者、麻省理工学院信息与决策系统实验室(LIDS)研究生Han Zheng表示。
麻省理工学院的研究人员首先设计了一个神经网络模型,用于观察仓库环境并决定如何为机器人设定优先级。他们使用深度强化学习来训练该模型,这是一种试错法,模型在模拟真实仓库的仿真环境中学习控制机器人。当模型做出的决策能提高整体吞吐量同时避免冲突时,它就会获得奖励。
随着时间的推移,神经网络学会了高效地协调大量机器人。
“通过与受真实仓库布局启发的仿真环境进行交互,我们的系统获得了反馈,我们利用这些反馈使其决策更加智能。经过训练的神经网络随后能够适应具有不同布局的仓库。”Han Zheng解释说。
该模型旨在捕捉每个机器人路径上的长期约束和障碍,同时考虑机器人在仓库中移动时的动态交互。通过预测当前及未来的机器人交互,该模型可以在拥堵发生之前进行规避。
在神经网络决定了哪些机器人应获得优先权后,系统会采用一个经过验证的规划算法,告知每个机器人如何从一个点移动到另一个点。这种高效的算法帮助机器人在不断变化的仓库环境中快速做出反应。
未来,研究人员希望将任务分配纳入问题框架中,因为决定哪台机器人完成哪个任务会影响拥堵状况。他们还计划将自己的系统扩展到拥有数千台机器人的更大规模仓库中。
相关论文信息:https://doi.org/10.1613/jair.1.20611
版权声明:凡本网注明“来源:中国科学报、科学网、科学新闻杂志”的所有作品,网站转载,请在正文上方注明来源和作者,且不得对内容作实质性改动;微信公众号、头条号等新媒体平台,转载请联系授权。邮箱:shouquan@stimes.cn。