451期行健讲坛:“物理引导”助力强化学习在数据中心的安全部署

2022.11.30

投稿:彭蕾部门:浏览次数:

活动信息

行健讲坛学术讲座

451


时间: 2022年12月1日(周四)下午14:40-15:25

地点: 线上(腾讯会议:714861587)

讲座: “物理引导”助力强化学习在数据中心的安全部署

演讲者: 王睿航 新加坡南洋理工大学,博士生

演讲者简介:

王睿航是新加坡南洋理工大学计算机科学与工程学院的博士生。 在此之前,他在中国天津大学精密仪器与光电工程学院获得工学学士、工程硕士学位。他的研究重点是将机器学习应用于能源密集型的信息物理系统(例如数据中心),致力于利用底层物理过程来提高机器学习算法的安全性和性能水平。他曾在Acm BuildSysACM/IEEE ICCPS等领域相关顶级会议上发表和合著多篇论文。他的研究获得了 ICCPS 2022 最佳论文入围奖。

讲座摘要:

深度强化学习(DRL)在解决马尔可夫决策过程问题方面表现优异。由于 DRL优化了长期累积回报的期望,因此它是一种有前景的提高数据中心冷却能效的方法。然而,在DRL的状态探索期间保证系统安全约束是一个主要挑战。目前,当探索过程导致不安全时,大多研究采用负奖励的方法来惩罚学习过程。然而,该类方法在学习如何防止不安全之前,往往需要经历足够多的不安全状态。本报告将介绍一个用于数据中心冷却控制的安全探索DRL框架。本框架利用离线模仿学习和在线动作纠正来防止在线DRL期间温度过热导致的不安全问题。在线动作纠正旨在小幅度修正DRL推荐的潜在不安全动作,以确保纠正后的动作不会导致系统过热。该纠正操作基于热状态转换模型设计,该模型使用历史安全操作轨迹进行拟合,并能够将转换外推到DRL探索的不安全状态。本报告进一步评估了该方法在两种气候条件下对冷冻水和直接膨胀冷却数据中心的控制优化,与传统控制相比,该方法可节省18%26.6%的数据中心总能耗,并且与具有负奖励塑形的传统DRL相比,可显著减少温度方面的安全违规。



邀请者:通信与信息工程学院 曾丹教授

欢迎广大师生参加!