王梦迪：探寻强化学习背后的简洁规律，她是普林斯顿最年轻终身教授

您所在的位置：网站首页 › 李云迪是哪个大学的教授 › 王梦迪：探寻强化学习背后的简洁规律，她是普林斯顿最年轻终身教授

王梦迪：探寻强化学习背后的简洁规律，她是普林斯顿最年轻终身教授

2024-07-14 12:19| 来源: 网络整理| 查看: 265

王梦迪，清华大学自动化系2003级校友，现为普林斯顿大学运筹和金融工程系、计算机系助理教授

“强化学习是人工智能的未来” ，王梦迪表示，“应当是同控制论、统计学习思想结合起来，用大数据的方法探索一个复杂系统的动态过程。这方面在强化学习的框架下都是空白，我的工作就是要把这个框架建立起来。”

王梦迪的履历很传奇，她14岁从少年班考入清华大学，随后进入MIT于24岁取得博士学位，同年成为普林斯顿大学的助理教授和博士生导师，29岁时，她成为普林斯顿大学最年轻的终身教授。谈及自己的特殊成长经历，她表现的很谦虚，“就读少年班是一把双刃剑。我有幸遇到过很多极有天赋并且非常优秀的前辈和同龄人，当我有点迷茫时，我会观察那些走在最前面的人，他们的努力会成为我的动力。”

王梦迪在麻省理工学院读博士期间根据兴趣选择了偏数学、偏理论的系统和信息论方向，师从美国工程院院士DimitriP Bertsekas，用数学理论来设计大规模算法。博士期间，王梦迪对强化学习（Reinforcement Learning）产生兴趣，并决心解决强化学习背后的算法和理论问题。

强化学习是机器学习的未来，强化学习算法能够让智能体通过与环境实时交互、获取反馈信号来产生后续行为，并逐步“习得”最优的决策，从而获得最大的效用值。强化学习由控制论和认知科学发展而来，糅合了大数据和机器学习技术，可以实现复杂动态系统中的实时自动决策。强化学习强调基于环境而行动，从大量经验和数据中总结推理出下一步的策略，是未来智能自动化系统的思考引擎。

强化学习在2016年被大众所熟知，那一年GoogleDeepMind的AlphaGo击败了人类围棋顶尖选手李世石，而AlphaGo的算法就是一种强化学习算法。近两年强化学习又在游戏领域上取得突破，基于强化学习的AI在Dota2和星际等游戏上都击败了人类队伍。

“我们为什么关心游戏？人类的幼儿在发展自己的智能的过程中，正是通过游戏来学习如何决策的，人工智能的发展也正处在这一阶段，我们很快能看到人工智能将不仅仅能打游戏，而将解决更难的问题。”王梦迪说。但其实强化学习的发展还处在比较低级的阶段，“这些游戏上的成功更像是工程上的一种试错，100次试验只要取1次最佳的结果就可以展示了。它们背后模型的复杂度、耗费的计算资源是常人难以想象的。”

强化学习与近些年非常成功的深度学习都还存在着很多问题，一直以来，它们的不可解释性和难以复现性为人诟病，即所谓“黑箱”问题；而王梦迪的目标就是解决这一难题。

“很多人感觉强化学习或者深度学习的模型越来越复杂，越来越难以训练。很多时候我们都在努力让训练速度加快，去优化算法，让更复杂的模型能跑起来。但任何算法的加速都是有极限的，这个极限就是该类问题的计算复杂度和信息复杂度，我们只能一步步逼近它。很多异常复杂的模型和算法往往是极为极为简单的，比如随机梯度算法的极限其实是一组简洁的随机微分方程。我的工作就是去找到复杂强化学习背后的简洁数学规律，利用它开发更强大的算法，去解决高维强化学习所面临的scalability和generalizability的问题。”

目前强化学习方面的大部分进展都来自工程优先方式的探索，先有具体的工程问题，再不惜资源地解决问题，再讲原理。而对王梦迪来说正好相反，她希望从数学统计和控制原理出发，把强化学习的框架摸清楚，从根本上提高强化学习的计算效率和对数据的利用效率。她致力于推动强化学习的理论和实践的同步发展，推动其在金融风险控制、医疗决策等领域的应用，让强化学习方法成为未来复杂系统的智能大脑。

“这条道路上的每一件事情，我都有极强的热情去参与去推动。”王梦迪说。

【本文地址】

王梦迪：探寻强化学习背后的简洁规律，她是普林斯顿最年轻终身教授

王梦迪：探寻强化学习背后的简洁规律，她是普林斯顿最年轻终身教授

今日新闻

推荐新闻