为什么人工智能算法很火，而机器人和控制科学没有大放异彩？

发表于 2025-4-7 15:53:15

已经离开这个领域三年了，说一下三年前我知道的东西
首先AI对机器人是有冲击的，最具代表性的就是强化学习 RL(虽然看起来更像是搞AI的拿机器人控制当testbed). 我了解的机器人组都很难绕开AI。三个例子：
YOLO起源于机器人视觉分拣
伯克利的那个光头，搞出video prediction之后立马用机械手场景灌了n篇顶会，连插图都不换啊，恩灌
三年前OpenAI 的RL库，一水的机器手控制的样例
工业界的话，现在无人驾驶和L2 L3 ADAS，可以看成广义机器人，谁家不采购AI加速芯片呢
机器人，尤其是控制和感知方向绝对是被AI渗透穿了。但是，又不像CV，被完全统治。我觉得一个原因是RL太特么拉了，最早用deep q learning， a3c的机器人基本就帕金森预定，吓得我原地退坑，找了个厂上班。RL是模拟器里的战神，现实环境里的弟弟。机器人领域是强工业导向的，你不上实际的机器上始终不得劲儿。
此外，在控制算法上，AI就更翻不起浪。首先，非AI的控制算法已经很吊了，我记得10年波士顿动力的大狗就惊艳了国内的各个自动化学院，那个时候deep learning 还在TED上路演，提到神经网络大家第一反应可能是BP网
然后，控制理论社区是个比较old school 的社区，听老师曾经提过，提出新的控制算法，一定要做稳定性证明，请李亚普洛夫来开个光。那AI尤其是RL又怎么说的清
至于工业界，机器人设备，最重要的其实是安全性，很多机器人，按相关法规是要用铁栅栏围起来的。大量设备想卖出去，是要过ISO的。ISO的委员会过来问你机器人怎么控制的，你说采集了多少样本训练出来的，至于它为啥那么听话，为啥偶尔抽风，我也说不清楚，这就不是递华子能解决的问题了
综上，AI影响着机器人，控制理论，促进着他们的发展，但是暂时还无法像CV一样形成绝对统治，至少在2019年之前这是事实

发表于 2025-4-7 16:04:44

知乎首答，作为本科研究生CS和ML出身，博士转了机器人的人提供一些我的理解。AI现在确实很火，近几年尤其是CV和NLP领域，各种网络结构层出不穷，可谓挣足了眼球。但你会发现这些所有的算法都在单一任务下的，或者是相似度很高的任务精度会很不错，但是一旦任务稍微大一点的变化，很可能直接挂了，这也是为什么transfer learning和认知学研究的意义。而机器人领域的任务要求是要在人类环境中去完成，这是一个不确定性的环境，所以一般的表现并不是太好。此外，个人认为，机器人学和AI从诞生之初就是为了代替一部分人类的工作，至少具有人类绝大部分能力。所以目前CS研究的各个分支最终可能都要落实到机器人领域中的具体实体上。所以未来的发展是，CV，NLP等领域的成熟技术会逐渐集成(回归)到机器人上。
对于机器人是用传统的控制还是learning的方式(欧洲是传统控制更多些，美国是偏向于learning)，我个人觉得是二者缺一不可。因为，真实世界，机器人不可能所有任务都是预编程的，即使基于一些基于不同的规则去自动生成它，也是不可取的。而learning对一些非常复杂的机器人任务，提供了目前尚可的效果，基于任务的输入与输出进行训练，虽然它没有非常坚实数学基础，不能证明稳定性。我举个简单的例子，比如一个水杯快要从桌子边缘掉下去了，人会试图去接住它，但是这个过程，人不会去计算这个水杯的质量，掉落距离和时间的关系，进行非常严格数学推导。因为人类已经从以往的生活经验里，已经对这个问题有了基本认知模型，已经发展出了直觉。而近期火起来的Reinforcement learning的工作原理非常类似于人类的后天学习过程。（但其不可复现被人所诟病）PS. 认知机器人学个人非常看好这个方向，如果要让机器人适应很多种不同的工作，Imitation learning，transfer learning, 基于先验知识，形成结构化知识（图模型可进行天然知识推理）等等。
关于robot learning的表现，可参考UCB大牛Pieter Abbeel的研究进展和EPFL的LASA.
UC Berkeley Robot Learning Lab: Homehttp://lasa.epfl.ch/此外，Pieter Abbeel本人还在UCB开了Advanced Robotics的课（learning多一些）
CS287 Fall 2019个人最近也在看这本书
http://www.probabilistic-robotics.org/关于robot learning的前沿，可关注下面这个后起之秀，（TRO,JLMR，有机会1V3）
https://www.robot-learning.org/个人拙见~
吾辈努力。

发表于 2025-4-7 16:15:58

知乎惯例：先问是不是，再问为什么
人工智能算法与控制科学、机器人学之间联系十分紧密，绝不可割裂。

题主其实想表达的是深度学习很火，但我们都知道这波热度的最强催化剂——AlphaGO，它的制胜秘诀是深度强化学习+蒙特卡罗树搜索（当然还有算力）。
我们看看这二者，首先，强化学习本质就是一种闭环控制算法，深度神经网络只是充当近似器，虽然极为重要，但整体仍然是在闭环控制的框架之下。另外，蒙特卡罗树搜索，是一种基于模型的规划算法，同样属于控制科学的范畴。

其实，这波深度学习热度中的东西的雏形，如神经网络、降维、优化，很多早就被控制科学、机器人学的老前辈们几十年前玩坏了，或者说两个方向的前辈们很大一部分都是重叠的，比如模式识别之父傅京孙King-Sun Fu。
从控制科学的角度来讲，说白了神经网络拟合不就相当于是在做模型辨识么，换了个马甲还是认识你。再看看国家学科分类，模式识别与智能系统还属于控制科学与工程的二级学科呢。

那深度学习热潮之下，除了AlphaGO这类打游戏下棋的应用以外，机器人和控制科学有没有大放异彩？其实已经开始发光了，只是多数人没有看见。举两个例子
（1）今年经历校招发现，科技公司招路径规划算法、传感器融合算法、先进控制算法等等高薪职位越来越多了。无人机控制，自动驾驶都需要用到控制算法，而且真实世界复杂性导致深度神经网络可能派上用场。
（2）互联网推荐系统领域，强化学习已经登场了。Google近几年取得的最显著的线上收益，就是强化学习推荐算法带来的[1]。然而，不懂任何控制理论的算法工程师也许能搭起强化学习推荐系统，但是一定没法完全发挥出强化学习的真正优势（不接受反驳）。
并且，不少顶级的研究、开发团队已经在这个领域深耕了好几年，做出了非常有意思的研究工作，而且有应用前景。这里我推荐一个来自伯克利强化学习团队的工作，他们专注于基于视觉的强化学习控制。
PS：对机器学习算法与控制论的结合的同学，欢迎关注专栏机器学习与控制论。对强化学习应用用于推荐、广告、搜索领域、计算社会学领域感兴趣的同学欢迎私信交流。
<hr/>
分享一篇伯克利强化学习学派的论文，发表于2016ICRA，《Learning Deep Control Policies for Autonomous Aerial Vehicles with MPC-Guided Policy Search》。由于伯克利RL学派主要是将算法应用于机器人实物，所以他们的基本的思路很朴素——在尽量避免深度强化学习试错带来的弊端情况下，充分利用其优势。
文中涉及到的iLQR（迭代LQR）、MPC（模型预测控制）和GPS（Guided Policy Search）三个前置知识，前二者已经在前序文章中有介绍。GPS由于体系较为庞杂，算法细节会在之后进行分享，这里主要讲顶层思路和应用场景。
一、背景

在无人机控制中，MPC经常被使用，但是有两个不足：
1）需要进行状态估计，在复杂、非结构化的环境中状态估计难度大。
2）在线优化的时候计算复杂度高。
然而，策略搜索（强化学习）一方面可以直接建立从传感器原始数据（如IMU readings, laser range finder数据，甚至图像）开始，端到端的映射，避免显示的状态估计。另一方面，得益于并行计算能力的进步，神经网络前向推断也非常快速。但是，强化学习在没有训练好之前容易遭受毁灭性失败（需要试错），而MPC则对模型误差和扰动非常鲁棒。所以，结合起二者是非常有必要的。
本文就是希望在RL训练阶段避免毁灭性失败，采用MPC而非策略网络本身作用于实际物理系统，收集经验来引导策略搜索，得到一个实际环境中可以使用的策略网络。

本文中

指代RL的策略网络，

指代轨迹优化得到的控制器。本文符号定义与控制文献中保持一致，其中

等同于RL中的环境状态

,

等同于控制动作

.

表示观测。
二、任务

四旋翼飞行器避障控制任务。
第一个任务：训练是一个柱子，测试是在无限的森林，由形状与训练中相同形状的圆柱体组成，但在随机位置处平均间隔为5m。
第二个任务：训练是在笔直的走廊，测试是在蜿蜒的走廊，随机每5m最多旋转30°。

训练环境

第一个测试环境（无限森林）

三、解决方案

提出MPC-GPS，结合GPS和MPC的优势。
（1）GPS基本思路

CS285 slides

GPS基本的思路很简单，分为两部分，第一部分是路径优化，往往采用最优控制算法实现。得到long-horizon的优化控制器。并利用该控制器与实际系统交互（采样）得到许多训练样本。第二部分是监督学习，利用第一部分得到的样本训练策略网络。
当然，直接用监督学习来学习最优轨迹只能得到short-horizon的策略，这和模仿学习中的behvior cloning带来的问题一样，模仿学习中提出逆强化学习来解决。而GPS的解决方式是：更替优化策略和轨迹分布，调整轨迹优化的目标函数和策略优化目标函数，使得策略和轨迹分布越来越接近，最终收敛到同样的分布。
GPS一般的框架如下：每次循环，先进行路径优化得到优化控制器

，最小化累积cost以及与策略网络

的偏差——根据GPS的理论，这样的得到的样本监督学习更容易学。接下来采样得到训练样本。监督学习部分，训练策略网络使得与路径优化轨迹相接近。最后更新拉格朗日乘子。

GPS基本框架

（2）MPC-GPS基本思路
MPC-GPS框架如下图所示。训练的时候用MPC产生训练样本。然后为策略网络做特殊的监督学习训练。测试的时候仅仅使用策略网络。

值得注意的是，训练的时候MPC产生训练样本的过程，是可以通过一定的代价，建立instrumented setup（i.e. 利用motion capature）拿到完全的状态，所以MPC能跑。但是我们知道，测试的时候我们希望策略网络处理的是环境的观测。所以网络监督训练的时候，强制喂进去的是观测而非状态。
仅仅知道一个环境的近似模型的情况下，每走一步重新规划路径，能够在即使模型有误差或者有扰动的情况下，产生鲁棒的控制效果。但是，这样有个问题，众所周知，由于模型不准确，MPC往往只能产生short horizon的短视的控制效果，这样便使得无人机不能很好的完成避障等需要long-horizon lookahead的任务，这也就意味着之前介绍过的iLQR-based MPC不能用。本文的难点就在这，既想利用MPC，又想得到long-horizon效果怎么办呢？
文中提出了MPC-GPS算法，先用离线的iLQG/iLQR产生多条轨迹。运行MPC多次，以追踪这些生成的轨迹位置，得到样本。训练策略网络使得与样本轨迹相接近。
轨迹优化侧采用iLQG优化，会把公式（2）重写成这种形式：

四、实验设计及结果

（1）实验设计
1）四旋翼飞行器仿真
仿真3DR的IRIS+无人机，动态来自于[2]。真实的状态是，分别是位置、速度、方向、角速度。但是观测没有位置信息，而是来自于laser range finder（5m，180度）的数据。
2）cost 函数

是理想的转子转速。最后一项是Hinge loss，如果最近的障碍比安全距离大就不需要惩罚。

3）Baseline
i）off-line, 离线的iLQG
ii) MPC，直接使用公式3)作为目标函数的MPC
iii) full-MPC，本文提出来的方案。
4）测试指标
第一个是撞击的次数，第二个是平均持续时间，取20次仿真的结果平均。
（2）实验结果

上下分别是之前说的两个仿真环境，训练和测试环境不相同。
在没有模型误差的时候，iLQG表现最好。在有误差的时候，大多数情况是MPC-GPS最好。随着误差的增大，离线iLQG基本上不可用，而MPC-GPS优势越来越明显。
所以，文中声称，在训练不遭受毁灭性失败的情况下，可以训练出在新环境中表现良好的策略网络。
<hr/>2019.12.28更新
回复评论区的两位朋友：
1）第一位提到CNN等用在控制中没办法证明稳定性，审稿都过不了，所以这不是控制科学。我个人观点如下：
神经网络控制已经研究了几十年，应用CNN等新工具解决难题（如vision-based control）受到质疑，是因为现在这些理论还在发展期，不能因为暂时受阻就全盘否定。毕竟很多控制算法，包括PID的思想，都是初步应用/实验有效果，然后理论发展，接着稳定性、收敛性得到证明。
最近控制领域盛会CDC2019召开，就有学者提到learning-based方法在应用中逐渐普及，呼吁控制理论研究者进入学习类算法的可靠性、鲁棒性、安全性的研究中。
所以大家应该抛下学派间的成见，共同解决难题，而非相互鄙视。
（cdc2019:控制顶会中的机器学习）
https://zhuanlan.zhihu.com/p/99900417
2）第二位朋友认为，强化学习和控制没多大关系。
我们跟着Sutton老头子一起念：

https://ieeexplore.ieee.org/document/126844

发表于 2025-4-7 16:25:25

机器学习算法在各类媒体的曝光下感觉似乎无所不能了，特别AlphaGo的出现，让普通民众也了解了机器学习，人工智能的强大。我作为一个本科，硕士，现在博士都在做控制的人，曾经也一度希望改行做机器学习了。
但是机器学习真的有那么强大吗？虽然各类概念和研究如火如荼，但是至少我在欧洲的感觉，大部分的机器人实验室依然是以控制为主的（美国的情况我不太了解），例如DLR RMC，DIAG Robotics Lab，PRISMA Lab等等。DLR RMC最近开设了一个机器学习的组，leader是Dr. Freek Stulp，我在DLR做毕业论文的时候曾经有幸听过他的presentation，大意是完全基于数据的学习对机器人而言不太试用（如果希望机器人可以像人一样去行动），原因是人本身是pre-programmed，我们之所以可以双足行走，不仅是因为后天的学习，更因为我们的基因里存在这样的片段给予我们行走的能力，后天的学习只是一个激活的过程，所以更feasible的方式可能是机器人需要一个pre-programmed的库，类似于机器人的基因，里面可以很多简单的行为，然后再通过学习去完善这些行为。但是这个库是否能够真的可以作为类似于基因的存在？答案是不知道，因为我们并没有那么了解我们自己的运作方式。
我博士所在的组的主攻方向是类人型机器人，最近一次组内讨论是由我们组长Abder Kheddar做的有关于multi-contact locomotion的presentation，其主旨是类人型机器人在行动时可以借助物品去更好的规划自己的行动，例如机器人在房间里走动时前面有个桌子，桌子当然可以被当作障碍物被绕开，但是也可以被作为是一个可以被接触并提供支撑力的物体。其中有人提到了用机器学习来尝试做multi-contact locomotion，Abder的答案是no，因为不知道要学习的目标是什么，我的理解是单一的task可能通过学习加强（例如下围棋取胜）但是一旦涉及到multi-task decision making，机器学习也无能为力（我不是机器学习的expert，所以如果有不同意见，欢迎讨论）。
另外我还补充一点，机器学习一直被控制领域所诟病的，stability！stability！stability！并且，我个人的理解是无论机器学习最终有多么发达，底层的基础一定需要用solid control law来实现约束，asimov的三定律一定要用控制（数学）的方式给予机器人，要不然。。。

发表于 2025-4-7 16:40:00

准确来讲，AI算法在理论分类上应该是基于数据的（data-based）算法，传统算法更多的是基于模型的（model-based）算法，其算法出发点就不同。
这个问题其实挺有意思的，我也一直有这方面的疑问。最近研究生的学习我感觉人工智能算法在传统控制方面，至少线性系统研究较少的原因我感觉有以下几点
1.人工智能算法基于大数据训练，而现有的运动控制中，比如飞控，拿到实际实验数据的成本极高，大数据的获取非常困难。
2.现在控制界对稳定性的数学证明有一种近乎极端的偏执，而人工智能算法在稳定性上很难进行数学证明。
3.对于线性系统或者近似线性系统，鲁棒容错控制的研究已经比较透彻，能够对系统进行数学上的一种最优抗干扰设计。而ai算法，当训练数据集不够精确的时候，其抗干扰能力有多强，还没有一个数学上的证明。这一点也是未来ai算法的一个主要研究方向吧。
基于以上，ai算法的优势应该在于强耦合强非线性系统控制，对于这样的系统控制我接触的也比较少，还需要其他大佬们介绍。
————————————————————————————
以上为原答案，工作了几年接触了很多强非线性的机器人控制，对这个问题有一些新的感悟吧。
现如今对于机器人控制能使用的机器学习基本已经比较明确了。首先说一下控制机器人运动的三个步骤，分别是感知、决策与执行。
感知层包括视觉定位、惯性导航甚至slam等一系列的导航定位方法，这一层使用一般的深度学习是可行的，特别是基于视觉等的定位技术，机器学习的引入极大的提升了机器人的感知导航定位能力。
决策层包括路径规划、轨迹规划与避碰等。这一层普通的用于图像处理的深度学习不太行，如果考虑机器学习的话更多的是利用强化学习，搭建仿真环境、物理环境给agent进行自我学习进化(但对于机器人来说仿真环境本来就是不准确的，当环境不准确时强化学习的抗干扰性如何这又是一个研究内容，如果使用物理环境的话可能会出现不可预见的机器人损坏，毕竟这里的物理环境下强化学习不像Alpha Go可以全靠计算机实现了)。当然这一层传统优化与搜索算法研究的也很多，算是机器学习与传统算法二者55开的领域。
最后一层是执行层，这就是传统控制算法大放异彩的领域了，机器学习方法在这一层与传统算法在稳定性、鲁棒性分析以及工程应用上差距极大，暂时没有能替代传统算法的趋势。

为什么人工智能算法很火，而机器人和控制科学没有大放异彩？

本周热门