智能体(Agent)之所以成为AI发展方向中最被看好的领域,因为它代表了artificial intelligence(AI)向artificial general intelligence(AGI)迈进的关键一步。
智能体不同于传统的静态模型,它是一种能够自主感知环境、做出决策并采取行动的AI系统,具有与环境互动、持续学习和适应的能力。
最近随着大型语言模型、视觉-语言模型等基础模型的突破,以及强化学习等技术的进步,智能体逐渐在游戏、机器人、医疗等多个领域展现出巨大的应用潜力。
有研究人员描绘了一个全面、集成的Agent AI系统愿景:
图中上半部分的矩阵可以横向划分为五个主要领域:物理世界、虚拟世界、Agent涉及方法、具体化和产品。纵向则分为应用、基础设施、数据和理论四个层面。
在物理世界领域,我们能够看到服务机器人、环境智能等应用,以及摄像头、麦克风等基础设施;虚拟世界部分包括虚拟现实、增强现实等技术,以及社交网络、模拟器等工具;Agent方法部分涵盖了通用型Agent、大语言模型LLMs和视觉语言模型VLMs等核心技术;具体化部分涉及自动驾驶、制造业等实际应用场景;产品部分则列出了游戏、AI副驾驶、医疗AI等具体应用产品。
数据层面包括物理实验、视频、图像、文本等多种数据类型,反映了Agent AI系统的多模态特性;理论层面涵盖了从心灵哲学到机器学习理论、认知科学等广泛的理论基础,体现出Agent AI的跨学科性质。
这个系统可以认为是向通用人工智能(AGI)迈进的一个有希望的发展途径。它能够整合物理世界的传感器数据、虚拟世界的模拟数据,以及各种理论和算法,形成一个统一的智能系统。这个系统不仅可以理解和响应复杂的环境,还能够通过持续学习和适应来提高自身性能。
当然,以目前的技术水平,这样一个达到AGI水平的Agent暂时还无法真正实现,但是很多领域确实在探索Agent的应用潜力。
比如在游戏《我的世界:地下城》(Minecraft Dungeons)中,研究人员利用GPT-4v(一个视觉语言模型)建立了一个能够指导玩家进行游戏的agent:
玩家的目标是要移动到右前方,并制造一个工作台。
GPT-4v通过“分析”发现,玩家已经收集了木材,所以为玩家详细描述了制作工作台的步骤:
- 打开物品栏(默认按'E'键);
- 将收集到的木头放到制作槽中,每个槽放一个木头制作出木板;
- 收集制作的木板到物品栏中;
- 在物品栏的2×2制作网格中用木板填满所有四个槽,制作出一个工作台;
- 把工作台拖到物品栏中;
- 关闭物品栏并在快捷栏中选择工作台;
- 在地面上右键点击放置工作台。
这张图表明GPT-4V能够有效预测高级动作序列,不仅能够理解游戏环境和玩家目标,还能整合感知到的信息(如玩家手持木头),进行整体设计,并规划出合理的行动步骤。
但是,这个研究同样指出了GPT-4v的一些“劣势”,虽然它能预测一些低级动作(比如按E“可能”可以打开库存),但其输出并不能直接适配于原始的低级动作,比如说具体应该怎样操纵鼠标和键盘等等。
也就是说,目前的GPT-4v更适合当一个“军师”,为玩家出谋划策,制作更加个性化的游戏教程,提升玩家的游戏体验。
虽然不能直接操控一切,但是agent这种跨模态的理解能力对于我们的日常工作来说仍然非常有用。比如你可以做一个agent用来进行每日日程规划,相当于请了一个不会忘事的随身秘书;比如你可以设计一个能够自动记录会议内容并生成会议摘要的agent,大大减轻自己的工作负担。
在目前预训练模型越来越完善的情况下,构建一个agent其实并不是一件非常困难的事情,甚至不需要编程能力就可以实现!建议初学的小伙伴看看知乎知学堂的AI方案解决专家免费公开课,由经验丰富的业内大佬主讲,不仅会讲一些原理性内容,更是会涉及到大量的实用案例。而且这个课程无需编程基础,即使是不懂编程的小白也能听懂并上手实践。入口我直接给大家找过来了,直接听就可以⬇
老师会提供一些能够直接移植到个人项目中的demo代码,只要按照提示简单修修改改,就能实现一个简单agent的构建,提升工作效率,把自己从繁琐的工作中解放出来啥的,不再是梦。
Agent AI除了可以作为游戏之类的娱乐辅助外,研究人员认为它们还可以用于未来的医疗保健领域。
系统的核心组件是一个Transformer模型,接收视频输入并生成相应的输出。模型的训练数据有两个主要来源:
- 护士标注的注释。这些是由经验丰富的医护人员提供的专业标注数据,用于训练模型理解医疗场景和行为。
- GPT-4生成的训练数据。为了扩充训练数据并提高模型的问答能力,研究人员使用GPT-4以一种保护患者隐私(PHI-safe)的方式生成一些额外的问答对。
这个系统预计能够实现三个主要功能:
- 行动识别(Action Recognition)。根据视频内容识别出具体行为,比如患者状态的改变(“焦虑”、“安静”、“警觉”等),这些状态可以用作进一步处理的标签。
- 视频字幕(Video Captioning)。顾名思义,给视频自动生成文字描述,比如“临床医生正在帮助病人下床”,增强智能体对场景的理解和描述能力。
- 视觉问答(Visual Question Answering)。为特定的视觉问题提供答案,如图中问题“病人在哪里?”答案为“病人在床边”。也就是说,由智能体帮助护士看视频并寻找答案,提高工作效率。
通过这些功能,智能体能够综合理解和响应视频中的多种情况,提供实时的、上下文相关的反馈和信息,对于医疗监控和护理非常有价值。比如,在监控重症监护病房中的病人时,智能体可以识别病人的活动,自动记录病情变化,并在必要时提醒医护人员。
除此之外,未来是否能够让足够智能的机器人“走进”寻常百姓家,也要看Agent的发展程度,只有Agent AI足够智能,能够在多模态间无缝切换,真正做到“能看、能听、能理解”,才可能出现真正拥有智能的机器人。
智能体的多模态感知和理解能力使得它能够像人类一样全面感知环境,无论是在游戏世界中理解视觉和文本指令,还是在医疗场景中分析视频和语音,智能体都展现出了整合多种信息源的潜力。这种能力为AI系统在复杂、真实世界中的应用铺平了道路。
智能体的自主学习和适应能力让其具备了持续进化的潜力。通过与环境的不断互动,智能体可以自主积累经验,优化决策策略,这种动态学习的特性使得Agent AI系统有望应对各种未知的挑战。
此外,智能体的“跨领域”发展,让它非常容易走进各个行业,一个“能看、能听、能理解、能规划”的智能系统,无论是应对繁杂的工作,还是规划日常生活,相信都能够成为人类的好帮手,真正实现“人机协作”。 |
|