介绍
到了 2024 年,人工智能代理将不再是小众兴趣。各行各业的公司都在更加严肃地考虑将代理整合到他们的工作流程中——从自动化日常任务,到协助数据分析或编写代码。
但是幕后真正发生了什么?人工智能代理是否达到了他们的潜力,还是他们只是另一个流行词?谁在使用它们,是什么阻止其他人全身心投入?
我们调查了超过 1300 名专业人士,以了解 2024 年人工智能代理的状态。让我们深入研究下面的数据。
洞见
首先,什么才是代理?
在 LangChain,我们定义一个代理为一个使用 LLM 来决定应用程序控制流的系统。就像自动驾驶汽车的自主级别一样,也存在代理能力的谱系。
采用 Agent 如同硬币投掷 —— 但不影响几乎每个人都有计划使用它
代理竞赛正在升温。在过去的一年里,许多代理框架获得了巨大的人气——无论是使用 ReAct 结合 LLM 推理和行动,多代理协调器,还是一个更可控的框架,如 LangGraph.
并非所有关于代理的讨论都是 Twitter 上的炒作。大约 51% 的受访者企业正在使用代理进行生产。当我们按公司规模查看数据时,中型公司(100-2000 名员工)在使用代理进行生产方面最为积极(占 63%)。 令人鼓舞的是,78% 有积极的计划将代理尽快投入生产。尽管很明显人们对人工智能代理的兴趣很大,但实际的生产部署对许多人来说仍然是一个障碍。
你的公司现在有投入到生产的代理吗?
您是否正在开发一个代理,并计划将其投入生产?
我们同样看到公司正在超越简单的基于聊天的实现,转向更先进的框架,这些框架强调多代理协作和更自动化的能力。
尽管技术行业通常被认为是早期采用者,但对代理的兴趣正在所有行业中获得关注。在非技术公司工作的受访者中有 90% 已经或计划将代理投入生产(几乎等同于技术公司的 89%)。
主要代理用例
人们使用代理做什么?代理处理日常任务,同时也为知识工作开辟了新的可能性。
代理机构的主要用例包括进行研究和总结(58%),然后是简化任务个人生产力或协助(53.5%)。
这反映了人们希望有人(或某物)为他们处理耗时任务的愿望。用户不必为文献综述或研究分析而筛选无尽的数据,而是可以依赖人工智能代理从大量信息中提炼关键见解。同样,人工智能代理通过协助处理日常任务,如安排和组织,来提高个人生产力,使用户能够专注于重要的事情。
效率提升并不仅限于个人。客户服务(45.8%)是另一个主要的代理使用案例领域,帮助公司处理查询,排除故障,并加快跨团队的客户响应时间。
依你之见,目前最适合智能代理执行的任务有哪些?
安全总比遗憾好:需要追踪和人类监督以确保代理受到控制
能力越大,责任越大——或者至少需要对你的代理进行一些刹车和控制。追踪和可观测性工具在必须拥有的控制列表中名列前茅,帮助开发者了解代理的行为和性能。大多数公司还在使用护栏以防止代理偏离轨道。
你们对代理有什么控制措施?
当涉及到测试 LLM 应用时,离线评估(39.8%)与在线评估(32.5%)相比,这更频繁地被提及作为一种策略。这可能说明了监控实时性能的难度。在填写的回复中,许多公司也有人类专家手动检查或评估回复,以增加一层预防措施。
尽管人们对代理寄予了极大的热情,但在允许代理走多远的问题上,大多数人采取了更为保守的态度。很少有受访者允许他们的代理人自由地阅读、写作和删除。相反,大多数团队只允许只读工具权限或者需要人类批准更重大的行动例如写入或删除。
你的代理拥有什么样的工具权限?
不同规模的公司在处理代理控制时也会有不同的优先级。不出所料,大型企业(2000 名以上员工)更加谨慎,严重依赖”只读”权限以避免不必要的风险。他们也倾向于将护栏与离线评估在客户看到任何响应之前,在预生产中捕获回归。
按公司规模划分的工具权限
与此同时,小公司和初创公司(少于 100 名员工)更注重追踪,以了解他们的代理应用程序中发生了什么(而不是其他控制)。从我们的对话中,小公司倾向于专注于发货,并通过查看数据来理解结果;而大型企业则在各个领域实施了更多的控制。
按公司规模控制代理
尽管非科技公司和技术公司的代理控制采用率相似,但在那些在生产中使用代理控制的公司中,技术公司更有可能使用多种控制方法。51% 的技术受访者目前使用 2 种或更多的控制方法,与仅有其他部门 39% 的受访者. 这表明,科技公司可能在构建可靠的代理方面走得更远,因为高质量的体验需要控制。
用于控制或护栏的方法数量
进入生产过程中代理的障碍和挑战
保持 LLM 应用程序的性能质量高——无论是回应是否准确,还是是否遵循正确的风格——并不容易。
在受访者中,性能质量是最重要的关注点——比成本和安全性等其他因素重要两倍多。
使用 LLMs 控制工作流程的代理的固有不可预测性引入了更多的出错空间,使得团队很难确保他们的代理始终提供准确、上下文适当的响应。
在生产中投入更多代理的最大限制是什么?
对于小型公司尤其如此,性能质量远远超过其他考虑因素,有 45.8% 的人将其作为主要关注点,相比之下只有 22.4% 的人关注成本(下一个最大的关注点)。这一差距突显了可靠、高质量的性能对于组织将代理从开发转移到生产的重要性。
尽管质量仍然是企业最关心的问题,但这些必须遵守法规并更敏感地处理客户数据的大公司也普遍存在安全问题。
不同公司规模部署代理的障碍
挑战不仅仅在于质量。从手写回答中,许多人对构建和测试代理的最佳实践 表示困惑,特别是,两个主要障碍突出:知识和时间。
-
知识:团队常常难以掌握与代理合作所需的技术知识,包括针对特定用例实施它们。许多员工仍在学习如何操作,需要提升技能以利用人工智能代理
-
时间:构建和部署所需的时间投入是巨大的,特别是当你试图确保代理可靠地执行时——这可能需要调试、评估、微调等。
代理成功故事:Cursor 抢尽风头
最炙手可热的人工智能代理应用
Cursor 在我们的调查中,它作为最热议的代理应用摘得桂冠,紧随其后的是 Perplexity 和 Replit。
Cursor 是一个由人工智能驱动的代码编辑器,它通过智能自动补全和上下文帮助来帮助开发人员编写、调试和解析代码。
Replit 还通过设置环境、配置,并让您在几分钟内构建和部署功能齐全的应用程序,从而加速软件开发周期。
Perplexity 是一个由人工智能驱动的答案引擎,它可以回答复杂的查询,并在其响应中使用网络搜索和链接来源。
这些应用程序正在推动代理能做的极限,表明人工智能代理不再只是理论上的——它们今天正在生产环境中解决实际问题。
人工智能代理采用中出现的主题
从我们的书面回复中,我们可以看到随着组织将人工智能代理引入其工作流程,他们面临的一系列不断演变的期望和挑战。
人们对人工智能代理的这些能力感到钦佩:
管理多步骤任务
代理能够进行更深层次的推理和上下文管理,使它们能够处理更复杂的任务。
自动化重复性任务
人工智能代理继续被视为自动化管理任务的关键,这可以释放用户的时间,让他们从事更具创造性的问题解决。
任务路由和协作
更好的任务路由确保正确的代理在正确的时间处理正确的问题——特别是在多代理系统中。许多人想知道如何有效地在代理网络中进行任务协调和协作。
类似人类的推理
与 LLM 不同,AI 代理可以追溯他们的决策,包括时间旅行、回顾和根据新信息修改过去的决策。
但是,对于构建代理的团队来说,也有需要考虑的挑战。这包括:
理解代理行为的障碍。一些工程师提到了他们向公司其他利益相关者解释人工智能代理的能力和行为的困难。有时,额外的步骤可视化可以解释代理响应中发生了什么。其他时候,大型语言模型仍然是一个黑匣子。解释性的额外负担留给了工程团队。
尽管存在挑战,但以下领域仍然值得关注:
对开源人工智能代理的兴奋
人们对开源人工智能代理有明显的兴趣,许多人提到集体智能如何加速代理的创新。
对更强大的模型的预期
许多人都在等待下一个人工智能代理的飞跃,由更大、更强大的模型驱动——这样代理将能够以更高的效率和自主性处理更复杂的任务。
结论
随着公司开始重塑工作流程,并以大型语言模型(LLM)为主导,改善决策制定和提高人类生产力,整合人工智能代理的竞争已经开始。
但是,尽管兴奋度很高,公司也意识到他们必须谨慎行事,植入正确的控制措施来驾驭新的用例和应用。团队渴望尝试,但也很谨慎,他们正在尝试使用框架来保持他们的代理响应高质量和无幻觉。
展望未来,能够破解可靠、可控代理代码的公司将在下一波人工智能创新中获得先机,并开始为智能自动化的未来设定标准。
调研方法论/范围
前 5 名产业:
- 科技(60% 的受访者)
- 金融服务(11% 的受访者)
- 医疗保健(6% 的受访者)
- 教育(5% 的受访者)
- 消费品(4%)
公司规模:
- < 100人(51% 的受访者)
- 100-2000人(22% 的受访者)
- 2000-10000人(占受访者的 11%)
- 10000人以上(占受访者的 16%)
原文链接:State of AI Agents
本文使用 🐝 A C(Collect) -> T(Transform) -> P(Publish)
automation workflow for content creator. 全自动采集 - 翻译 - 发布
留下评论