LLM在现实中的赋能
LLM的发展历程
大语言模型(Large Language Model, LLM)是一种基于深度学习的、参数规模巨大的语言模型,通过在海量文本上进行自监督预训练,获得强大的语言理解与生成能力。它在自然语言处理(NLP)领域实现了任务形式的“大一统”——即用一个通用模型架构和生成式范式,统一处理翻译、摘要、问答、推理等多种任务,被视为迈向通用人工智能(AGI)的重要技术路径之一。
那么他是如何发展的呢?
1 | 自然语言处理(NLP) |
LLM的产生为了就是解决人类进入下一个AI时代的产物
LLM的现状
从“大模型”走向“强智能体”,追求高效、可控、多模态、可落地。
🔑 四个关键词精炼总结:
关键词 | 说明 |
---|---|
智能体(Agent) | LLM 不再只是聊天,而是能自主规划、调用工具、执行任务的“AI大脑”。 |
效率优先 | 模型不再盲目变大,小而强的模型(如Llama-3、Phi-3)成为主流。 |
多模态融合 | 文本、图像、音频、视频统一处理,迈向“全感官AI”。 |
开源+实用化 | 技术 democratized,企业可私有部署,AI深入办公、编程、客服等场景。 |
LLM可以帮忙我们做什么
在日常生活中LLM可以做的事情就多了,在当今的世界里我们可以把他看作是未来AI的前身。我们也许曾经看过很多的的科幻电影,比如说在《我,机器人》中,电影里每个人家里都有机器人,机器人保姆,机器人警察。他们的大脑就是是现在多模态LLM的最终形态,能够接受文字、视频以及音频,最终产生一个决策,进而做出对应的动作。这些对应的决策会被一个规则而规范,类比现在就是每个语言模型在使用之前做的角色的预设,设置预订的角色prompt,这样LLM就能够按照你预设的规则来对输出做出限定,从而LLM不会做出超出预设范围之外的事情。下面我再给大家列举一些具体的例子吧
🌰
- 日常的问答web,从2022年底的GPT第一版的web的爆红,开始代替或挑战日常面向Google或者文档编程
- 企业或者个人知识库,将整个文档输入到LLM的中,问一些有关业务的问题,在一定程度上能够代替一个专业的BA
- PPT助手,当我们在智能体中,提出相应的要求,让智能体给我们生成对应主题PPT的时候,ai就能够根据我们的要求,组织如何产生对应的ppt进而调用api生成对应ppt
- vibe coding,让ai和IED工具深度结合,例如copilot、cursor、windsurf等这些fancy的编程ai组手,能够帮助我们在日常枯燥的重复性编码释放出来,进而去做一些有创造性或者设计层面的事情
- 智能客服,经过特殊行业数据的训练或者对通用大模型的微调,通过对客户的语音或文字输入来做出对应的相应,进而减少人工客服的数量
- 智能机器人&智能车机,这些硬件设备,通过识别人类对他们发出的语音或者他们看到的东西转换成输入,进而获得对应的输出
- 自定义智能体,使用MCP
其实经过这些年的发展,智能体或者说NLP给我们解决的问题一直不知不觉的在我们的身边不断的积累渗透,也在不断地改变着人们的生活。
LLM有什么组合拳
单一的玩大模型,就是简单的输入数据,然后大模型给你输出数据。输出的数据没有边界感,可能就是纯纯的creative的数据,不过也有预测得很好的模型。但是这些也就停留在使用大模型做一些文字性的输入输出,然而作为大模型能做的事情可不止有输入输出,在上一节 LLM可以帮忙我们做什么?
中提到的种种应用场景都是👇🏻几种模式的产物
agent
这个名词我也不知道可以用什么中文来解释,总之在LLM中抽象的意思是指,让LLM具有自主决策的使用不同工具的能力,不仅仅只是一个给出相应的生硬的回答。比如说有以下的场景 我想知道当前的西安的天气是什么
- 交互过程中没有agent
1 | 问:你好,请你告诉我现在的天气怎么样 |
- 交互过程中有agent
1 | ## Weather for Xi'an, China: |
通过以上两个例子可以清晰的发现,在agent的加持下llm的回答更加像人,也更具有实时性,为什么呢。因为在agent模式下,可以让LLM自我做决策使用不同的工具来获取更加准确的答案。因为在我的输入中都提到了 <span style='color:red'>
今天,具有较高的时效性。LLM都是使用过往的数据进行训练,如果没有agent框架的话,LLM是无法使用web search的功能来获取最新信息。说到这里,大家应该有更具体的认知了吧。说白了就是让LLM能够像人一样,在不同的场景下使用不同的工具来做出反馈。所以有了agent的加持,帮助我们日常的工作例如,编码、画图以及客服机器人等就能变得信手拈来。
实现agent主要可以通过代码和可视化编排两种方式来实现
代码方式
目前有一些主流框架来实现LLM的自主决策
- langchain
- LlamaIndex
- AutoGen
- CrewAI
- OpenAI Agents SDK
- Google Agent Development Kit (ADK)
- MetaGPT
- PydanticAI
可视化编排方式
- dify
- langflow
RAG
在之前一篇文章中提到过General understanding about RAG
RAG + agent
当我们开始与LLM交互的时候,LLM首先会通过RAG技术先查阅本地知识库中的数据是否具有较高的时效性,通过LLM自行判断是否还需要继续通过agent框架来调用工具来获取数据,这种模式也会让回答更加的准确&实时。。对于上述的模式,目前我接触最多的就是vibe coding。其中比较典型的工具cursor、copilot、windsurf以及Trae。其中RAG中使用的知识库就是每个代码库中的代码,而agent使用的工具shell命令行。通过我们的输入,然后这些AI IDE就可以帮助我们生成对应的代码。
总结
在AI高速发展的今天,合理的使用LLM在日常工作中可以在一定程度上提高工作效率。将一些重复而又有规律的事情交由这些agent来完成,我们可以只做一些后期的检查工作。目前agent框架已经被广泛的应用在各个领域中,极大的促进了LLM多模态技术的发展,为以后AI的发展也奠定了一系列的基础。虽然LLM给我们带来了这么多便利,由其引发的一系列问题我们也是不能忽视的,LLM 在生产中的问题主要集中在 不确定性(幻觉、稳定性)、安全合规(隐私、监管)、成本性能(延迟、费用)、集成复杂度。所以很多项目在落地时,会结合 RAG、Agent、Guardrails、监控与审计 来降低这些风险。
参考
- Title: LLM在现实中的赋能
- Author: Xiao Qiang
- Created at : 2025-09-17 11:37:59
- Updated at : 2025-09-24 09:48:01
- Link: http://fdslk.github.io/LLM/agent/RAG/2025/09/17/LLM在现实中的赋能/
- License: This work is licensed under CC BY-NC-SA 4.0.