从基础开始,先理解 AI 是什么(上篇)

AI资讯 7小时前 charles
225 0

从基础开始,先理解 AI 是什么(上篇)
点击蓝字 关注我们
从基础开始,先理解 AI 是什么(上篇)

你是不是也有这种困惑:

“什么是 LLM,跟多模态一样吗?”

“多模态是指多模多样的模式?”

“AGI 好像听过,但到底和现在的 AI 有什么关系?”

“AI 都能画画写文案了,它到底是怎么做到的?”

如果你对这些词“似懂非懂”,别担心。这不是你的问题,是这个行业太爱用缩写词和技术词了。

今天,我们就从最底层出发,用普通人的语言,把 AI 的“底子”讲清楚。


从基础开始,先理解 AI 是什么(上篇)
01
AI 是个“大家族”

我们经常说的“AI”(Artificial Intelligence),其实是一个统称,就像“生物”这个词一样,里面有各种门类和层级。

从概念上看,AI 可以分三层:

名词 含义 示例 是否已经实现
ANI(狭义人工智能) 会做特定任务的 AI Siri、语音识别、图像生成 已实现
AGI(通用人工智能)
能像人一样举一反三、自由思考
能自己学习任意知识,像人一样上班
还没实现
ASI(超级人工智能)
超越人类智慧
终结者》中的天网
科幻级别

我们现在日常用的 GPT、Claude、Midjourney、Copilot,都还是 ANI,功能很强,但不是“会自己思考的人类大脑”。


从基础开始,先理解 AI 是什么(上篇)
02
什么是 LLM?为什么大家说“AI 靠它崛起”

LLM,全称是 Large Language Model(大语言模型),你可以把它想象成一个“文字的老司机”——它读了大量书、网页、聊天记录,练就一身能看懂、能写、还能接你话茬的本事。

顾名思义,LLM 是通过海量语言数据训练出来的“语言理解+生成模型”,像一个语言世界的图书管理员,既能快速理解你说的,又能编出一段像人类写的文字。

它的本事在于:

能读懂人话(不是死记硬背,而是真能“理解”语义)

能根据指令和训练过的事自己写人话(比如写邮件、总结报告、编剧本)

为什么这几年 AI 进步飞快?核心原因就是越来越多人用 LLM,训练的样本海量增长,也导致LLM 变得越来越强

比如:

模型名称 发布机构 特点
GPT - 4 / GPT - 4o OpenAI GPT-4o 是 GPT-4 的升级版,从单模态升级支持语音、图像等多模态交互
Claude 4
Anthropic
对话自然,逻辑强,擅长长文处理
Gemini
Google
与搜索整合紧密,支持多模态输入
DeepSeek 深度求索 中文能力突出,偏向技术开发应用
Kimi 月之暗面 长文本理解强,用户体验优


从基础开始,先理解 AI 是什么(上篇)
03
LLM 和多模态是一回事吗?

很多人把它们搞混,其实不完全一样:

就像你有个特别能聊天的朋友——什么都能说上两句,这是 LLM(大语言模型);而多模态模型呢,就像你请了一个“能听会说还能看图看视频”的智能助理,能帮你干更多活儿,能力范围更大。

LLM 是专注“文字处理”的模型,核心能力是理解和生成自然语言,属于单模态

多模态模型(Multimodal Models),可以处理多种输入,比如文字、图像、声音、视频,具备“综合感官”能力。

举个例子:

你上传一张图片,对 AI 说:“这是什么菜?热量高吗?”

多模态模型(如 GPT-4o)可以“看图识别+理解语义+回答问题”。

?注意:多模态模型通常是在 LLM 基础上接入了视觉或音频模块。所以不是“完全不同的 AI”,而是 LLM 的进化版本。


从基础开始,先理解 AI 是什么(上篇)
04

GenAI 是什么?它比 LLM 范围更大

我们常听到的“AI 生成内容”技术,其实都属于 Generative AI(生成式人工智能),简称 GenAI。

它不只包含文字生成(LLM),还包括:

图像生成:Midjourney、DALL·E、即梦

语音合成:ElevenLabs、XTTS、讯飞

音乐生成:Suno、Udio、天工

视频生成:Runway、Pika、可灵

所以可以这样理解:

LLM 和多模态模型是 GenAI 的一部分。GenAI 是“能创作内容”的 AI 总称。


提到GenAI,还要提一下我们经常能看到的一个词——AIGC。

AIGC 全称“人工智能生成内容”,英文“Artificial Intelligence Generated Content”。

GenAI的产出结果,也就是生成的内容本身。只要是人没有全程参与创作过程,由 AI 模型通过学习海量数据,理解规律后自主生成新的原创内容,不管是文字、图像、音频、视频、代码等形式,都是AIGC内容。


从基础开始,先理解 AI 是什么(上篇)
05
AGI 是不是 AI 的最终形态?

AGI(Artificial General Intelligence)是人工通用智能。

简单说,它不是某项专长,而是 像人一样能迁移学习、独立思考、自由适应各种任务的 AI。

目前的 AI:

只能做它被训练过的事,哪怕很擅长,但并不理解背后的“为什么”。比如 ChatGPT 很会聊天、写作,但你让它下围棋,它就抓瞎;而 AlphaGo 能打败世界冠军,却不会写小说。这就像不同专业的高手,各有擅长,但不能指望一个钢琴家去踢足球。

从基础开始,先理解 AI 是什么(上篇)

一旦任务变化太大(如从写诗转向经济预测),就可能“失常”。

而 AGI:

能无提示地理解新任务

自我学习、自我反思、自我优化

可胜任人类的绝大多数智力活动

但现实是:AGI 还没实现,甚至可能还很遥远。

现在的 AI,依然是强大的“工具”,不是“意识体”。它的能力建立在庞大的训练数据、算法结构和算力支撑之上,本质还是概率预测机,不会思考、也不会有“自我”。


从基础开始,先理解 AI 是什么(上篇)
06

为什么理解这些很重要?

你现在做的每件事,很可能已经或即将用上 AI。

不懂这些,面对新产品只能看热闹;懂一点,可能就能用 AI 给老板整活儿了。

但如果你不了解:

GenAI 的本质,就容易误用或高估它的能力;

LLM 和多模态的区别,就可能选错模型、选错产品;

AGI 还在远方,你可能被炒作宣传误导,以为“AI 会替代你”。

我们不能“迷信 AI”,也不必“恐慌 AI”,关键是搞懂底层逻辑。

当你理解了它的边界,你才能真正把它用好。


总结:别再混淆这些关键词!

名词 本质 是否已实现
AI 总称,指所有人工智能
LLM
以文本为核心的语言模型
多模态模型
结合图像、语音等的综合输入模型
        ✅(部分产品)
GenAI 所有“能创作内容”的 AI 模型总称
AGI 能像人一样自主思考、泛化的“通才 AI”     ❌尚未实现

? 下一篇将进入“怎么用”的层面:MCP、RAG、Agent、Langchain 等到底该怎么理解、怎么组合用?

如果你觉得这一篇讲得还算清楚,欢迎转发给你那个“整天被术语绕晕”的朋友,一起进入“理解区”,不再被技术名词劝退。

END

版权声明:charles 发表于 2025年6月7日 pm5:21。
转载请注明:从基础开始,先理解 AI 是什么(上篇) | AI工具大全&导航

相关文章