文章主要盘点下ChatGPT发布至今快1000天的时间内,用户视角的AI产品形态在经历一种怎么样的趋势和变化。
就讲三件事:(第1部分客观信息陈述有点长)
这些年用户可以感知到的AI升级总结起来就两点:要么是模型能力在模态上的进阶,要么是交互上的创新式体验。
从2022年至今主要的模型能力和产品体验进阶里程碑:

1️⃣
2022:模型有了“对话输出的能力”,代表产品是ChatGPT——文本模型
2022年11月30日,OpenAI发布的ChatGPT横空出世,它彻底改变了人类与AI交互的方式。与之前的AI系统不同,ChatGPT能够理解上下文,进行连贯的对话,回答问题、撰写文章、解释概念,甚至创作诗歌和故事。它基于GPT-3.5架构,通过强化学习训练而成,短短5天内注册用户就超过100万,两个月后突破1亿,创下互联网应用最快破亿的纪录。
ChatGPT的出现标志着AI从单向指令执行工具转变为能够理解、学习并与人类自然交流的对话伙伴,其采用的对话形式带来了质的改变,被证明是本世代最重要的设计决策。聊天界面随后被广泛模仿,影响了几乎所有后续消费级AI工具。这波生成式 AI 浪潮以自然语言为核心,而对话正是用语言交流的核心,这种范式会持续存在。

2️⃣
2022:模型有了“画图的能力”,代表产品是Midjourney——多模态
Midjourney的出现让AI绘画能力迈上了新台阶。这款由David Holz创立的AI绘画工具,能够根据文本描述生成令人惊叹的艺术作品。用户只需输入简单的文字提示,Midjourney就能创造出风格多样、细节丰富的图像。它的独特之处在于将AI领域两大突破——语言理解与图像创作能力结合,实现了计算机通过理解语言来创作图片的能力。
Midjourney在Discord平台上运行,形成了一个活跃的创意社区,用户可以相互学习、交流创作技巧。
2022年8月,基于Midjourney V3版本生成的AI绘画作品《太空歌剧院》在美国科罗拉多州博览会美术竞赛中获得数字艺术类别一等奖,标志着AI艺术创作首次获得主流艺术界的认可。

3️⃣
2023:模型有了“搜索的能力”,代表产品是ChatGPT和Perplexity——文本模型
AI模型获得了连接互联网的能力,ChatGPT通过集成搜索功能,使AI助手能够提供最新、最相关的信息。ChatGPT通过"Browse with Bing"功能,让用户能够在对话中直接
获取网络上的实时信息,不再受限于训练数据的时间截点。
这一升级使AI从封闭的知识库转变为开放的信息门户,能够回答有关最新事件、数据和趋势的问题。搜索能力的加入不仅提高了回答的准确性和时效性,还拓展了AI助手的应用场景,从简单的对话工具进化为强大的信息助手,为用户提供更全面、更及时的知识服务。
Perplexity 的创新之处在于采用了实时引用来源的交互体验,使答案可追踪验证。该功能被广泛模仿(包括 OpenAI 的网页搜索),解决了根本的信任问题:用户不仅要答案,更要答案来源的可信度。


4️⃣
2024:模型有了“生视频的能力”,代表产品是Sora——多模态
2024年春节的热闹事件,是OpenAI发布的文本生成视频模型Sora震撼了整个科技界。Sora能够根据文字描述生成长达60秒的高质量视频,具有电影级的视觉效果和连贯的叙事。它不仅能理解复杂的场景描述,还能准确呈现物理规律、光影变化和情感表达,甚至能够生成包含多个场景转换的复杂视频序列。
Sora的出现标志着AI从静态图像创作迈向了动态视觉内容生成的新阶段,为电影制作、广告创意、教育内容等领域带来了革命性的变化。它使普通用户无需专业技能和昂贵设备,就能将想象中的场景转化为视觉作品,大大降低了视频创作的门槛,开启了AI视频创作的新纪元。
遗憾的是Sora起了个大早,但赶了个晚集。一直到年底才开始对用户小范围商用。在这期间,国内的快手可灵、字节即梦均已提前发布了视频生成类产品上线用户心智。

5️⃣
2024:模型有了“代码编程的能力”,代表产品是Claude——多模态
Anthropic的Claude在代码能力方面取得了突破性进展。Claude能够理解、分析、生成和调试复杂的代码,支持多种编程语言,并能处理大型代码库。它不仅能根据自然语言描述编写功能完整的程序,还能解释代码逻辑、识别潜在问题并提供优化建议。其独特之处在于能够持续数小时专注于复杂的编程任务,保持上下文理解的连贯性,并能根据用户反馈进行迭代改进。
Claude的代码能力使软件开发变得更加高效,不仅帮助专业开发者提高生产力,也让编程新手能够更容易地入门,为软件开发领域带来了新的可能性。
也因此爆火了类IDE的编程工具Cursor,Cursor直接将 AI 创作流程直接整合到代码库中。某些功能让人顿生"代码编辑器本该如此"的感慨(如强大的 Tab 代码补全)。用户可以问 Cursor 任何关于的代码的细节问题并快速获得解答。Cursor 同时还融入了 AI 直接读写文件系统的强大能力,大幅提升了开发者的工作效率。

6️⃣
2024:模型有了“实时语音对话的能力”,代表产品是ChatGPT和豆包——多模态
ChatGPT和豆包推出的实时语音对话功能,使AI交互体验更加自然流畅。这些语音模型能够以接近人类的语调和节奏进行对话,反应速度快,几乎无感延迟,并且能够理解和处理各种口音和表达方式。
实时语音大模型实现了语音理解和生成的一体化,是真正意义上的端到端语音对话系统,这一升级使AI助手从屏幕上的文字交流工具转变为可以随时随地通过语音进行互动的伙伴,大大提高了使用便捷性,特别适合驾车、做家务或需要解放双手的场景,在情感陪伴,儿童教育方向上有很高的用户黏度。

7️⃣
2025:模型有了和用户“协作式办公的体验”,代表产品是ChatGPT的Canvas和Claude Artifacts——交互
ChatGPT的Canvas和Claude Artifacts引入了全新的协作式办公体验,彻底改变了用户与AI原来“乒乓球式的”交互方式。这些功能提供了专门的工作区,使用户能够与AI共同编辑、修改和完善内容。这种协作式办公体验使AI从被动的对话框接受指令执行者转变为积极合作的创作伙伴,大大提高了工作效率,特别是在需要反复修改和完善的项目中,为用户提供了更加流畅、直观的创作体验。
Canvas允许用户在一个可视化界面中与ChatGPT协作,支持实时编辑、内联反馈和版本控制,特别适合长篇写作和复杂编程项目。Claude Artifacts则提供了更强大的文档生成和管理能力,能够创建、组织和分享各种类型的内容。“ Artifacts ”功能证明AI协作将成为新型创作流程的核心,用户将与 AI 共同生成创意成果。

8️⃣
2025:模型可以展示“思考推理的过程”,代表产品DeepSeek——交互&模型
DeepSeek R1模型在2025年春节引爆了全球,“模型正在思考”的用户体验彻底改变了AI展现给用户的决策透明度。虽然DeepSeek R1不是市场上的第一个推理模型(第一个是Open AI 的GPT o3模型),它做出了一个关键的设计决策:暴露模型的“思考过程”。它展示了它是如何得到最后的结论的,这种"显式推理范式"使AI的决策过程变得透明可见,用户可以理解AI为什么会给出特定答案,并在必要时纠正其推理路径。
在数学解题、代码编写、逻辑分析等需要严谨思考的任务中,DeepSeek-R1表现出色,准确率大幅提升。这一突破不仅增强了用户对AI决策的信任,也为教育领域提供了新工具,帮助学习者理解复杂问题的解决思路,同时为AI安全和可解释性研究开辟了新方向。
这其实很类似“进度条”对网页应用体验的革命性影响。越是复杂的任务网页请求会越耗时,若体验上无反馈则会引起用户的焦虑,进度条的展示让用户知晓系统正在工作。

9️⃣
2025:模型可以看见并理解“真实的世界”,代表产品是Gemini Live和豆包——多模态
Gemini Live和豆包通过强大的多模态能力,实现了对真实世界的实时理解。AI助手能够通过摄像头实时"看到"用户周围的环境,理解视觉场景并与之互动,从单纯的语言或图像处理工具进化为能够感知和理解物理世界的助手,为用户提供情境化的帮助,如识别植物、翻译菜单、解释艺术品、辅助学习等,开创了人机交互的新范式。
Gemini Live支持超过45种语言的自然对话,能够识别和分析用户展示的物体、文档、屏幕内容,甚至理解复杂的视觉场景和动作序列。豆包则基于VideoWorld模型,能高效压缩和理解视频帧间的变化信息,在保留丰富视觉信息的同时进行决策。

?
2025年,模型可以真实“操作完成任务”,代表产品是Manus和ChatGPT的Operator——交互&工具
3月份Manus的出圈,很大程度上得益于其“执行过程可分享传播”的设计思路,即便没有Manus资格的同学也都可以看到AI的执行过程。Manus能够端到端地完成复杂任务,如简历筛选、房产研究、股票分析等,并在云端异步运行,完成后直接交付成果。
而早在2月份ChatGPT的Operator功能虽然也很强大,但仅限200美金的Pro用户可用,其能够模拟人类在电脑上的操作,如点击、滚动、输入文字等,实现对网页和应用程序的交互控制,能够浏览网页、填写表单、预订服务等。
这些功能使AI从被动的信息提供者转变为主动的任务执行者,大大节省了用户时间,提高了工作效率。用户只需描述目标,AI就能自主规划路径并完成任务,开创了人机协作的新模式。

?
2025:模型进化了“超强的记忆能力”,代表产品是ChatGPT——模型
ChatGPT推出的全局记忆功能彻底改变了AI与用户的长期互动体验。其能够记住并智能引用用户过往的所有对话内容,包括偏好设置、特定指令和历史交流,从而提供更加个性化和连贯的服务。
与之前仅限于单次会话的记忆不同,全局记忆能够跨越多个对话,保持用户意图的连续性,使AI助手越来越了解用户的需求和习惯。这种能力特别适用于长期项目跟踪、学习进度监控、个人助理等场景,大大提升了用户体验的连贯性和个性化程度。
同时,ChatGPT还强化了隐私控制,用户可以选择性地管理AI的记忆内容,确保在便利性和隐私保护之间取得平衡。
从最近的一些市场声音可以看到,得益于长期记忆,用户觉得ChatGPT已经成为“镜像的自己”,在很多交流中展现出了“比你还了解你”的能力。

做个发展趋势的总结:多模态,长时任务,可视化信任,工具平权大统一
现在的问题是:下一阶段AI产品用户体验的跃进是什么?
?
OpenAI现在就是强者恒强,你们可以抄袭我,但你们永远也不是我
从前面的其实可以看出来,这个世界AI能力的发展,OpenAI确实起到了很大的牵引作用,这是不能否认的事实。几乎没有一个领域是在OpenAI设计之外的。
从最早定义了对话的交互体验,最早推出了Plugin这类模型+工具的业态(后虽然失败但我认为MCP明显是有了前车之鉴的升级),最早推出了推理模型(虽然未开放,后导致在R1的狙击下略显被动),最早推出了DeepResearch如今是个助手都会标配的深度整理智能体,以及最早发布Operator这种面相电脑桌面操作的智能体。
?
"一个智能实体,拥有T型技能,具备广泛能力,可帮助完成几乎所有任务。"
上个月流传出一份「高度机密」的OpenAI内部战略文档,揭示了ChatGPT在2025年上半年的核心战略。这份重要资料由TechEmails公布,来源于美国诉谷歌案(U.S.v.Google 2024)。这份文档网上已经可以搜到,google一下。
这份泄露的文件不仅详细规划了ChatGPT如何从一个简单的聊天机器人向「智能超级助手」转型的全盘计划,还揭示了OpenAI所面临的最大竞争对手。文件中提到,OpenAI将竞争对手分为两类:第一类是消费级AI聊天机器人市场的参与者,包括Claude、Gemini、Copilot和MetaAI;第二类则是更宏大的目标,即打造超级助手并进军通用人工智能的市场。
根据文档,OpenAI对ChatGPT的重新定位是其战略的核心。ChatGPT不再仅仅是一个聊天机器人,而是要发展成为真正的「智能超级助手」。文档中明确定义了这一概念:
"一个智能实体,拥有T型技能,具备广泛能力,可帮助完成几乎所有任务。"
这意味着,ChatGPT的目标是成为一个能够深刻理解用户需求的智能助手,成为用户与互联网之间的桥梁。以及最后这句话“it's just ChatGPT”:我不是任何别的产品,我就是ChatGPT。

根据泄露的文档,OpenAI在2025年上半年将专注于两个战略方向:
✴️
对未来已经明牌的GPT5模型和颠覆式硬件的期待
我现在无比期待下半年GPT5的模型和功能融合态,这是现在普遍对GPT5模型能力的猜测。在用户体验层面,也许就是一个更极简的唯一对话窗口,不再有当前各种模型和功能的选择。

更无比期待2026年OpenAI和Jony Ive的新硬件产品。纵然有Rabbit R1、AI PIN各种随身类硬件产品的探路,但我想无论如何应该不会再做一个类似的随身类小手机,而应该是更具有用户ID属性和资产属性的私密型设备。

?
回到很容易理解的视角:一个刚毕业进入公司的实习生
把这当做一个类比看待的话,我们当前可能正处于第4-5阶段之间。
?
但也许我们还要等待四个场景体验的突破
=======================
作者林一夕,活跃于几家科技大厂近20年,完整经历过移动互联网、区块链、在线教育、AI大模型四轮行业周期,每一次转型都踩在了风口点上。2024年开始写作本号,希望能给你讲清楚AI的趋势和各种新门道。