AI产品的错位

AI资讯 6个月前 charles

11.7K 0 30

我一直是 AI 的坚定支持者。身边不少朋友问起 AI 能干什么，我会给出非常具体的答案：它可以帮你规划日程、调研资料，甚至在生活里处理很多琐碎但耗时的任务比如下单和砍价。我会根据他们的场景给出 Prompt 模板，尽量降低他们尝试的门槛。

但我这一两年向几百个人推荐了 AI，观察是大多数人用完之后的反馈相当冷淡。最常见的回应是：还好吧，没觉得多有用。有时候还会补一刀：还不如我自己上手做嘞。

这个反差倒没有浇灭我给 AI 带路的热情，但确实一直让我困惑：明明模型变得越来越强，为什么普通用户却一直很难感受到？除了 “AI 是一个需要学习的工具” 以外，还有没有什么更深层的原因？

最近一段时间，我更系统地对比了市面上几个主流 AI 客户端使用体验（Claude、Gemini 和 ChatGPT，也有 DeepSeek），才慢慢意识到，这种 AI 好不好用的感受错位，是因为在用户和模型之外，连接二者的产品设计出了问题。

AI 模型的能力确实在以惊人的速度演进。我们下面会介绍，它开始只是 Multi-Turn conversation，后来加入了 Multi-Modal 的能力。现在最先进的 AI，可以和各种工具交互，实现 Multi-Hour 的自主工作。

但现在的 App，大多数还停留在 Multi-Turn 的设计理念，跟 LLM 的能力差异巨大。所以当 AI 的智能通过一个不合适的交互介质呈现出来的时候，用户就会很抓狂。

比如 Claude App 是为了短时间对话设计的，一旦切到后台任务执行就断了。那 Claude 4 再牛逼，能在后台执行几个小时的任务也没用。这就像把一台 F1引擎塞进了桑塔纳里，牛逼吗？牛逼。好用吗？开起来跟普桑也差不多。

遗憾的是，这些 App 使用的细节，构成了用户感知的全部。绝大多数用户不知道这是 App 的问题，只会觉得 AI 不好用。这构成了 AI 产品的一个系统性的错位，也是这篇文章想详细讨论的话题。

#01

Multi-Turn，Multi-Modal 到 Multi-Hour Agency

近两年 AI 模型的能力，出现了三次跃变。先是学会了记住上下文，能多轮对话；接着是可以看图、听声音、分析视频；现在最新的模型，甚至可以自主运行好几个小时，完成复杂任务、自动调用工具、阶段性地总结和反馈。

这三次跃变，从 “能说” 到 “能看能听”，再到 “能做”，一步步把 AI 从一个问答工具推向了智能助手。OpenAI 在朝这个方向走，Google 在走，Anthropic 也在。

但问题是，我们今天大多数用到的 AI App，还是停留在两年前的那一代交互逻辑上。像是在一台桑塔纳，发动机已经逐渐升级成了 f1的发动机，但刹车和悬挂全都没变。这才是很多人感受不到 AI 有多厉害的根本原因：模型在进化，但 App 没跟上。

Multi-Turn：Chatbot 的开端

多轮对话，是今天所有主流模型最基础的能力。

ChatGPT 之所以成功，一个重要原因就是它不是像 Google 智能搜索那种问一句答一句的搜索框，而是能围绕一个任务持续对话的系统。这背后的关键技术是 Supervised Fine-Tuning（SFT），也就是用人类标注的多轮对话数据，去让模型学会怎么提取记忆，回答问题。

Claude 在这方面也表现不错。它很擅长对上下文进行归纳和引用，比如帮你读论文、总结长文档，或者多轮润色一篇文章，做得很棒。

在这个阶段，做 App 很简单，基本上只要维护好聊天历史，在 API 外面套个壳就差不多了。各家的体验也都差不多。唯一要注意的就是对大 context window 的支持。

比如 Gemini 2.5 系列模型支持 1 M 级别的 context window，这对于很多应用是非常重要的。但是它的网页端和客户端都会在用户输入了几千个 token（也就是占用了不到 1% 模型能力）的时候假死，导致几乎不可用。这是一个 App 没跟上的典型例子。

把产品做成 Chatbot 的这种设计，放在 2023 年没关系，大家刚开始用 AI 就是为了聊天。但现在模型已经不是单纯的聊天机器了，而是一个可以处理结构化任务的 Copilot 系统。如果 App 还停留在老思路里，就会极大地浪费模型的潜力。

Multi-Modal：从能说到能看能听

第二次跃变是多模态。今天主流模型都声称支持多模态，但差异很大。

Gemini 2.5 目前是这方面做得最彻底的。它可以原生看图、听音频、理解视频。而且不是简单地看，而是可以真正推理、组合、分析、总结。它背后的技术路线是，用不同的 tokenizer 结合 projection layer 把不同模态的信息（图像、声音、文本）映射到一个共享的表示空间里，让模型可以像看文字一样处理视频里的动作、语音里的语气。

OpenAI 的路线类似，但没有一个统一的模型可以又实现推理（类似 o3），又可以处理视频，音频和图像（类似 GPT-4o-realtime）。它的亮点是，允许图像作为工具调用的对象。

比如 o3 可以通过撰写 Python 代码对图像进行裁切、放大、识别图中细节，再把处理结果传回模型继续 tokenize 进一步分析。这种方式目前极大提升了它的多模态能力，甚至支撑了 “看图猜地点” 这种只有 o3 才能做到的变态场景。

Claude 目前对多模态的支持比较基础，只能进行图像识别，不能处理音频或视频。

但是从体验来看，最先进的 Gemini，反而是体验最差的一个。因为它的网页端和客户端根本不支持上传视频和音频，而只能上传图片。这是一个典型的模型活在 2026 ，产品还在 2023 的例子。产品没有适配模型的竞争力，用户体验自然也很难做出差异化。

Multi-Hour Agency：AI 真正成了助理

第三个变化，是 AI 模型开始有了持续运行，自主完成任务的能力。我们可以把这个阶段叫做 Multi-Hour Agency，也就是 AI 能够维持上下文、调度工具，连续完成一个耗时几十分钟甚至几小时的任务，而不需要你每次去踢一脚动一下。

这其实是 AI 变得真正可用的前提。很多重要的事，比如调研某个领域的新闻、规划一个完整的旅程、分析一个数据库、生成一段结构清晰的代码，这些都超出了问答机器人的范畴。它们本质上需要的是一个能思考、能调用工具补充信息、能一步步自动执行甚至动态调整计划的系统。

Claude 4 就声称自己可以连续跑七小时来完成一个特别复杂的任务。o3 也能调用很多工具，分阶段执行非常复杂的任务。

这些能力的实现，背后其实是对 HFRL（人类反馈强化学习）、函数调用、外部工具接入、长上下文等机制的不断调优。模型本身已经准备好了接管一段复杂流程，但 App 没准备好。

比如 Claude 模型再牛逼，iOS App 甚至 Mac App 只要熄屏就断掉，聊天记录都找不回。

从多轮对话，到多模态理解，再到长时间任务执行，模型的能力一层层叠加。而 App 的能力几乎原地踏步。模型已经不是那个我问你答的机器人，而是一个可以和你共同完成任务的数字助理。但客户端在产品设计层面还把它仅仅当成一个延迟更低、语气更自然的搜索引擎。

所以问题不在 AI 是不是够聪明，而是我们有没有构建出一个足够能承接这份聪明的产品结构。绝大多数时候，用户并不是在评价模型，而是在评价模型以某种形式被封装后的那层外壳。而那一层，很多公司（包括大公司）根本没花心思去做。

#02

OpenAI、Claude、Gemini 三大平台产品对比

说到底，AI 模型的能力现在已经高度趋同，都是大模型 + 工具系统 + 长上下文 + 多模态编码。但真正拉开差距的，不是模型能力，而是产品怎么把这些能力跟用户的应用场景结合起来。

我过去几个月持续在用 Claude、ChatGPT 和 Gemini，不光用了 API，也用了 GUI/App，不光用了 Web 端，也用了它们的 iOS App 和桌面端。整体感受是：三家公司都在强调自己有多强，但他们的消费级产品（除了 OpenAI）用起来都像是在半成品和试验品之间切换。这一章我们就从用户的角度，看看三家在客户端上的优劣。

Claude：模型扎实，App 是个半成品

Claude 3.7/4 这系列模型本身是很强的，尤其在长文本阅读、写代码、不偷懒这些方面，甚至比 o3 还要稳，Cursor 上收获了无数好评，是很多人的 go to model。但 Claude.ai 这个消费级产品的体验真是一言难尽。

Claude 的客户端有一个非常致命的问题：你只要切 App，推理就断了。不是说任务暂停或者重新连接，而是整个对话从历史里面直接消失。它不会告诉你中断了，但是任务状态直接变成空白，聊天在历史里也变成 Untitled。

不论是在 iOS 上熄屏，还是在 Mac 上把笔记本合上，都会触发这个问题。这个问题从根本上看，是因为 Claude 的消费级产品还没有从 Chatbot 的思路里跳出来，觉得 App 就是 API 的一个 wrapper 而已。所以它的架构高度依赖于客户端，把 stream 的维持、session 状态的保存，全部放在用户侧。

这在只跑一个短问答的时候没问题，但一旦跑复杂任务，就完全撑不住。它的 iOS App 实现也很初级，模型的输出一长，手机就发烫。所以模型再强，用户只会说一句话：不好用。

这里面唯一的差异化因素，可能是 Claude 桌面 App 是目前唯一集成了 MCP 的主流客户端。可以直接利用 MCP 把本地资源接入消费级的 AI 平台，用订阅而不是 Token 计费，这一点还是蛮实用的。

Gemini：模型很强，App 体验像个 demo

Google 的 Gemini 是一个更极端的例子：模型能力离谱地强，App 做得离谱地差。

AI Studio 是 Google 面向开发者的一个 debug 套件。在这个工具里，Gemini 是我目前看到支持最大 token window、最稳健的视频+音频+图片+文本混合分析的模型。

上传 100 万字文档没压力，跑个 10 分钟的论文总结也不掉线。你给它 100 个重复任务，要它做一些枯燥的重复处理，Gemini 也能不偷懒，不折不扣地完成。它的 Multi Modal，tool use，尤其是 instruction following 的能力是业界顶级的，我个人甚至认为它把第二梯队的模型，包括 Claude 和 GPT 都甩开了一大截。

问题是，这一切都只能在 Web 版的 AI Studio 里体验到。这毕竟是个面向开发者的工具。全程要盯着网页前台，手机锁屏就掉线，system prompt 每轮都会自动清空，没办法个性化，聊天记录的保存和分享完全依托 Google Drive，也很初级。

面向消费级用户，Google 主推的是 Gemini App。但这个 App，就……尼玛非常离谱的一个产品，感觉是产品部门专门做出来恶心 AI 部门的。

你 Gemini 2.5 模型不是 1 M context window 吗？好的，我让用户输入 10 k 左右 token 的提示词就把 UI 卡死，把你拉到跟其他 AI 同一个起跑线上。你 Gemini 2.5 不是处理视频和音频特别牛逼，别家都没有这个功能吗？好的，我在 UI 上就不允许用户上传视频和音频文件，这跟其他 AI 产品功能不就一样了吗。

2025 年年中才允许用户设置 Gemini 2.5 的系统提示（BTW 现在网页版还有 bug，移动版还没上线）。就算我终于找到一个场景可以用 Gemini App 了，也会发现它体现的智能和 AI Studio 里面的智能差距还是很大，会更厌恶用搜索来增加答案的广度，更倾向章口就莱，也不知道 system prompt 里面做了什么负优化。

所以很多人，包括我在内用了 Gemini App 之后第一反应：“就这？” 但其实他们可能没用到模型能力的一成。你得自己去研究 Prompt，自己去摸索 AI Studio 的用法，才能勉强挖出它的底层潜力。这对 99% 的用户来说是毫无可能的。

ChatGPT：产品团队最成熟的一家

相比之下，OpenAI 在产品的体验上吊打另外两家。这其实特别反直觉，因为我们提到 GPT 的时候，第一反应是最老牌的 LLM，模型能力业界最强，会下意识的觉得 OpenAI 主要靠模型来引领竞争，产品可能会没有时间精修。

但其实 OpenAI 模型第一的这个宝座岌岌可危，o3 虽然 tool use 还是顶级，但 instruction following 的能力还是不如其他两家。context window 的长度，多模态的能力（音频和视频理解），和价格也有相当差距。

与之相反的是，ChatGPT 的产品体验吊打全场，领先其他两家数个身位。它甚至可能是目前唯一可以用到背后 AI 模型七八成能力的产品。

具体我们来看几个场景：

任务异步执行：AI 有一个重要场景是，我们在路上使用手机，突然想起来用 AI 做一些调研。于是我们在 App 里面输入比如“调研一下 XXX”。然后最小化 App，把手机熄屏（也可以用杀掉 App 来模拟）。

这时候 ChatGPT 会继续在后台调研，打开屏幕，重新打开 App 会发现调研已经做好了，最新的结果就显示在屏幕上。但这个场景 Claude 会 100% 失败，这个聊天还能找到，但标题是 Untitled，内容为空。Gemini App 会大概率失败，整个聊天完全消失，但有小概率这个聊天对话过了一个小时莫名其妙又出现了，里面的内容是正确的。

这其实是产品设计思路的区别，只有 OpenAI 把 ChatGPT 定位成了一个能在后台帮用户长时间处理任务的工具。Claude 虽然在 API 上强调了这一点，但在消费级产品上并没有贯彻。Gemini 的思路也是类似的。
iPhone 拍照分析照片：如果用户启用了 iPhone 的 Raw 拍照的话，拍出来的照片是一个 dng 文件而不是 jpeg 或者 heic 文件。不论是故意的还是无意误触的，这其实是一个非常常见的场景，而且在 iphone 的相册里面很难看出来差别。

如果我们直接上传这个图片的话，Gemini 会报错与服务器的连接断开（什么鬼），Claude 会报错这个文件类型不支持。虽然不完美，但报错信息至少是对的。但 OpenAI 就知道先转成 jpg，然后上传。这个处理其实非常简单，工程成本很低，做不做完全看产品力，有没有真的去用这个 App，踩常见的坑，把细节抠好。
巨量文本输入：选中大量文本（比如 15 万字），粘贴进 AI App 或者网页。Gemini 在按了发送以后会直接卡死，如果你有耐心等个一两分钟可能会恢复。如果没有耐心把手机 app 放到后台的话，整个聊天像前面测试的一样就消失了。Claude 和 ChatGPT 都会报错说太长了，拒绝处理，但是稍微降低一点文本长度的话可以正常处理。

此外还有很多其他细节，比如能不能在手机端设置 system prompt，Deep Research 会不会有 live activity 的进度更新，个性化的程度有多深等等，就不一一分析了。

不过 OpenAI 也不是没有问题。比如 Web 端功能和 App 端的功能还是有差异，像基于 GitHub 和 SharePoint 的 Deep Research，只在 Web 端支持。此外截止目前还没有 MCP 支持等等。但从整体上讲，OpenAI 是目前唯一把产品设计和模型能力同等重视的公司。体验上没有大的槽点。

会不会只是产品还在迭代？

当然，我也不是不理解有些产品会做得克制一点。可能有人会说，Gemini App 没有加视频分析、Claude App 任务中断后不做提示，是因为还在 MVP 阶段，产品还没来得及做完，战略上选择先把模型上线、用户先跑一跑。

这种解释乍一听有道理，但问题是，如果 MVP 一直持续一年多，核心功能迟迟不上线，连最基础的 system prompt、任务不中断、文件上传报正确的错都做不好，那就不是 MVP 了，而是产品没有被认真对待。战略性克制和资源性敷衍之间，用户是分得清的。

另一个说法是：复杂的功能多数人也用不到，做太多反而压垮产品节奏，保持简洁才是对的。这其实恰好低估了 AI 产品的本质。AI 真正的价值，不在于替代一个搜索引擎或者知识问答工具，而是能够帮用户处理他们自己处理不了或者没时间处理的任务——比如长文档、跨模态素材、复杂规划。如果产品连这些任务都无法承接，那就注定会被用户视为没啥特别的，甚至是鸡肋。

总之，不管任务简单还是复杂，用户都不希望自己的输入白费，更不希望 App 无声挂掉。这不是高阶功能问题，而是基本的可靠性问题。而现在很多 App，连这一点都做不到。

#03

原因与机遇

回头来看，AI 模型本身的能力在今天广泛支持不同的生活场景已经不是问题。问题是，类似的模型，被装进了不同的公司、不同的部门、甚至不同的预算流程里之后，最终呈现给用户的样子差别大得离谱。

这也是为什么同一个 Gemini 模型，在 AI Studio 里表现出了惊人的视频理解和 instruction following，但 App 里笨了很多。这不是技术问题，是组织问题。

我们很可能面对的是不同 org 做出的两个产品，分别 report 给不同的 VP。在这种结构下，Gemini App 的产品经理很可能压根不知道模型最大的亮点是什么。他调研了一圈发现 ChatGPT 和 Claude 都支持上传图片，但没有支持视频，于是得出结论：那我们也不需要。殊不知视频理解本来就是 Gemini 最大的优势。(纯猜测，未必真实)

更诡异的是，AI Studio 反而做得更好。为什么？因为它是给开发者用的，很多是工程师自己做的，反而离模型更近。你说它是产品，不如说是调试工具。这种没有设计的设计，却比有产品经理但没资源支撑的 App 版本更好地释放了模型能力。

Claude 的问题是另外一种结构问题。它本质是一个 To B 导向的公司，API 才是主营业务，占了 85% 的收入，To C 客户端只是一个 “别人有我也得有” 的 feature parity 性质的展示窗口。

所以我们看到 Claude App 就非常随缘：能跑就行，用户断线不提醒，任务跑挂不保存，iOS 输出一长直接发烫。没人真正在意用户用它干活，只要能让人做个测试知道它的模型不错就够了。

反过来看 OpenAI，它是唯一一家 To C 和 To B 两条腿都必须站稳的公司。ChatGPT 是它的旗舰产品，占收入的 73%。更关键的是，它公司小、report chain 简单、产品和模型团队捆得紧。你很难想象一个 OpenAI 产品经理会不知道自己家模型可以识别视频。它能把这套能力接好，只是因为它的组织结构允许它接好。

所以回到我们这篇文章讨论的主题——为什么 AI 模型变强了，用户却没觉得好用？一个最扎心的答案可能是：不是产品本身难做，而是公司结构的限制。但这也意味着，机会其实还在。

眼下几大模型厂商都在比谁的模型更大、更多模态、更低成本，但真正拼产品体验的，几乎没有。这背后有结构性的障碍，也有路线上的盲点。他们默认模型强了，产品体验自然就会提升；只要能力高，用户就会留下来。这个假设，其实已经被 ChatGPT 和 Gemini App 之间的体验落差一定程度上证伪了。

不是所有团队都能把一个能力接好，也不是所有能力都会自动长出好体验。这是一个行业还没被充分讨论的结构性误区，反而给了第三方团队一个非常现实的切入口。

如果我们知道 Claude 4 的模型很稳，但 App 挂得厉害，那是不是可以接 API 做一个更稳定的异步任务 App？
如果我们知道 Gemini 2.5 在视频分析上吊打全场，但 App 连视频上传都不支持，那是不是可以干脆用 AI Studio 的示例代码来包一个轻量客户端，切进垂直市场？
如果我们知道所有 App 都还是聊天框思维，那是不是可以直接跳出对话范式，基于 Multi-hour 的任务编排来设计一个新的前端结构？

这些都是不靠做模型也能跑通的创新路径。而且它们不是可能有前景的产品，而是现在就存在的用户需求，只是还没人认真做出来。

所以我们回到文章的开头，AI 不是不好用，只是大多数人遇到的 AI，被封装成了一个错误的形状。模型很聪明，App 没跟上。这种体验上的落差，不是技术差距，而是产品设计和组织决策之间长期脱节的结果。

我们今天已经进入了模型不稀缺，体验才稀缺的时代。下一个 AI 产品的分水岭，也许就藏在你有没有发现这些断层之间的机会。