特征工程、模型结构、AIGC——大模型在推荐系统中的3大落地方向｜文末赠书

AI资讯 1年前 (2025) charles

5.6K 0 50

这里是「王喆的机器学习笔记」的第四十五篇文章。今天我们谈谈一个搜广推行业这两年怎么都绕不开的一个话题，大模型在推荐系统中的应用。两年前，我们可以说大模型是推荐系统的未来，但如今，大模型对推荐系统的改造已经如火如荼的发生着，很多头部公司都拿到了显著的收益。这篇文章不谈未来，不谈学术，就谈业界已经发生的切切实实拿到收益的大模型应用方向。

大模型影响推荐系统的三个层次

谈具体的应用之前，我们先从宏观上理解一下大模型的出现对推荐系统到底意味着什么。

就像在改造推荐模型时，我们一定要清楚信息增量在哪、模型结构的优化点在哪一样，我们并不是因为大模型这个技术比较 fancy，所以才把大模型施加到推荐系统之上，而是因为大模型确确实实能够为推荐系统带来知识和模型的全新变化，让推荐效果受益，才应用大模型技术的。

因此我想先从宏观上解释一下大模型对推荐系统的实际意义到底是什么。我的理解中，大模型宏观上在三个层级上改变了这个世界，也同样是在这三个层次上改变了推荐系统。

一、大模型改变了“知识学习”的方式

大语言模型的出现，特别是多模态大模型的出现，毫无疑问改变了 AI 学习理解知识的方式。传统的深度学习推荐模型对知识的学习其实是封闭式的，它依赖人工的内容型特征的筛选和构造来学习知识，同时它的知识范围一般限于公司的内部推荐数据。而大模型的知识学习是开放式的，一个大模型就可以融会贯通开放世界中能获取到的几乎所有知识，这是之前没有技术能够达到的。

这就带来了推荐系统在“知识输入”上的革命。大模型融合的开放世界知识将带给推荐系统丰富的增量信息，多模态大模型对于图片、视频的理解能力带来了更为丰富的多模态知识输入。这对于推荐系统的特征工程、冷启动、内容理解的意义重大。

二、大模型改变了“智能体”本身

当今的大模型结构一般是基于 transformer 结构的生成式模型结构。大模型的结构和传统的深度学习推荐模型区别甚大。本质上，推荐模型是一个分类模型或排序模型，而大模型是生成式模型。在深度学习推荐模型 2021 年之后遇到效果提升的瓶颈之时，大模型的生成式模型结构是不是推荐模型的新答案，新范式？在大模型改造了智能体的结构之时，它能否也颠覆推荐模型，带来新的增长极，这是所有人期望去探索的。

三、大模型开始创造一个”新世界“

OpenAI 在发布 Sora 之时，喊出了“Sora 是这个世界的模拟器”的口号。大模型最大的野心其实是完全创造一个新的虚拟世界。回到推荐系统领域，其实推荐系统一直以来的使命是帮助人发掘感兴趣的信息和内容。但大模型极强的内容生成能力，让“个性化内容生成”成为可能。也就是说，大模型有可能越过“推荐”这个环节，直接为用户创造个性化内容，这才是大模型可能带给推荐系统最大的革命。

从宏观上厘清了大模型革命的三个层次，我们才能脚踏实地的探索那些可能落地的应用。下面列出一些经过我筛选的，并且也有一些落地经验的大模型推荐系统应用方向。

理解世界——大模型对

推荐系统知识获取方式的改造

下面的表格对比了大模型在知识层面上相比传统推荐系统的不同，可以发现，大模型的知识与推荐系统的知识是“完美互补”的关系。大模型的知识是开放的、多模态的，它从开放世界学习到的外部知识将给推荐系统带来大量的“新鲜血液”；但与此同时，大模型缺乏推荐系统内部的用户行为信息，这也就意味着大模型无法完全替代推荐系统的知识体系。最合理的方式是结合二者的优势，将大模型的世界知识输入到推荐系统中去，提升推荐系统的效果上限。

对比曾经红极一时的基于知识图谱的 RippleNet，KGAT 等 GNN 方案，大模型其实是在一张包含了世界知识的知识图谱上训练的，而其生成的对于每个知识节点的 Embedding 显然具备更丰富的相似性关系。所以从知识输入的角度来说，大模型对知识图谱 GNN 方案有着降维打击似的优势。而相比个性化的构造一些内容型 / 知识型特征输入推荐模型这种小打小闹的方案，大模型也显然具有更强的通用性，所以我们几乎可以得出结论：

大模型相比传统的知识图谱、人工构造内容型特征等知识输入方式，无论是在知识总量，还是知识 Embedding 的质量上，都具备明显的优势。今后在考虑构造知识型 / 内容型特征时，大模型几乎可以说是最优的解决方案。

电影知识图谱

明确了方案的优势，那么从做法上来说，有哪些方式把大模型的知识喂给推荐系统呢？主要有两种。

第一种是 LLM 生成 Embedding 后输入推荐系统。对于 LLaMA 这样的开源大模型来说，我们可以知道模型所有的参数，也可以对模型进行改造，所以在预训练完成之后，大模型可以被当作一个多模态特征的编码器，把多模态特征转换成同一隐空间内的 Embedding，这样就可以与深度学习推荐系统无缝衔接。

第二种是 LLM 生成文字 Token 后输入推荐系统。对于 ChatGPT 这样的闭源大模型来说，我们无法让模型直接生成 Embedding，而只能通过它的 API 生成 Prompt 对应的 token 序列。这时 token 序列就可以成为大模型向推荐系统传播知识的媒介。当然在推荐模型中 token 还是会被转换成 embedding 来参与特征交叉。

大模型知识喂给推荐系统的两种方案

本质上，多模态大模型这里被当做了一个功能强大的 encoder，过去我们想构造一个多模态推荐系统，还需要为相应的模态分别构建 encoder，现在一个预训练的多模态大模型，或者是成熟大模型公司的 api 就解决所有问题。具体的方案有很多，比如下图的 MoRec 使用 Switch 游戏的介绍图片和介绍文字构建多模态特征，进行游戏推荐。

MoRec 融合多模态特征的过程

比如在 MKGAT（Multi-modal Knowledge Graphs for Recommender Systems）方案中，把图片，文本描述信息，结构化信息等多模态的 Embedding 通过 FC layers 整合起来，形成更全面的关于物品内容的 Embedding 表达。MKGAT 其实是一个比较老的方案，当时的图片类信息还是采用 resnet 作为一个编码器，现在通用的做法就是替换成大模型把图片转换成 Embedding 或者图片描述型 tag 后输入推荐模型。

MKGAT 方案中的多模态 Embedding 融合方案

再比如快手的多模态推荐模型方案 EM3（End-to-end training of Multimodal Model and ranking Model）。可以看到其最大的特点是用多模态大模型抽取出用户行为历史物品和目标商品的内容特征，Embedding 化后供后续模型做特征交叉。值得注意的是，ID 型特征还保留在模型中，因为 ID 特征和多模态内容型特征是互补的关系，二者包含的信息是不可相互替代的。

快手的多模态推荐模型 EM3

总的来说，不管这些方案的结构是怎样的，训练方式是预训练还是 E2E 训练，我们只要记住一件事情就可以理解他们的核心思路，那就是他们无一例外都在利用多模态大模型的能力把多模态的信息转换成模型可以学习吸收的 Embedding 或者文字 token。也无论相关的学术词汇多复杂，比如知识增强，大模型知识图谱，大模型特征工程等等，都可以归为这一类，那就是利用大模型改变推荐系统学习知识的方式。

改造世界——大模型对于

推荐模型的改造

大模型改造推荐系统的第二个层级是对推荐系统本身推荐方式的改造，或者更具代表性的是对推荐模型本身的改造。这一大趋势携带着所有推荐系统工程师们的一个深切的希望——深度学习的红利逐渐枯竭之后，推荐模型新的发展范式到底在哪里？

对于这一新范式的追寻，其实也经历了三个小的发展阶段。第一个阶段是探索期，甚至带着点为了在推荐系统中应用大模型而应用大模型的追热点时期。这一阶段的典型产物是一堆有玩具性质的 prompt 推荐系统。比如亚马逊的研究人员给出的一个解决方案，PALR（Personalization Aware LLMs for Recommendation，个性化感知大语言推荐系统）。它的主要推荐流程是把用户的历史行为，和候选物品的相关信息统统通过 prompt 的方式输入给大模型，让大模型自己来进行个性化推荐

PALR 的基本推荐流程

它的一般流程是，大模型先利用用户的历史行为推断出用户的基本兴趣画像。如下：

然后，再把用户的画像、历史行为文字描述、候选物品信息输入大模型，给出最终的推荐列表，如下：

这一过程虽然能够得出一个靠谱的推荐结果，但如果你是一个有些行业经验的从业者，一定能看出，这一方案在扩展性，模型的工程指标和信息利用程度上，都不可能好于现在的深度学习推荐模型。所以我称之为探索期的玩具推荐模型。即使有后续的其他类似推荐系统的探索，比如华为的 UniLLMRec 等，仍是一类较难工业化的推荐系统方案。

于是，大模型推荐系统的探索来到了第二阶段，到底如何在工业级推荐系统中让大模型产生业务指标的真正提升。Meta 的生成式推荐模型 GR（Generative Recommendation）方案率先给我们曙光。GR 的线上核心业务指标大幅提升了 12.4%，这毫无疑问给整个推荐模型领域注入了一个强心针。

技术方案上，GR 也可谓是完全脱胎于大模型的结构，直接推翻了传统推荐模型 CTR 预估式的 point wise 模型结构，而是采用生成式语言模型的结构，从预测点击率的问题，变成预测用户下一个行为是什么这种生成式推荐的问题。针对这种新的问题提出方式，模型的结构也完全遵循 LLM 的序列模型结构，输入的特征也全部通用化为序列特征的形式。毫无疑问，这是革命性的。

GR 的工程优化方式也是非常巧妙，比如模型一次 inference 即可生成对所有候选物品的预估结果，模型的 transformer 结构进行了高效的简化等等，可以看出 Meta 的工程师们是在竭尽所有智慧和技巧推 GR 上线。

Meta 的 GR 模型与深度学习推荐模型结构的对比

Meta GR 的珠玉在前，利用 LLM 结构优化推荐系统的各个模块似乎一下子成为了新的流行趋势，并有不少公司拿到了切实的业务效果。召回层、粗排层、精排层的模型方案都有了大模型的影子。这第三阶段大有百花齐放的趋势。这里举一个比较有代表性的例子是快手的基于 Transformer 的召回模型 KuaiFormer。

和 Meta GR 一样，KuaiFormer 也把过去“视推荐为分类问题”的做法改成了“把推荐视为预测用户的 next token”的问题，于是就可以利用 Transfomer 的结构预测用户的 next interest embedding，再把这些 embedding 当作 ANN 召回的索引 Embedding，就实现了 LLM 思想对召回层的改造。可以说，这类方案的核心是用训练 LLM 的思路解决推荐问题，用 Transformer 为基础的模型结构。

时至今日（2025 年 4 月），大模型在推荐系统的应用文章越来越多，但只要我们能够掌握住该类思路的核心——用生成式模型的思路作为解决推荐问题的新范式，就可以把这类思路应用在推荐系统各类模型的改造之上。

创造世界——大模型在

推荐内容生成上的应用

虽然上面两个方向的大模型应用已经带来了诸多收益，但我要在这里说的是，如果你把 LLM 和 GenAI 改造推荐系统的潜力局限在现有的推荐系统框架内部，那我想你是太小看这次革命的影响力了。我强烈推荐的是跳出自己的技术小圈子，从大的视角再思考一下从哪个角度发力，才能让大模型最大程度地推动推荐系统的效果增长。

相比推荐系统技术上的改造，这波 AI 革命对推荐领域最大的影响，我想一定是"推荐内容的个性化生成"。如果说 OpenAI Sora 的口号“成为世界的模拟器”还有点好高骛远的话，那 AIGC 生成推荐内容的很多想法已经产品化，越来越深刻地影响着现在的推荐方式。

宏观上来说，新的推荐内容生成方式是把 AI 生成器（图来自生成式推荐系统的框架 GeneRec），或者叫 AI 创作者纳入到推荐系统中来。

加入 AI 生成器的推荐系统闭环

从图中可以看到，AI 生成器参与创作的方式有两种：

辅助人类创作者创作，比如根据人类的 Prompt 生成文字、图片或视频。
直接根据用户反馈生成个性化的推荐内容。

AI 创作者创作的内容出路就一个，那就是与人类创作者创作的内容一样流入候选物品集，一同参与推荐过程。

无论是 AI 辅助内容创作和 AI 个性化内容生成，它的基础都离不开扩散模型（diffusion model）。无论是大名鼎鼎的 Stable Diffusion，还是轰动一时的 Sora，其底层的 prompt Embedding 到图片的关键步骤，都是基于扩散模型的。

Stable Diffusion 的基本框架

Sora 的基本框架（来自张俊林老师的逆向工程解读）

对 AIGC 相关模型细节感兴趣的读者，可以参考下面的两篇经典解读文章

The Illustrated Stable Diffusion

张俊林：技术神秘化的去魅：Sora 关键技术逆向工程图解

在 AIGC 的基础模型之上，其实各家推荐内容生成的要点主要在产品创新，比如广告创意的自动生成，利用产品图片和有限的人类输入的 prompt，可以生成多样化的产品展示图和海报，然后交由广告推荐系统去自动选择。

AI 辅助广告创意生成

再比如数字人技术，可以把文字输入自动转换成口播视频，产品介绍，甚至新闻播报节目。这是内容创作生产力的大幅解放。

再比如，目前已经有一些模版化，规则化的 AI 生成视频，在短视频平台上取得了非常不错的点击量。我想下面一些 AI 生成的视频你一定刷到过。

这里我要强调的是，目前所有的 AIGC 产品，还都是需要人类介入的，人类要提供最起码的指令型 prompt，比如生成内容的核心要素是什么，生成广告创意的大致样式是怎样的。这距离完美的个性化 AI 生成视频还有一定的距离。我想 AIGC 最大的想象空间是未来的推荐系统将根据用户反馈完全自主的生成用户想看的内容，不再依赖人类的参与，达到完全自主的用户 -AI- 推荐系统闭环。

目前有一些探索性的研究，比如个性化的电影海报生成（PMG: Personalized Multimodal Generation with Large Language Models）。它的主要逻辑是把用户的行为历史融合到电影海报的生成过程中，生成针对用户喜好的个性化海报。这类方案从商业逻辑上还不完全成立，但大家应该能从这个方案中了解到 AI 个性化内容生成的大致框架。

PMG 个性化海报生成

发散一点来说，AI 生成越来越多推荐内容之时，另一个关于 AI 伦理的更宏大的命题又应运而生，如果真的有那么一天，AI 生成了所有人类乐意看的推荐内容，人类愿意活在完全由 AI 推荐系统创造的快乐世界里吗？人类终究还是需要与其他人类的灵感碰撞才是真正快乐的吧。推荐系统的信息茧房，甚至哲学意义上的“缸中之脑”问题，终究要在 AI 进一步发展滞后寻求一个答案。

深度学习推荐系统 2.0 时代

对推荐系统下一步突破的探索

最后谈一谈作为推荐、广告、搜索领域的从业者，如何看待推荐系统下一步的破局点以及对职业发展的一点建议。

首先我旗帜鲜明的认为，搜广推行业没有寒冬一说，它只是一直在进化，一直在寻求进一步的增长点。就像 2014-2015 年的时候，深度学习的革命全面到来之前，大家也是都在谈广告效果停滞，效果广告行业瓶颈。事实是，那是一个 LR 模型就能一统江湖的时代，大家口中的效果瓶颈在后来人看来是完全不存在的，在那波深度学习革命中被淘汰的，是一批靠着规则推荐、靠着营销、甚至效果作弊红极一时的公司。

今天的大模型时代也一样。我从来不建议搜广推的从业者抛弃自己的技术、业务、行业优势去完全更换赛道。我建议的是突破自己固有的技术区域，去思考新的技术革命下如何把新的技术趋势结合到自己非常熟悉的领域。因为搜广推仍然是互联网的第一变现渠道，如果互联网不需要盈利了，搜广推才会彻底寒冬。

在深度学习推荐系统 2.0 时代，对于行业的突破点，我给出的建议是：算法、工程与大模型的联合创新与优化。谁能通过三者的优化把大模型的收益拿到手里，落到实处，谁就能在下一步的竞争中领先。这里面，深度学习推荐系统的算法框架是基础，大模型的创新点和收益来源，算法和工程的联合优化是落地关键点，缺一不可。我也会在我的新书中跟大家详细探讨更多联合优化的案例。

读者福利

大模型时代对搜索、广告、推荐行业的工程师们提出了新的挑战，特别是在新的行业环境下，公司与公司之间、团队与团队之间、个人与个人之间都面临着更大的竞争压力。这本书无疑是一本不可或缺的技术指南，助力企业和个人在大模型时代的浪潮中乘风破浪，勇往直前。本次，我们为读者朋友准备了 3 本《【深度学习推荐系统】2.0 新篇：大模型时代的推荐系统破局点》。现在，关注【AI 前线】公众号，回复关键字 “推荐系统” 即可参与抽奖。

InfoQ 老友！请留步！极客邦 1 号客服上线工作啦！

后续我将通过微信视频号，以视频的形式持续更新技术话题、未来发展趋势、创业经验、商业踩坑教训等精彩内容，和大家一同成长，开启知识交流之旅欢迎扫码关注我的微信视频号～

今日荐文

DeepSeek！性价比卷出天际、开源模型却断供，社区粉丝失望透顶" data-itemshowtype="0" target="_blank" linktype="text" data-linktype="2">Mistral 拿出杀手锏叫阵 DeepSeek！性价比卷出天际、开源模型却断供，社区粉丝失望透顶

碾压 Cursor？谷歌突发 Gemini 2.5 Pro 预览版，编码能力全网第一

马斯克 KO 奥特曼！一群前员工倒戈、各界组织助攻，OpenAI 认怂：世界变了，我们不改了！

名校硕士 AI 造假面试现场“社死”！差点蒙混过关，因一个基本错误被识破，面试官：软件圈很小，好自为之

你也「在看」吗？?

版权声明：charles 发表于 2025年5月10日 pm7:49。
转载请注明：特征工程、模型结构、AIGC——大模型在推荐系统中的3大落地方向｜文末赠书 | AI工具大全&导航