导读
(另外,值得一提的是,本篇论文的一作,正是如今国内最火的大模型创业公司月之暗面创始人杨植麟;其并列一作戴子航则是马斯克成立的xAI中的华人中坚力量)


-
表示序列长度为的所有可能排列的集合,这意味着 XLNet 在训练时,不会以固定顺序(如从左到右)来预测单词,而是会考虑序列的每一种可能的重排方式。
-
和 <分别代表排列的第个元素和前个元素,这意味着模型会根据排列中位于之前的 token,来预测位置的 token,而不管这些token在原始序列中的顺序。

(另外,值得一提的是,本篇论文的一作,正是如今国内最火的大模型创业公司月之暗面创始人杨植麟;其并列一作戴子航则是马斯克成立的xAI中的华人中坚力量)


表示序列长度为的所有可能排列的集合,这意味着 XLNet 在训练时,不会以固定顺序(如从左到右)来预测单词,而是会考虑序列的每一种可能的重排方式。
和 <分别代表排列的第个元素和前个元素,这意味着模型会根据排列中位于之前的 token,来预测位置的 token,而不管这些token在原始序列中的顺序。
