▲ 图1
通过本研究的深入探讨,期待不仅能够提升对 Transformer 模型内部运作的理解,还能为未来的模型知识编辑技术奠定基础,为 NLP 领域的发展提供新的思路和方法。
相关工作
在理解语言模型(LM)的可解释性方面,已有多项研究对 Transformer 模型的解释方法进行了探索。Belinkov 和 Glass(2019)概述了分析神经语言处理的不同方法,强调了解释 LM 的重要性。特别是,在反向传播的上下文中对梯度的分析被认为是一个新的贡献。
现有的方法主要集中在前向传递的隐状态和权重的映射上。例如,nost algebra is t(2020)提出的 Logit Lens 方法,通过将 LM 的隐状态转换为词汇概率,展示了模型在生成过程中的表现。这种投影有助于理解 LM 在生成过程中逐渐构建输出的模式。
然而,虽然之前的研究通过观察完整的梯度矩阵探讨了模型在训练或微调过程中学习到的模式,但产品之间的关系仍显得不够清晰。
近期的研究(Ilharco et al., 2022; Gueta et al., 2023; Tian et al., 2023)开始反向工程梯度在模型行为中的作用,探讨了通过对梯度与其前向传递输入部分之间的关系进行分析,可以获取哪些信息。这样的工作为深入理解报错和学习提供了基础,但对于如何将这些视角扩展到反向传播的梯度分析则较少涉及。
在 LM 编辑的研究中,Dai et al.(2022)指出,激活特定习语的神经元并通过注入目标嵌入来修改它们的效果最为明显。最近的一些高级编辑方法(Mitchell et al., 2021; Meng et al., 2022, 2023)也着手解决如何有效进行模型内部知识的编辑与转变。
与以往研究不同的是,本研究关注于将反向传播中的梯度分析引入可解释性研究中。具体而言,Katz 和 Belinkov(2023)的方法与目前研究中的方法在应对和解释反向传播的梯度方面有所不同,这使得本研究的贡献显得尤为突出。
整体而言,本研究为如何通过反向过程对 LM 进行梯度的分析提供了新的视角,为理解其内部机制开辟了进一步的研究空间。
Transformer模型与反向传播
在本节中,深入介绍 Transformer 模型的架构,特别是生成预训练 Transformer(GPT)模型的工作机制,同时探讨模型输入、权重矩阵、前向传递和反向传播的过程,包括梯度矩阵的计算以及如何通过链式法则更新权重。
3.1 Transformer模型
生成预训练 Transformer(GPT)是一个自回归架构,由多个 Transformer 块组成。给定一个包含个标记的提示序列,GPT 需要预测一个标记。该架构在所有层中保持统一的嵌入维度。
首先,输入标记通过嵌入矩阵映射为输入向量,在最终阶段,解码矩阵将最后一个 Transformer 块的输出投影到词汇中的每一个标记分数。
每个 Transformer 块由一个注意力层(Attn)和一个多层感知器(MLP)层组成,二者通过残差连接相连。注意力机制负责将来自每个先前输入的信息传输到当前的前向传递中。我们在本研究中不深入剖析该模块,更多细节请参阅 Radford 等人的工作。
MLP 层(也称为前馈网络,FFN)由两个全连接矩阵和组成,并在两者之间应用激活函数:
因此,该-th Transformer 块对其输入隐藏状态执行的计算为:
3.2 反向传播
反向传播是将链式法则应用于计算导数并更新深度学习网络模型权重的过程。该过程始于模型执行前向传递,生成预测,后与期望目标比较,通过损失函数量化差异。在此之后,开始反向传递,逐层计算梯度。
对于模型中某一层在前向传播中计算出(其中是该层的中间输入和输出),可以通过链式法则直接计算其梯度矩阵:
我们可以直接计算。另一个导数被称为的向量-雅可比积(VJP),它可以被视为反向传递的隐藏状态,即后续层向后投影的误差因子。通常使用负对数似然(NLL)损失:
这里表示的归一化概率,是其第个值(目标标记的概率)。对于最后一层的输出,可以通过以下方式直接计算其(VJP):
对于模型中某个早期层,由于无法直接计算其输出的 VJP,我们可以假设已经计算了层的VJP。如果各层是连续的层,层的输出为层的输入,因此有:
总结而言,在深度学习模型中,损失函数相对于给定层的梯度是该层前向传递输入和其输出的 VJP的外积:
梯度的低秩性与Logit Lens方法梯度作为低秩矩阵
在本文中,研究者探讨了梯度矩阵的低秩特性。根据引理4.1,对于给定长度为的输入序列和参数化矩阵,由反向传播生成的梯度是一个秩不超过的矩阵。这一发现不仅揭示了梯度矩阵的结构,还为如何理解和解释这些梯度提供了理论基础。
具体地,当考虑到模型的输入时,梯度矩阵的计算可以表示为每个输入与其对应的VJP(Vector-Jacobian Product)的外积和:
在此模型中,每个梯度矩阵的秩由实现 和 的线性独立性决定,因此最大秩为 。值得注意的是,在变换器模型的最后一层,梯度的秩通常为 1。
▲ 图2. 梯度矩阵的计算通过 的外积形成。每一行由相同的值组成,上半部分的描述强调了它的跨度是 ,而下半部分则强调了它的跨度是 。
将Logit Lens应用于梯度矩阵
具体来说,将输入从映射到,而则将其映射回。由于梯度矩阵的维度高且难以全面分析,因此研究者通过观察每个梯度矩阵的外积形式将其转换为一组较小的向量。
每个由形成的矩阵可以同时从两个视角进行解释:一方面作为的跨度(线性组合),另一方面作为的跨度。研究者利用这种双重性,通过聚焦于个向量的线性组合来分析梯度。
此外,研究者指出的梯度相应地使用作为其跨度集合,的梯度则使用作为其跨度集合。这一选择不仅因尺寸限制而受到影响,也因其数学上的合理性而备受重视。
通过这种分析,研究者能够更深入地理解 MLP 层中存储信息的复杂机制,以及如何通过构建特定的跨度集合来提高对梯度矩阵的解释能力。
知识存储与模型编辑的机制
在本节中,我们将深入探讨如何利用反向传播中的梯度更新 MLP 层的权重,并介绍一种称为“印记与偏移”(imprint and shift)机制的双阶段过程。该机制通过结合前向传递的输入和目标嵌入,利用梯度信息在 MLP 层中存储信息。此处将结合实验结果来分析这种机制在模型知识更新中的有效性。
5.1 梯度的组成与“印记与偏移”机制
根据第四章的分析,每个 MLP 层的梯度表示为正向传递的输入向量和反向传递的 VJP(向量雅可比乘积)的组合。具体地,梯度在更新过程中的表现可以表示为:
在这个表达式中,是前向传播的输入,而是相应的 VJP。根据引理 5.2,当使用反向传播更新 LM 的 MLP 层时,会发生以下两个主要阶段的变化:
印记阶段:在这一阶段,输入被加入或减去到的神经元中,从而调整每个对应的神经元的激活程度。这个过程赋予了 MLP 层对于给定输入的“印记”。
偏移阶段:此阶段涉及的输出进行调整,具体表现为从的神经元中减去 VJP,以放大在启用 VJP 值后输出的影响。
5.2 实验结果与机制的有效性
通过实验发现,此“印记与偏移”机制在知识更新过程中表现出显著的有效性。例如,根据实验证据,和的更新过程可以通过以下方式有效地实施:
当使用前向传递的输入进行更新时,中的神经元体现了对最有可能的词汇进行强化。
对于的更新,则是通过减去来实现,这相当于将之前概率较低的词汇提升为可能性更高的目标。
这种方法的成功之处在于,尽管只依靠单次的前向传递,仍能在 MLP 层中有效地存储和调整信息。图 3 清晰地展示了该机制的工作过程。
▲ 图3. 印记与偏移机制
总体来看,该机制为理解如何利用反向传播在大规模语言模型中管理和存储知识提供了新的视角。同时,这一发现也为后续在知识编辑任务中的应用奠定了基础。
实验结果及其意义
本节展示了使用 GPT2 和 Llama2-7B 模型进行的实验结果,分析梯度的秩及其对模型更新的影响。实验通过 100 个提示和其对应的编辑目标从 CounterFact 数据集中随机抽取。针对每个模型和提示,仅进行一次反向传播,未采用批处理或优化器的缩放。
6.1 梯度的秩
为了验证引理 4.1,实验测量了每层梯度矩阵的秩。结果如图 4 所示,对于每个包含个标记的提示,模型的梯度矩阵几乎总是精确地具有秩。唯一的例外是最后的 MLP 层,其秩为 1,与第 4 节的预测相符。尽管在图中并不明显,但是每隔几十个例子,确实会出现梯度的秩降低一或两个的现象,这显示出或之间的线性依赖。
▲ 图4
6.2 Logit Lens的梯度解释
接下来,展示了通过 LL 方法对梯度的解释,如图 5 和附录 D 所示。每个图的单元格显示选择的跨越集合(的和的)在特定层和从提示用于编辑的标记中得到的 LL 投影。
在前向传递的研究中,LL方法考察了隐藏状态的投影,突显了在层间投影标记的逐步变化。类似地,图 5 展示了反向传递的 VJP 的逐步变化。在大多数层中,LL 揭示了梯度代表了“巴黎”的嵌入。其他与“巴黎”相关的投影内容如“马克龙”,即法国总统的姓氏。
VJP 的范数通过颜色表示,在顶层中,只有对“巴黎”标记的有意义更新存在。部分低层的编辑结果则较难解释,这与前向传递的 LL 情况类似。
▲ 图5
6.3 不同提示段落的影响
为了解不同标记和层在梯度重构中的相对重要性,实验将每个提示的标记划分为若干片段,并绘制了其的平均范数。该实验使用 GPT2-xl 进行,结果在图 6 中展示,附录 E.1 中有的结果。
▲ 图6
显而易见,主要更新发生在两个主要区域:(1)由初始层中的主题标记贡献,和(2)第三层约四分之一位置的最后提示标记。大多数其他标记在整个层中表现出接近零的范数,表明它们几乎没有对模型更新的实际影响。研究人员假设,对最后主题标记的变化可能涉及通过注意力传输该主题标记的信息,更加显著。
6.4 VJP与目标标记的表现
考虑到每个 VJP的 LL 秩(标记为输入的标记的片段)与目标标记的秩,图 7 展示了通过 VJP 的最后提示标记,其秩一贯将目标标记排名为最低概率的标记。编辑提示中其他标记的 VJP 也表现出类似行为,通常将目标标记视为不合理。
该结果表明,在前几层和最后层中,某些的 VJP 表现出目标标记的排名下降,研究人员将其归因于它们范数接近于零的现象。如附录 A 展示,模型最后一层中,除最后提示的标记,其他标记均在该层出现零向量。
▲ 图7
6.5 编辑方法的有效性
实验还考察了基于“偏移”机制的编辑方法。通过分析在 1000 个样本中应用于 CounterFact 的结果,表 1 展示了编辑的有效性(EFF)、生成流畅性(N-gram)和新目标预测的准确性(PAR),并与当前先进的人工智能编辑方法进行了对比。
尽管在推广(即对同义句的编辑)和特异性(见附录)方面本方法不如 ROME 表现出色,但其运行复杂度显著降低,无需多步(迭代)执行。实验结果表明,研究人员可能找到了一些“捷径”,通过直接将标记注入到语言模型的层中有效地实现微调。
本节总结强调了实验结果对未来研究的启示,包括对模型的进一步优化和编辑方法的探索。
更多阅读
# 投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢? 答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是 最新论文解读,也可以是 学术热点剖析、 科研心得或 竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人 原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供 业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site 返回搜狐,查看更多
责任编辑: