【数媒在线课堂】SwiGLU 激活函数:在线课堂

在激活函数的选择上,研究者们采用了 SwiGLU [6] 函数来替代传统的 ReLU 函数,这一改变旨在提升模型的性能在线课堂。两者的核心差异在于:

ReLU 函数会将所有负数输入直接归零,而正数输入则保持不变在线课堂

相比之下,SwiGLU 函数含有一个可学习的参数 β,能够调节函数的插值程度在线课堂。 随着 β 值的增大,SwiGLU 的行为将逐渐接近 ReLU,这一点如图 4 所示。

图 4:ReLU 与 SwiGLU 在不同 β 值下的行为对比,可以看到当 β 达到 100 时,两者的曲线趋于一致在线课堂

旋转式位置编码(Rotary Positional Embeddings)

在大语言模型(LLMs)中,位置编码起到了至关重要的作用,这是因为 Transformer 架构本身不区分单词的顺序在线课堂。也就是说,如果没有位置编码的辅助,Transformer 会将单词顺序不同但单词相同的两个句子视为相同的句子。 例如,如果没有位置编码,下面两个句子的含义 Transformer 将无法区分:

Sentence 1: Llama 2 is better than Llama 1 Sentence 2: Llama 1 is better than Llama 2

句子 1:Llama 2 的性能优于 Llama 1在线课堂。句子 2:Llama 1 的性能优于 Llama 2。

在论文 [3] 中,提出了一种通过正弦和余弦函数实现的绝对位置编码(Absolute Positional Embeddings)在线课堂。序列中的每个位置都有其独特的编码(positional embedding),它们与词向量相加,从而确保即使单词相同,不同顺序的句子也能表达不同的意思。

简单来说,我们可以假设句子中的单词是用一维向量而不是多维向量来编码的在线课堂。如图 5 所示,在词向量中,"1" 和 "2" 的表示值是相同的。但是,在加入了位置编码之后,它们的表示值就变得不同了(分别从 0.88 变为 1.04,以及从 0.26 变为 0.1)。

图 5:绝对位置编码 (Absolute Positional Embeddings)(图片由作者提供)

本站内容来自用户投稿,如果侵犯了您的权利,请与我们联系删除。联系邮箱:835971066@qq.com

本文链接:http://gmstar.cn/post/143.html