1 Star 0 Fork 150

王磊 / AscendSpeed_for_DiT

forked from Ascend / MindSpeed 
加入 Gitee
与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
克隆/下载
alibi.md 1002 Bytes
一键复制 编辑 原始数据 按行查看 历史

Alibi 位置编码

问题分析

当大模型在训练和预测时的输入长度不一致时,模型的泛化能力会下降。若外推能力不佳,大模型在处理长文本或多轮对话时的效果就会受到限制。正弦位置编码的外推能力比较弱,RoPE(Rotary Position Embedding)的外推能力有一定提高但仍然有限。

解决方案

支持Alibi位置编码,提高模型外推能力。

解决思路:

Alibi算法给attention score添加了一个预设的线性偏置矩阵(如下图所示),使模型能够理解输入之间的相对位置关系。由于位置信息直接作用于attention score上,位置性差异被突出,使模型具有较强的外推能力。

原文链接

使用方法

设置--position-embedding-type alibi即可调用该算法。

使用效果

模型外推能力提高。

马建仓 AI 助手
尝试更多
代码解读
代码找茬
代码优化
1
https://gitee.com/wang-lei233/AscendSpeed_for_DiT.git
git@gitee.com:wang-lei233/AscendSpeed_for_DiT.git
wang-lei233
AscendSpeed_for_DiT
AscendSpeed_for_DiT
master

搜索帮助

344bd9b3 5694891 D2dac590 5694891