forked from Ascend / MindSpeed

加入 Gitee

与超过 1200万开发者一起发现、参与优秀开源项目，私有仓库也完全免费：）

克隆/下载

alibi.md 1002 Bytes

一键复制编辑原始数据按行查看历史

提交于 2024-04-30 01:03 . !242 【readme】增加异步DDP、Alibi、swiglu融合算子 readme

Alibi 位置编码

问题分析

当大模型在训练和预测时的输入长度不一致时，模型的泛化能力会下降。若外推能力不佳，大模型在处理长文本或多轮对话时的效果就会受到限制。正弦位置编码的外推能力比较弱，RoPE（Rotary Position Embedding）的外推能力有一定提高但仍然有限。

解决方案

支持Alibi位置编码，提高模型外推能力。

解决思路:

Alibi算法给attention score添加了一个预设的线性偏置矩阵（如下图所示），使模型能够理解输入之间的相对位置关系。由于位置信息直接作用于attention score上，位置性差异被突出，使模型具有较强的外推能力。

使用方法

设置--position-embedding-type alibi即可调用该算法。

使用效果

模型外推能力提高。

1

https://gitee.com/walker963/AscendSpeed.git

git@gitee.com:walker963/AscendSpeed.git

walker963

AscendSpeed

AscendSpeed

master