LLM 碎片知识收集
2023年 6月 13日
LLM 大语言模型能达到让人惊艳的效果,在整理资料的过程中记录一些知识片段,以减少chrome标签的存放压力
不同于OPT-175B中的人工调整学习率,以及BLOOM-176B中使用embedding norm,我们实验了各种选项并发现embedding梯度shrink策略可以显著稳定GLM-130B的训练。
片断来源:https://zhuanlan.zhihu.com/p/604958461
大模型训练的稳定性非常重要
2023年 6月 13日
LLM 大语言模型能达到让人惊艳的效果,在整理资料的过程中记录一些知识片段,以减少chrome标签的存放压力
不同于OPT-175B中的人工调整学习率,以及BLOOM-176B中使用embedding norm,我们实验了各种选项并发现embedding梯度shrink策略可以显著稳定GLM-130B的训练。
片断来源:https://zhuanlan.zhihu.com/p/604958461
大模型训练的稳定性非常重要