阿里云服务器
当前位置: 首页 > 要闻
要闻 深圳之窗 2024-01-30

百川智能发布超千亿参数大模型

1月29日,百川智能发布超千亿参数的大语言模型Baichuan 3。在多个权威通用能力评测如CMMLU、GAOKAO和AGI-Eval中,Baichuan 3都展现了出色的能力。而在数学和代码专项评测如MATH、HumanEval和MBPP中同样表现出色。不仅如此,Baichuan 3还突破“迭代式强化学习”技术,进一步提升了语义理解和生成能力,在诗词创作的格式、韵律、表意等方面表现优异。

与百亿、几百亿级别参数模型训练不同,超千亿参数模型在训练过程中对高质量数据,训练稳定性、训练效率的要求都高出几个量级。为更好解决相关问题,百川智能在训练过程中针对性地提出了“动态数据选择”、“重要度保持”以及“异步CheckPoint存储”等多种创新技术手段及方案,有效提升了Baicuan 3的各项能力。

高质量数据方面,传统的数据筛选依靠人工定义,通过滤重筛选、质量打分、Textbook筛选等方法过滤数据。而百川智能认为,数据的优化和采样是一个动态过程,应该随着模型本身的训练过程优化,而非单纯依靠人工先验进行数据的采样和筛选。为全面提升数据质量,百川智能设计了一套基于因果采样的动态训练数据选择方案,该方案能够在模型训练过程中动态地选择训练数据,极大提升数据质量。

训练稳定性方面,超千亿参数的模型由于参数量巨大,训练过程中经常会出现梯度爆炸、模型不收敛等问题。对此,百川智能提出了“重要度保持”的渐进式初始化方法,用以保证模型训练初期的稳定性,并优化了模型训练过程的监控方案,在梯度、Loss等指标上引入了参数“有效秩”的方法来提早发现训练过程中的问题,极大加速对训练问题的定位,确保了最后模型的收敛效果。

训练效率方面,百川智能针对超千亿参数模型的并行训练问题进行了一系列优化,如在数据并行中实现参数通信与计算的重叠,在序列并行中实现激活值通信与计算的重叠,从而有效降低了通信时间的比重;在流水并行中引入了将激活值卸载至GPU的技术,解决了流水并行中显存占用不均的问题,减少了流水并行的分段数量并显著降低了空泡率。据介绍。通过这些技术创新,Baichuan 3的训练框架在性能方面相比业界主流框架提升超过30%。(经济日报记者 王轶辰)

深圳之窗

深圳之窗10000+篇文章

站点 微博

本文来源于网络,不代表深圳之窗立场,转载请注明出处

返回列表

拓展阅读

阿里云服务器

Copyright 2003-2025 by 深圳之窗 szz.hxxinw.cn All Right Reserved.   版权所有