百川智能发布超千亿参数大模型
1月29日,百川智能发布超千亿参数的大语言模型Baichuan 3。在多个权威通用能力评测如CMMLU、GAOKAO和AGI-Eval中,Baichuan 3都展现了出色的能力。而在数学和代码专项评测如MATH、HumanEval和MBPP中同样表现出色。不仅如此,Baichuan 3还突破“迭代式强化学习”技术,进一步提升了语义理解和生成能力,在诗词创作的格式、韵律、表意等方面表现优异。
与百亿、几百亿级别参数模型训练不同,超千亿参数模型在训练过程中对高质量数据,训练稳定性、训练效率的要求都高出几个量级。为更好解决相关问题,百川智能在训练过程中针对性地提出了“动态数据选择”、“重要度保持”以及“异步CheckPoint存储”等多种创新技术手段及方案,有效提升了Baicuan 3的各项能力。
高质量数据方面,传统的数据筛选依靠人工定义,通过滤重筛选、质量打分、Textbook筛选等方法过滤数据。而百川智能认为,数据的优化和采样是一个动态过程,应该随着模型本身的训练过程优化,而非单纯依靠人工先验进行数据的采样和筛选。为全面提升数据质量,百川智能设计了一套基于因果采样的动态训练数据选择方案,该方案能够在模型训练过程中动态地选择训练数据,极大提升数据质量。
训练稳定性方面,超千亿参数的模型由于参数量巨大,训练过程中经常会出现梯度爆炸、模型不收敛等问题。对此,百川智能提出了“重要度保持”的渐进式初始化方法,用以保证模型训练初期的稳定性,并优化了模型训练过程的监控方案,在梯度、Loss等指标上引入了参数“有效秩”的方法来提早发现训练过程中的问题,极大加速对训练问题的定位,确保了最后模型的收敛效果。
训练效率方面,百川智能针对超千亿参数模型的并行训练问题进行了一系列优化,如在数据并行中实现参数通信与计算的重叠,在序列并行中实现激活值通信与计算的重叠,从而有效降低了通信时间的比重;在流水并行中引入了将激活值卸载至GPU的技术,解决了流水并行中显存占用不均的问题,减少了流水并行的分段数量并显著降低了空泡率。据介绍。通过这些技术创新,Baichuan 3的训练框架在性能方面相比业界主流框架提升超过30%。(经济日报记者 王轶辰)
拓展阅读
热门文章
- 新华全媒+|你托我管 稳粮增产——山东农业社会化服务促丰收见闻
2023-06-17 02:00 - 今年已有逾150位院长、书记被查!全国集中整治医药购销领域腐败
2023-07-31 02:03 - 被学生枪杀的华人教授:事发前正打离婚官司,曾报告校方有学生“精神不正常”
2023-09-02 02:04 - 山西潜逃24年的解某萍,已被警方抓获
2023-07-29 02:03 - 第六届数字中国建设峰会集中展示最新成果 分享发展经验
2023-04-29 02:00 - “瓦格纳”事件后,卡德罗夫被普京接见!曾指责普里戈任“叛变”,紧急派车臣部队“平叛”
2023-06-30 02:04
推荐阅读