IDEA研究院Ziya2-13B大模型在魔搭社区开源首发

科技 • 2023-10-16 14:03:36 • Network •

10月16日消息，IDEA研究院（粤港澳大湾区数字经济研究院）CCNL封神榜团队开源中文基座模型Ziya2-13B-Base及其对话模型Ziya2-13B-Chat，两款模型均完全免费、可商用，已在魔搭社区ModelScope首发上架。三个月前，Meta开源Llama2系列大模型，包括7B、13B、70B等多个版本，它们均基于超过2万亿tokens数据集训练而成

10月16日消息，IDEA 研究院（粤港澳大湾区数字经济研究院）CCNL封神榜团队开源中文基座模型Ziya2-13B-Base及其对话模型Ziya2-13B-Chat，两款模型均完全免费、可商用，已在魔搭社区ModelScope首发上架。

三个月前，Meta开源Llama2系列大模型，包括7B、13B、70B等多个版本，它们均基于超过2万亿tokens数据集训练而成。封神榜团队在Llama2-13B的基础上，进行了650B tokens自建高质量中英文数据集的继续训练，最终训练出Ziya2-13B系列模型，弥补Llama2中文能力不足的问题。

今年5月，封神榜团队曾基于LLaMA一代推出了Ziya-LLaMA-13B模型并开源，迅速成为LLaMA生态里最好的中文基座模型。相较于Ziya-LLaMA-13B，Ziya2-13B-Base的初始训练loss值更低，训练速度提升38%，还解决了训练后期不稳定的问题。

评测结果显示，Ziya2-13B-Base模型在中文、英文、数学、代码等下游理解任务上的表现均明显优于Llama2-13B和Ziya-LLaMA-13B。

依托于Ziya2-13B-Base强大的基础能力，封神榜团队优化了SFT阶段的训练策略，在300B tokens 预训练的Ziya2-13B-Base模型基础上，使用约40万指令样本和8K上下文窗口，训练出对话模型Ziya2-13B-Chat。此外，还在数万条高质量人类偏好数据训练的奖励模型上，针对多种问答、写作以及安全任务进行了强化学习训练，使Ziya2-13B-Chat模型的输出更贴合人类偏好，具有更高的安全性。

评测结果显示，Ziya2-13B-Chat模型与Ziya-LLaMA-13B-v1.1模型在side-by-side评测下取得了66.5%的胜率，相较于人类反馈强化学习前的版本取得了58.4%的胜率。

魔搭社区基于Ziya2-13B-Chat模型开发了体验接口，普通用户可以直接体验或使用模型；魔搭公众号也推出了最佳实践教程，提前跑通模型的部署、推理和微调，供开发者参考。

作为魔搭社区的重要合作伙伴，封神榜团队开源的系列大模型都把魔搭作为首发平台，这些模型也在开发者群体中广受欢迎。

阿里云魔搭是国内规模最大、开发者最活跃的AI模型社区，已聚集国内30多家头部人工智能机构贡献的1200多款优质AI模型，并提供一站式的模型体验、下载、推理、调优、定制等服务，模型总下载量已突破 8500万次。

声明：本文内容来源自网络，文字、图片等素材版权属于原作者，平台转载素材出于传递更多信息，文章内容仅供参考与学习，切勿作为商业目的使用。如果侵害了您的合法权益，请您及时与我们联系，我们会在第一时间进行处理！我们尊重版权，也致力于保护版权，站搜网感谢您的分享！(Email:[email protected])