智源研究院发布100余款大模型评测结果:多模态模型崛起,应用落地成关键

智源研究院发布100余款大模型评测结果:多模态模型崛起,应用落地成关键近日,智源研究院正式发布了对国内外100余个开源和商业闭源大模型的综合及专项评测结果。这些模型涵盖语言、视觉语言、文生图、文生视频以及语音语言等多种模态

智源研究院发布100余款大模型评测结果:多模态模型崛起,应用落地成关键

近日,智源研究院正式发布了对国内外100余个开源和商业闭源大模型的综合及专项评测结果。这些模型涵盖语言、视觉语言、文生图、文生视频以及语音语言等多种模态。本次评测拓展并细化了大模型的任务解决能力评估内涵,新增多项关键能力和任务,旨在全面衡量大模型技术的最新进展和生态变局。

智源研究院发布100余款大模型评测结果:多模态模型崛起,应用落地成关键

评测结果显示,2024年下半年,大模型发展呈现出新的趋势:模型厂商更注重综合能力提升和实际应用落地。多模态模型发展迅速,涌现出许多新的厂商和模型,而语言模型的发展则相对放缓。智源研究院副院长兼总工程师林咏华在接受采访时,对大模型发展趋势以及评测标准和方式进行了深入解读。

林咏华指出,国内许多厂商在过去一年中训练出的模型已具备一定的应用潜力,商业化落地已成为大多数厂商的首要目标。她认为,随着AI模型基础能力的不断提升,当前AI应用呈现出两个明显趋势:一是基于语言模型的复杂应用能力不断提升;二是文生图、文生视频等多模态应用持续涌现。这些多模态大模型能力的提升,为AI应用的进一步发展奠定了基础条件,也为AI应用的商业化落地创造了条件,有助于整个大模型市场形成良性循环。

然而,林咏华也提到,虽然厂商积极寻求应用落地,但目前的投资主要集中在大模型的基础能力方面。这种投资策略有助于避免因大模型基础能力迭代升级而导致AI应用滞后。针对近期业内关于“AI大模型预训练效果停滞”的讨论,林咏华表示并不认同。她认为,所谓的停滞现象,实际上是由于当前互联网数据呈现孤岛化趋势,大量数据未被充分利用,特别是视频数据。如何更好地利用这些数据来提升AI模型对世界的认知能力,是当前面临的一大挑战。她同时强调了合成数据在AI模型训练中的重要作用,尤其是在难以获取真实数据的情况下,例如自动驾驶中的风雨、黑暗环境驾驶数据,合成数据能够有效弥补数据缺口。

本次大模型评测在数据处理上也做了改进。为了规避数据集泄露风险和数据集饱和度问题,评测吸纳了近期发布的数据集,并持续动态更新评测数据,替换了98%的题目,并提升了题目的难度。林咏华强调,智源评测始终坚持科学、权威、公平、开放的原则。所有闭源大模型的评测题目都在智源进行,通过调用公开的API,以普通用户的角度进行评测。

除了多种模态的综合评测外,智源研究院还推出了四大专项评测榜单,多维度探索模型能力边界与应用潜能。其中,K12全学段、多学科试卷的评测结果显示,大模型在本次测验中的综合得分相较于半年前提升了12.86%,但仍与海淀学生平均水平存在差距。模型辩论平台FlagEvalDebate的评测结果表明,大模型在逻辑推理、观点理解和语言表达等核心能力方面仍有待提升。

值得关注的是,本次评测还探索了基于实际应用场景的全新方法,例如评测模型的量化代码实现能力,探索模型在金融量化交易领域的潜在应用能力和商业价值。评测发现,大模型已经具备生成有回撤收益的策略代码的能力,能开发量化交易典型场景里的代码,头部模型能力已接近初级量化交易员的水平。

林咏华表示,FlagEval评测体系一直秉持科学、权威、公正、开放的原则,通过技术方法平台持续创新,为大模型技术生态发展提供洞察。未来,FlagEval评测体系将进一步探索动态评测与多任务能力评估体系,以评测为标尺感知大模型的发展趋势。

与今年5月的模型能力全方位评估相比,本次智源评测在多个方面进行了改进和扩展。例如,扩展、丰富、细化了任务解决能力内涵,新增了数据处理、高级编程和工具调用的相关能力与任务;首次增加了面向真实金融量化交易场景的应用能力评估,测量大模型的收益优化和性能优化等能力;首次探索基于模型辩论的对比评估方式,对模型的逻辑推理、观点理解、语言表达等核心能力进行深入分析。 这表明智源研究院在不断完善大模型评测体系,以更全面、更准确地评估大模型的能力,推动大模型技术持续发展。 通过这些改进,智源研究院的评测结果能够更有效地为大模型厂商提供参考,推动大模型技术朝着更实用、更可靠的方向发展。 此次评测结果的发布,无疑为大模型行业的发展提供了重要的参考和方向,也为未来的技术创新指明了道路。

声明:本文内容来源自网络,文字、图片等素材版权属于原作者,平台转载素材出于传递更多信息,文章内容仅供参考与学习,切勿作为商业目的使用。如果侵害了您的合法权益,请您及时与我们联系,我们会在第一时间进行处理!我们尊重版权,也致力于保护版权,站搜网感谢您的分享!(Email:[email protected])

上一篇 2024-12-21
下一篇 2024-12-21

猜您喜欢