智源研究院发布100余款大模型评测结果：多模态模型崛起，应用落地成关键

智源研究院发布100余款大模型评测结果：多模态模型崛起，应用落地成关键近日，智源研究院正式发布了对国内外100余个开源和商业闭源大模型的综合及专项评测结果。这些模型涵盖语言、视觉语言、文生图、文生视频以及语音语言等多种模态

近日，智源研究院正式发布了对国内外100余个开源和商业闭源大模型的综合及专项评测结果。这些模型涵盖语言、视觉语言、文生图、文生视频以及语音语言等多种模态。本次评测拓展并细化了大模型的任务解决能力评估内涵，新增多项关键能力和任务，旨在全面衡量大模型技术的最新进展和生态变局。

评测结果显示，2024年下半年，大模型发展呈现出新的趋势：模型厂商更注重综合能力提升和实际应用落地。多模态模型发展迅速，涌现出许多新的厂商和模型，而语言模型的发展则相对放缓。智源研究院副院长兼总工程师林咏华在接受采访时，对大模型发展趋势以及评测标准和方式进行了深入解读。

林咏华指出，国内许多厂商在过去一年中训练出的模型已具备一定的应用潜力，商业化落地已成为大多数厂商的首要目标。她认为，随着AI模型基础能力的不断提升，当前AI应用呈现出两个明显趋势：一是基于语言模型的复杂应用能力不断提升；二是文生图、文生视频等多模态应用持续涌现。这些多模态大模型能力的提升，为AI应用的进一步发展奠定了基础条件，也为AI应用的商业化落地创造了条件，有助于整个大模型市场形成良性循环。

然而，林咏华也提到，虽然厂商积极寻求应用落地，但目前的投资主要集中在大模型的基础能力方面。这种投资策略有助于避免因大模型基础能力迭代升级而导致AI应用滞后。针对近期业内关于“AI大模型预训练效果停滞”的讨论，林咏华表示并不认同。她认为，所谓的停滞现象，实际上是由于当前互联网数据呈现孤岛化趋势，大量数据未被充分利用，特别是视频数据。如何更好地利用这些数据来提升AI模型对世界的认知能力，是当前面临的一大挑战。她同时强调了合成数据在AI模型训练中的重要作用，尤其是在难以获取真实数据的情况下，例如自动驾驶中的风雨、黑暗环境驾驶数据，合成数据能够有效弥补数据缺口。

本次大模型评测在数据处理上也做了改进。为了规避数据集泄露风险和数据集饱和度问题，评测吸纳了近期发布的数据集，并持续动态更新评测数据，替换了98%的题目，并提升了题目的难度。林咏华强调，智源评测始终坚持科学、权威、公平、开放的原则。所有闭源大模型的评测题目都在智源进行，通过调用公开的API，以普通用户的角度进行评测。

除了多种模态的综合评测外，智源研究院还推出了四大专项评测榜单，多维度探索模型能力边界与应用潜能。其中，K12全学段、多学科试卷的评测结果显示，大模型在本次测验中的综合得分相较于半年前提升了12.86%，但仍与海淀学生平均水平存在差距。模型辩论平台FlagEvalDebate的评测结果表明，大模型在逻辑推理、观点理解和语言表达等核心能力方面仍有待提升。

值得关注的是，本次评测还探索了基于实际应用场景的全新方法，例如评测模型的量化代码实现能力，探索模型在金融量化交易领域的潜在应用能力和商业价值。评测发现，大模型已经具备生成有回撤收益的策略代码的能力，能开发量化交易典型场景里的代码，头部模型能力已接近初级量化交易员的水平。

林咏华表示，FlagEval评测体系一直秉持科学、权威、公正、开放的原则，通过技术方法平台持续创新，为大模型技术生态发展提供洞察。未来，FlagEval评测体系将进一步探索动态评测与多任务能力评估体系，以评测为标尺感知大模型的发展趋势。

与今年5月的模型能力全方位评估相比，本次智源评测在多个方面进行了改进和扩展。例如，扩展、丰富、细化了任务解决能力内涵，新增了数据处理、高级编程和工具调用的相关能力与任务；首次增加了面向真实金融量化交易场景的应用能力评估，测量大模型的收益优化和性能优化等能力；首次探索基于模型辩论的对比评估方式，对模型的逻辑推理、观点理解、语言表达等核心能力进行深入分析。这表明智源研究院在不断完善大模型评测体系，以更全面、更准确地评估大模型的能力，推动大模型技术持续发展。通过这些改进，智源研究院的评测结果能够更有效地为大模型厂商提供参考，推动大模型技术朝着更实用、更可靠的方向发展。此次评测结果的发布，无疑为大模型行业的发展提供了重要的参考和方向，也为未来的技术创新指明了道路。

声明：本文内容来源自网络，文字、图片等素材版权属于原作者，平台转载素材出于传递更多信息，文章内容仅供参考与学习，切勿作为商业目的使用。如果侵害了您的合法权益，请您及时与我们联系，我们会在第一时间进行处理！我们尊重版权，也致力于保护版权，站搜网感谢您的分享！(Email:[email protected])