大模特参加了2023年高考，成绩单已经公开

时间:2023-07-30 10:09:46
浏览:0

2023年高考成绩陆续出炉，让我们一起来看看主要语言模式的“高考成绩”。

FlagEval的大模型评估团队从2023年的大学入学考试中总结出来。共有147道客观问题（中文20道，英文44道，历史31道，数学9道，物理8道，政治21道，生物14道）Gaokao2023v1.0审查。

在排除了特殊符号等元素后，我们评估了一个开源大语言模型，该模型的参数量接近五个镜头的方法。例如，悟性·白虎AquilaChat，Alpaca，Chinese-Alpaca，StableLM-tuned-alpha，MOSS，BELLE，ChatGLM等。

由于2023年高考问题在6月初才公布，还没有进入模型训练数据集中，因此测试结果可以更直接地反映模型使用知识的能力。

ChatGPT No Safe Score最高，GPT-4和GPT-3.5-turbo的正确率分别为60.4%、42.5%。

·在具有国内外类似参数的SFT开源模型中，以接近GPT-3.5-turbo水平的37.2%的综合得分排名第一。

ChatGLM2-6B，Chinese-Alpaca紧随其后的正确率分别为25.5%，24.7%。

SFT微调模型与基础模型在能力上有很大的不同。

为了公平起见，我们只比较了经SFT微调的语言模型。

评估方法说明：

从我们的研究结果来看，我们有一些有趣的发现。AquilaChat的学科知识非常平衡，没有明显的缺点，生物学和物理学成绩优异，正确率分别为50%和62.5%。与英语分数相比，所有模型的语言分数一般都较低，AquilaChat和Chines-Alpaca以15%的正确率排名第一，ChatGPT的正确率仅为10%。大规模模型很难掌握汉语知识，这给双语大规模模型的后续学习带来了挑战。

2023年高考能力评估主要是与国内外7B级开源模式进行比较。作为当前的主流机型，7B订单成本效益高，在行业中广受欢迎。

“巨无霸”ChatGPT在能力对比中，如“高考2023评估”作为标志性参考项目，仍然“看小山”。

考虑到模型参数的量和训练数据的量有很大差异，以AquilaChat-7B为代表的7B级开源模型仍然很强大，未来值得期待。

目前，FlagEval的大型语言模型评估列表中没有新的信息。

Gaokao2023V1.0（大学入学考试评估结果）已更新为FlagEval大型语言模型评估列表。我们将继续扩大我们的银行能力，以提高我们对模型评估结果进行详细分析的能力。

欢迎光临大模型研究团队评估申请：flageval.baai.ac.cn

智源FlagEval大模型开放式评价平台，创新地构建了“能力-任务-指标”的三维评价框架，界定了大语言模型的30+ 能力维度，在任务维度中整合了20+个主观评价数据集，不仅覆盖了著名的公开数据集HellaSwag、MMLU、C-Eval等，增加智源自制的主观评价数据集Chinese Linguistics & Cognition Challenge.CLCC还集成了更多维度的评估数据集。

在最近的SFT模型评估中，AquilaChat在“主观+客观”评级中名列第一。

Aquila-7B基本模型和AquilaChat交互模型的最新版本的权重已更新到开源存储库，与6月9日的初始版本相比，在常识推理、代码生成等方面提高了性能。现在可以从FlagAI开源项目或FlagOpen Model存储库下载权重。

GitHub https：//github.com/FlagAI-Open/FlagAI/tree/master/examples/Aquila

模型存储库https//model. baai. ac. cn/models

利用厨房经济引领一体化炉灶行业高质量发展

触摸漫画XCBNData报告_ “超Z少年_创造力图鉴：在创造中表达身份和爱

大模特参加了2023年高考，成绩单已经公开

猜你喜欢

小鹏财务表现稳健，引领新能源汽车市场新篇章

小鹏汽车发起芯片升级众筹，老用户有望享受新智驾智舱体验（好的，以下是一个为您生成的新的）

从长期到短期：英伟达如何调整产品更新策略？深度解析

英伟达新产品发布率翻倍：探索技术与市场的力量

ChatGPT一周用户数激增两亿，OpenAI引领智能风潮！

最新消息：雷军退出小米电子公司董事长，已卸任相关职务（雷军卸任小米电子公司董事长职务，最新消息披露其已退出相关职务）

借呗整改之后，银行信贷也将从“花呗”中分离为“信用购”（借呗整改后，＂信用购＂独立发展，银行信贷与＂花呗＂分道扬镳）

AI技术与医疗结合！声音模拟助力患者重塑“语音 ”

小鹏财务表现稳健，引领新能源汽车市场新篇章

小鹏汽车发起芯片升级众筹，老用户有望享受新智驾智舱体验（好的，以下是一个为您生成的新的）

从长期到短期：英伟达如何调整产品更新策略？深度解析

英伟达新产品发布率翻倍：探索技术与市场的力量

ChatGPT一周用户数激增两亿，OpenAI引领智能风潮！

最新消息：雷军退出小米电子公司董事长，已卸任相关职务（雷军卸任小米电子公司董事长职务，最新消息披露其已退出相关职务）

小鹏财务表现稳健，引领新能源汽车市场新篇章

小鹏汽车发起芯片升级众筹，老用户有望享受新智驾智舱体验（好的，以下是一个为您生成的新的）

从长期到短期：英伟达如何调整产品更新策略？深度解析

英伟达新产品发布率翻倍：探索技术与市场的力量

ChatGPT一周用户数激增两亿，OpenAI引领智能风潮！

最新消息：雷军退出小米电子公司董事长，已卸任相关职务（雷军卸任小米电子公司董事长职务，最新消息披露其已退出相关职务）