三三文章网 - 科技知识大全是专业科技新媒体网站。网站著眼于新一代科技新闻的全面及时处理报导,让网民在外面第二时间交待全球新一代的科技资讯。内容涵括AI+、互联网、IT、创业投资、核定、区块链、智能硬件等领域

大模特参加了2023年高考,成绩单已经公开

  • 时间:
  • 浏览:0

2023年高考成绩陆续出炉,让我们一起来看看主要语言模式的“高考成绩”。

FlagEval的大模型评估团队从2023年的大学入学考试中总结出来。共有147道客观问题(中文20道,英文44道,历史31道,数学9道,物理8道,政治21道,生物14道)Gaokao2023v1.0审查。

在排除了特殊符号等元素后,我们评估了一个开源大语言模型,该模型的参数量接近五个镜头的方法。例如,悟性·白虎AquilaChat,Alpaca,Chinese-Alpaca,StableLM-tuned-alpha,MOSS,BELLE,ChatGLM等。

由于2023年高考问题在6月初才公布,还没有进入模型训练数据集中,因此测试结果可以更直接地反映模型使用知识的能力。

ChatGPT No Safe Score最高,GPT-4和GPT-3.5-turbo的正确率分别为60.4%、42.5%。

·在具有国内外类似参数的SFT开源模型中,以接近GPT-3.5-turbo水平的37.2%的综合得分排名第一。

ChatGLM2-6B,Chinese-Alpaca紧随其后的正确率分别为25.5%,24.7%。

SFT微调模型与基础模型在能力上有很大的不同。

为了公平起见,我们只比较了经SFT微调的语言模型。

评估方法说明:

从我们的研究结果来看,我们有一些有趣的发现。AquilaChat的学科知识非常平衡,没有明显的缺点,生物学和物理学成绩优异,正确率分别为50%和62.5%。与英语分数相比,所有模型的语言分数一般都较低,AquilaChat和Chines-Alpaca以15%的正确率排名第一,ChatGPT的正确率仅为10%。大规模模型很难掌握汉语知识,这给双语大规模模型的后续学习带来了挑战。

2023年高考能力评估主要是与国内外7B级开源模式进行比较。作为当前的主流机型,7B订单成本效益高,在行业中广受欢迎。

“巨无霸”ChatGPT在能力对比中,如“高考2023评估”作为标志性参考项目,仍然“看小山”。

考虑到模型参数的量和训练数据的量有很大差异,以AquilaChat-7B为代表的7B级开源模型仍然很强大,未来值得期待。

目前,FlagEval的大型语言模型评估列表中没有新的信息。

Gaokao2023V1.0(大学入学考试评估结果)已更新为FlagEval大型语言模型评估列表。我们将继续扩大我们的银行能力,以提高我们对模型评估结果进行详细分析的能力。

欢迎光临大模型研究团队评估申请:flageval.baai.ac.cn

智源FlagEval大模型开放式评价平台,创新地构建了“能力-任务-指标”的三维评价框架,界定了大语言模型的30+ 能力维度,在任务维度中整合了20+个主观评价数据集,不仅覆盖了著名的公开数据集HellaSwag、MMLU、C-Eval等,增加智源自制的主观评价数据集Chinese Linguistics & Cognition Challenge.CLCC还集成了更多维度的评估数据集。

在最近的SFT模型评估中,AquilaChat在“主观+客观”评级中名列第一。

Aquila-7B基本模型和AquilaChat交互模型的最新版本的权重已更新到开源存储库,与6月9日的初始版本相比,在常识推理、代码生成等方面提高了性能。现在可以从FlagAI开源项目或FlagOpen Model存储库下载权重。

GitHub https://github.com/FlagAI-Open/FlagAI/tree/master/examples/Aquila

模型存储库https//model. baai. ac. cn/models