【GPT】中文大语言模型梳理与测评(C-Eval 、AGIEval、MMLU、SuperCLUE)

news/2025/2/20 18:37:41

在这里插入图片描述

文章目录

  • 概述
    • 申请后直接使用大模型
    • 开源可本地部署
  • 通识数据集测评(C-EvalAGIEval、MMLU、SuperCLUE)
    • 自媒体报道
    • SuperCLUE:中文通用大模型综合性基准
    • C-Eval:中英测评(清华上交提出)
      • 当前排名(23.06.27)
      • 数据集内容
        • 具体的科目 如下图:
        • 数据量与试题示例
      • 论文中的测评结果
    • AGIEval:微软 中英文评测
      • 数据集内容
      • 人类与国外主流模型差异
    • MMLU : 英文试题
      • 部分测评结果
      • 试题内容

概述

中文英文模型,GPT-4性能是当着无愧的王者,但无法使用。中文评测平台榜单比较混乱,看个人使用习惯。
模型汇总: https://github.com/wgwang/LLMs-In-China

申请后直接使用大模型

  • 遇事不决- ChatGPT: https://chat.openai.com/
  • 百度-文心一言:https://yiyan.baidu.com/
  • 360智脑:https://chat.360.cn/
  • 阿里-通义千问:https://qianwen.aliyun.com/
  • 清华-chatGLM:chatglm.cn
  • 科大讯飞-星火:https://xinghuo.xfyun.cn/

开源可本地部署

中文:清华60亿参数 ChatGLM2-6B : https://github.com/THUDM/ChatGLM2-6B

AGIEvalMMLUSuperCLUE_16">通识数据集测评(C-EvalAGIEval、MMLU、SuperCLUE)

自媒体报道

百度文心大模型3.5(ERNIE 3.5)
中文能力突出,部分超过 GPT-4 的表现;综合能力稍逊于GPT-4,但是平均能力超过chatgpt

在这里插入图片描述

SuperCLUE:中文通用大模型综合性基准

评测地址:https://github.com/CLUEbenchmark/SuperCLUE
在这里插入图片描述

C-Eval:中英测评(清华上交提出)

论文:一个用于基础模型评估的多层次多学科的中文评估套件
C-Eval: A Multi-Level Multi-Discipline Chinese Evaluation Suite for Foundation Models

当前排名(23.06.27)

该榜展示了,GPT-4在困难问题, 科学技术工程数学(STEM)上的强大准确的回答能力。
而chatglm在人文和社会科学方面遥遥领先。
在这里插入图片描述

数据集内容

具体的科目 如下图:

4个圈分别表示:
人文学科(humanities)
社会科学(Social Science)
STEM是科学(Science)、技术(Technology)、工程(Engineering)和数学(Mathematics)四门学科英文首字母的缩写。
这些科目的不同颜色表示四个难度水平:中学、高中、大学和专业水平(professional)。
在这里插入图片描述

数据量与试题示例

在这里插入图片描述

论文中的测评结果

测评方式,API或者开源模型(weights)
在这里插入图片描述

AGIEval__53">AGIEval:微软 中英文评测

论文AGIEval(一个以人为本的): A Human-Centric Benchmark for Evaluating Foundation Models.

该基准选取20种面向普通人类考生的官方、公开、高标准的资格考试、包括普通大学入学考试(如中国的高考和美国的SAT考试)、司法考试、数学竞赛等

数据集内容

律师资格考试 (lawyer qualification exams)、
国家公务员考试 (civil servant exams)
GRE(Graduate Record Examination)是美国研究生入学考试)
GMAT(Graduate Management Admission Test)是经企管理类研究生入学考试)。
在这里插入图片描述

人类与国外主流模型差异

GPT-4
在这里插入图片描述

MMLU : 英文试题

测量大规模多任务语言理解:2009. Measuring Massive Multitask Language Understanding
该测试涵盖了57个任务,包括基础数学(elementary mathematics)、美国历史、计算机科学、法律等等。
用以测量模型是否,具备广泛的世界知识和问题解决能力

部分测评结果

https://paperswithcode.com/sota/multi-task-language-understanding-on-mmlu
在这里插入图片描述

试题内容

图来自论文
STEM是科学(Science)、技术(Technology)、工程(Engineering)和数学(Mathematics)四门学科英文首字母的缩写。

在这里插入图片描述


http://www.niftyadmin.cn/n/1003888.html

相关文章

SSM网上商城

文章目录 项目介绍主要功能截图:部分代码展示设计总结项目获取方式🍅 作者主页:Java韩立 🍅 简介:Java领域优质创作者🏆、 简历模板、学习资料、面试题库【关注我,都给你】 🍅文末获取源码联系🍅 项目介绍 SSM网上商城,java项目。 eclipse和idea都能打开运行。 推…

MCU单片机智能控制落地扇解决方案

随着科技进步和消费升级,消费者对电风扇的智能化需求日趋强烈。为了快速响应市场需求,以更低的成本打造智能电风扇。 MCU单片机智能控制落地扇解决方案以灵动微MM32SPIN040C主控。 方案采用的主控MM32SPIN040工作频率可达48MHz,内置16KB Fl…

LeetCode——从上到下打印二叉树 II

题目来源 剑指 Offer 32 - II. 从上到下打印二叉树 II - 力扣(LeetCode) 题目 从上到下按层打印二叉树,同一层的节点按从左到右的顺序打印,每一层打印到一行。 示例 给定二叉树:[3,9,20,null,null,15,7] 返回其层…

EthersV6之BigInt踩坑记录

起因:今天在调用合约的时候发现使用 BIgInt 丢了精度。看了下发现是自己的姿势不对,记录一下问题。 一、错误操作 const amountIn 2e24 const contract contract.function(BigInt(Number(2e24))为什么会这么写呢, 因为我们前端库升级到了 …

10G光模块能兼容千兆光口吗

当涉及到光网络设备和光模块的兼容性时,确保正确的匹配是至关重要的。本期文章内容,我们将探讨10G光模块与千兆光口之间的兼容性。 一、10G光模块和千兆光口的基本概念 首先,我们需要了解10G光模块和千兆光口的基本概念。10G光模块是一种用…

二叉树OJ题:LeetCode--144.二叉树的前序遍历

朋友们、伙计们,我们又见面了,本期来给大家解读一下LeetCode中第144道二叉树OJ题,如果看完之后对你有一定的启发,那么请留下你的三连,祝大家心想事成! 数据结构与算法专栏:数据结构与算法 个 人…

POI导出Excle工具类(反射读取Java类)

文章目录 简介操作Excel相关组件使用工具类 简介 POI是Apache软件基金会用Java编写的免费开源的跨平台的 Java API,Apache POI提供API给Java程序对Microsoft Office格式档案读和写的功能。 所以POI的主要功能是可以用Java操作Microsoft Office的相关文件&#xff0…

Centos 镜像地址

centos镜像地址:自己选择需要下载的镜像版本 镜像地址 eg: 下载7.9镜像 centos 7.9镜像下载