Benchmarking Chinese Commonsense Reasoning of LLMs: From Chinese-Specifics to Reasoning-Memorization Correlations

Jiaxing Sun1*, Weiquan Huang2*, Jiang Wu3*†, Chenya Gu3, Wei Li3,
Songyang Zhang3, Hang Yan3, Conghui He3‡ ,
1 Wuhan University 2 Tongji University 3 Shanghai AI Laboratory
* Equal Contribution Project lead Corresponding Author


CHARM的构建流程

与其他常识推理评测基准的比较

基准 汉语 常识推理 中国特有知识 中国和世界知识域 推理和记忆的关系
davis2023benchmarks 中提到的基准
XNLI, XCOPA,XStoryCloze
LogiQA,CLUE, CMMLU
CORECODE
CHARM (ours)
✨CHARM

CHARM 是首个全面深入评估大型语言模型(LLMs)在中文常识推理能力的基准测试,它覆盖了国际普遍认知的常识以及独特的中国文化常识。此外,CHARM 还可以评估 LLMs 独立于记忆的推理能力,并分析其典型错误。

📖 常识领域

🌐 全球常识领域

全球常识领域包含了具有普遍理解性的常识,覆盖了现代生活中的各种对象和方面,是个体应当了解的知识。这些内容包括基础教育期望个体所掌握的基本知识。涉及到人物时,这些都是在全球范围内广为认可的人物。

🚩 中国常识领域

中国常识领域包含了特定于中国的元素,我们将其分为以下七个方面:

📋 任务列表

Overview of CHARM

任务类型 任务 常识领域 中国常识方面 题目类型 # 题目数量
推理 时代错误 (AJ) 中国的 H, AC, LC, F 二选项多选题 150
全球的 - 二选项多选题 150
时间理解 (TU) 中国的 H, AC, LC 四选项多选题 100
顺序理解 (SqU) 中国的 H, CA, LC, G, L 四选项多选题 100
全球的 - 四选项多选题 100
电影和音乐推荐 (MMR) 中国的 E 四选项多选题 50
全球的 - 四选项多选题 50
体育理解 (SpU) 中国的 F 二选项多选题 200
全球的 - 二选项多选题 200
自然语言推理 (NLI) 中国的 G, E, L 三选项多选题 100
全球的 - 三选项多选题 100
阅读理解 (RC) 中国的 全部7个方面 四选项多选题 200
全球的 - 四选项多选题 200
Memorization 时代错误 (AJ) 中国的 H, AC, LC, F 问答题 150
时间理解 (TU) 中国的 H, AC, LC 问答题 83
电影和音乐推荐 (MMR) 中国的 E 问答题 399
体育理解 (SpU) 中国的 F 问答题 127

🖊️ 引用

@misc{sun2024benchmarking,
      title={Benchmarking Chinese Commonsense Reasoning of LLMs: From Chinese-Specifics to Reasoning-Memorization Correlations}, 
      author={Jiaxing Sun and Weiquan Huang and Jiang Wu and Chenya Gu and Wei Li and Songyang Zhang and Hang Yan and Conghui He},
      year={2024},
      eprint={2403.14112},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}