智谱AI发布中文 LLM 对齐评测基准AlignBench

来源：互联网· 2023-12-13 08:56:29

智谱AI发布了专为中文大语言模型（LLM）而生的对齐评测基准AlignBench，这是目前第一个针对中文大模型的评测基准，能够在多维度上细致评测模型和人类意图的对齐水平。

AlignBench 的数据集来自于真实的使用场景，经过初步构造、敏感性筛查、参考答案生成和难度筛选等步骤，确保具有真实性和挑战性。数据集分为8个大类，包括知识问答、写作生成、角色扮演等多种类型的问题。

微信截图_20231212161515.png

为了实现自动化和可复现性，AlignBench 采用评分模型（如 GPT-4和 CritiqueLLM）为每个模型的回答打分，代表其回答质量。评分模型具有多维度、规则校准的评分方法，提高了模型评分和人类评分的一致性，并提供了细致的评测分析和评测分数。

开发者可以利用 AlignBench 进行评测，并使用评价能力较强的打分模型（如 GPT-4或 CritiqueLLM）进行评分。通过登录 AlignBench 网站，提交结果可以使用 CritiqueLLM 作为评分模型进行评测，大约5分钟即可得到评测结果。

体验地址：https://llmbench.ai/align

您可能关注: 智谱AI

文章来源: https://www.cy211.cn/aizixun/1584.html Chat AI人工智能机器人在线使用

[免责声明]如需转载请注明原创来源;本站部分文章和图片来源网络编辑，如存在版权问题请发送邮件至398879136@qq.com，我们会在3个工作日内处理。非原创标注的文章，观点仅代表作者本人，不代表本站立场。

下一篇 AI遥感监管森林砍伐，LiveEO完成1000万美元融资

相关推荐

AI创业之家