T/SAIAS 0013.4—2023 教育通用人工智能大模型 第4部分:测评规范-团体标准
目录
标准详细信息 | |
---|---|
标准状态 | 现行 |
标准编号 | T/SAIAS 0013.4—2023 |
中文标题 | 教育通用人工智能大模型 第4部分:测评规范 |
英文标题 | Artificial general intelligence model for education Part 4: Evaluation specification |
国际标准分类号 | 35.240.01 信息技术应用综合 |
中国标准分类号 | |
国民经济分类 | I651 软件开发 |
发布日期 | 2023年07月08日 |
实施日期 | 2023年08月08日 |
起草人 | 申丽萍、吴永和、王士进、张军城、李青、吴砥、卢海燕、钟俊浩、张军、竺林、黄瑾、应振宇、吕雪莹、杨坤、陈露、陈曦、赵佳宝、张博、刘清彪、贺媛婧、刘吉兵、岳鹏、郑曌、唐雪飞、缪庆亮、李春晖、何朝帆、兰焜耀 |
起草单位 | 上海交通大学、华东师范大学、百度网讯科技有限公司、科大讯飞股份有限公司、华为技术有限公司、上海市人工智能行业协会、网易有道信息技术(北京)有限公司、新华三技术有限公司、阿里云计算有限公司、北京高思博乐教育科技股份有限公司、思必驰科技股份有限公司、清华大学、北京邮电大学、国家开放大学、华中师范大学、江苏师范大学、青岛伟东云教育集团有限公司、山东悦知教育科技有限公司、北京世纪好未来教育科技有限公司、第四范式(北京)技术有限公司、北京市第二十中学、江苏中教科信息技术有限公司、成都康赛信息技术有限公司 |
范围 | 本文件规定了教育通用人工智能大模型的测评框架、测评指标、测评维度和测评方法。 本文件适用于教育通用人工智能大模型的基础能力和教学功能的测评。 |
主要技术内容 | 本文件规定了一系列用于评估大模型全方面能力的测评指标、综合测试模型本身的自然语言处理能力、模型应用于各教育场景的能力、模型的价值观、安全性和数据合规性等各个方面。 对以上每一个维度的测评、都相应需要一个高质量的动态更新的测评数据。 1.教育通用人工智能大模型测评框架包括测评指标、测评维度、测评数据集、模型基础能力测评和安全风险测评五个部分。 2.本文件定义了3个一级测评指标和12个二级测评指标,4个一级测评维度、19个二级测评维度和76个三级测评维度。每一个三级测评维度、需要用相应的测试数据集进行相应指标的测评。 3.所有测评维度可以单独测试或者选择部分测试维度组成一个测试子集、或者选择全集进行组合测试。模型基础能力和安全风险测评维度可以参考已有的团体、行业、国家或国际标准。 |
是否包含专利信息 | 否 |
标准文本 | 查看 |
团体详细信息 | |||
---|---|---|---|
团体名称 | 上海市人工智能行业协会 | ||
登记证号 | 51310000MJ4904153L | 发证机关 | 上海市民政局 |
业务范围 | 专业咨询、行业调研、技术指导、人才培训、编辑出版、会展招商、产品推介、参与标准制定、国内外业务交流、承接政府购买服务等 | ||
法定代表人/负责人 | 季昕华 | ||
依托单位名称 | |||
通讯地址 | 上海市浦东新区世博村路231号330室 | 邮编 : 200125 |