T_CES 326—2024 面向电力的文本检索增强生成技术规范-团体标准
目录
| 标准详细信息 | |
|---|---|
| 标准状态 | 现行 |
| 标准编号 | T/CES 326—2024 |
| 中文标题 | 面向电力的文本检索增强生成技术规范 |
| 英文标题 | Electricity-oriented text retrieval augmented generation of technical specifications |
| 国际标准分类号 | 35.240.99 信息技术在其他领域中的应用 |
| 中国标准分类号 | L 60 |
| 国民经济分类 | D441 电力生产 |
| 发布日期 | 2024年12月23日 |
| 实施日期 | 2024年12月30日 |
| 起草人 | 李强、赵峰、向辉、刘迪、邱镇、陈振宇、李博、刘识、李炳森、王琪媛、黄晓光、 王晓东、张琳瑜、秦余、张国梁、邹达明、商峻、于然、吴佳、韩海安、张敏、彭鑫霞、刘欣、李净雅、刘洁、 郭厅、李文璞、赵浩东、张桉恺、宋卫平、杨帆、高攀、王红蕾、董梅、李欢欢、徐小云、叶林峰、赵林林、王誉博、 李扬笛、谢炜、林爽、黄璞、秦宗列 |
| 起草单位 | 国网信息通信产业集团有限公司、国家电网有限公司大数据中心、中国电力科学 研究院有限公司、国网智能电网研究院有限公司、北京国网信通埃森哲信息技术有限公司、四川中电启 明星信息技术有限公司、安徽继远软件有限公司、国网山西省电力有限公司、国网山西省电力公司电力 科学研究院、国网福建省电力有限公司、国网(北京)综合能源规划设计研究院、国网冀北电力有限公司 |
| 范围 | 本标准规定了面向电力的文本检索增强生成技术中的文本基本要求、知识库构建基本要求和检索增强生成文本基本要求。 本标准适用于基于知识库和生成式模型实现检索增强生成文本内容的场景。 |
| 主要技术内容 | 一、核心框架与适用范围 该标准围绕电力领域文本检索增强生成技术(RAG),从文本要求、知识库构建、检索增强生成三个维度提出技术规范,适用于基于知识库和生成式模型实现电力领域文本智能生成的场景。 二、关键技术特点 电力文本标准化处理 规定文本存储格式(txt/docx/md/pdf),要求文件命名包含专业信息、日期和唯一编号(如输电线路金具部件介绍_2023-10-11_0001)。 严格质量管控:禁止混杂不同领域或权限内容,需去除重复数据、特殊字符及非文本元素(如图表需转为文字)。 知识库构建优化 文本拆分支持字符、段落、语义级拆分,需根据电力文本结构特点选择(如段落清晰的优先按段落拆分)。 向量化方法需适配中文电力文本,要求易调用、易部署,且与后续检索环节的向量化方法一致。 向量数据库需满足高效检索(索引技术优化)、大容量存储(适应电力数据规模)及社区支持等要求。 检索增强生成控制 检索环节: 用户问题向量化后与知识库匹配,默认返回相似度最高的3条结果(k值可调)。 支持按匹配度排序或随机组合检索内容,形成输入上下文。 生成环节: 结合检索内容与用户问题,通过生成式AI模型输出结果,响应时间需控制在20秒内。 结果需以结构化格式返回(如{"结果":"生成文本"}),并确保实时性、准确性和专业性。 三、安全与管控要求 数据安全:文本存储需在防火墙保护的专用环境,禁用USB接口,定期备份。 权限分级:内部人员可直接获取结果,外部人员需脱敏处理。 日志记录:完整记录用户问题、向量化结果及生成文本,含时间戳追踪。 四、典型应用示例 以“三相交流电”查询为例,展示从问题向量化→知识库匹配→生成答案的全流程,输出结果需简明扼要(如定义“由三个频率相同、相位差120°的交流电路组成的电力系统”)。 该标准通过规范文本处理、知识库构建及生成控制,显著提升电力领域AI生成内容的准确性与可靠性,尤其适用于需结合专业知识的问答场景。 |
| 是否包含专利信息 | 否 |
| 标准文本 | 不公开 |
| 团体详细信息 | |||
|---|---|---|---|
| 团体名称 | 中国电工技术学会 | ||
| 登记证号 | 51100000500006049 | 发证机关 | 中华人民共和国民政部 |
| 业务范围 | 学术交流、国际合作、专业展览、业务培训、书刊编辑、咨询服务 | ||
| 法定代表人/负责人 | 贾利民 | ||
| 依托单位名称 | |||
| 通讯地址 | 北京市西城区莲花池东路102号天莲大厦10层 | 邮编 : 100055 | |