T_CES 325—2024 电力系统的大语言模型微调数据准备规范-团体标准
目录
| 标准详细信息 | |
|---|---|
| 标准状态 | 现行 |
| 标准编号 | T/CES 325—2024 |
| 中文标题 | 电力系统的大语言模型微调数据准备规范 |
| 英文标题 | Fine-tuning data preparation specification for large language models in the power system |
| 国际标准分类号 | 35.240.99 信息技术在其他领域中的应用 |
| 中国标准分类号 | L 60 |
| 国民经济分类 | D441 电力生产 |
| 发布日期 | 2024年12月23日 |
| 实施日期 | 2024年12月30日 |
| 起草人 | 李强、赵峰、向辉、赵永生、邱镇、陈振宇、李博、刘识、李炳森、刘欣、李净雅、 刘洁、陈闻、黄晓光、秦余、王晓东、张琳瑜、周子阔、齐宇诺、韩海安、张敏、邵博文、张国梁、刘园园、 崔迎宝、王兴涛、卢大玮、吴迪、赵如意、宋卫平、杨帆、高攀、王红蕾、董梅、李欢欢、徐小云、叶林峰、 赵林林、王誉博、李扬笛、杨彦、林晨翔、黄璞、秦宗列 |
| 起草单位 | 国网信息通信产业集团有限公司、国家电网有限公司大数据中心、中国电力科学 研究院有限公司、国网智能电网研究院有限公司、北京国网信通埃森哲信息技术有限公司、四川中电启 明星信息技术有限公司、安徽继远软件有限公司、国网山西省电力有限公司、国网山西省电力公司电力 科学研究院、国网福建省电力有限公司、国网冀北电力有限公司、湖北华中电力科技开发有限责任公司 |
| 范围 | 本标准规定了电力系统中大语言模型的微调数据准备相关工作,包括数据采集、清洗、标注、转换、增强和评估等全过程。 本标准适用于电力系统人工智能大语言模型的应用开发等业务场景,帮助业务人员以及开发人员完成模型训练、模型微调等相关工作。 |
| 主要技术内容 | 一、技术框架与流程 全流程标准化 规范覆盖数据采集、清洗、标注、增强、评估全生命周期,形成电力领域LLM微调的闭环管理。流程包括6大环节:数据收集→清洗→标注→增强→划分→验证,确保数据质量贯穿模型开发始终。 电力场景适配性 针对电力系统特性(如设备监测、负荷预测、故障诊断),明确数据需包含电压、电流、温度等实时传感器数据,以及历史日志、环境数据(如气象信息),强调多模态数据融合。 二、关键技术特点 数据质量控制 清洗规则:采用3σ原则和箱型图法检测异常值,缺失值超过30%的字段自动剔除,时间戳强制统一为ISO8601格式。 标注要求:人工标注需电力专家参与,故障类标签需双重复核;自动标注需经预训练模型初筛,错误率阈值控制在5%以内。 增强技术 针对稀缺故障数据,采用GAN生成对抗样本; 时间序列数据通过时间平移、噪声注入提升鲁棒性; 类别不平衡问题使用SMOTE过采样或混合增强(Mixup)解决。 安全与隐私 敏感数据(如用户信息)需SHA-256哈希脱敏; 存储加密采用AES-256算法,传输强制TLS1.2+协议; 访问控制基于RBAC模型,操作日志留存至少6个月。 三、核心参数要求 数据划分比例 训练集70%、验证集20%、测试集10%,少数类别需分层抽样保证分布均衡。 性能指标 故障检测任务优先召回率(目标≥95%); 负荷预测任务要求MAE≤2%,MSE≤5%。 接口规范 实时数据采集需支持REST API/MQTT协议,吞吐量要求单次传输≥100MB,响应时间毫秒级。 四、差异化创新 电力专属标注体系 定义设备ID、故障类型(如过载/短路)、影响区域等电力专用标签字段,区别于通用NLP标注。 动态版本管理 数据集版本号需记录变更日志(如v1.0→v2.0),历史版本保留可追溯,适配电力设备迭代需求。 该标准首次系统化解决了电力领域LLM微调中的数据治理难题,通过场景化流程设计和高安全要求,为智能客服、故障预测等应用提供高质量数据支撑。 |
| 是否包含专利信息 | 否 |
| 标准文本 | 不公开 |
| 团体详细信息 | |||
|---|---|---|---|
| 团体名称 | 中国电工技术学会 | ||
| 登记证号 | 51100000500006049 | 发证机关 | 中华人民共和国民政部 |
| 业务范围 | 学术交流、国际合作、专业展览、业务培训、书刊编辑、咨询服务 | ||
| 法定代表人/负责人 | 贾利民 | ||
| 依托单位名称 | |||
| 通讯地址 | 北京市西城区莲花池东路102号天莲大厦10层 | 邮编 : 100055 | |