T_CES 325—2024 电力系统的大语言模型微调数据准备规范-团体标准

目录


收录自团体标准信息平台,认准啦(RenZhunLa.com)为执行该团体标准的产品或服务提供推介展位,欢迎留言交流。


标准详细信息
标准状态  现行
标准编号  T/CES 325—2024
中文标题  电力系统的大语言模型微调数据准备规范
英文标题  Fine-tuning data preparation specification for large language models in the power system
国际标准分类号  35.240.99 信息技术在其他领域中的应用
中国标准分类号  L 60
国民经济分类  D441 电力生产
发布日期  2024年12月23日
实施日期  2024年12月30日
起草人  李强、赵峰、向辉、赵永生、邱镇、陈振宇、李博、刘识、李炳森、刘欣、李净雅、 刘洁、陈闻、黄晓光、秦余、王晓东、张琳瑜、周子阔、齐宇诺、韩海安、张敏、邵博文、张国梁、刘园园、 崔迎宝、王兴涛、卢大玮、吴迪、赵如意、宋卫平、杨帆、高攀、王红蕾、董梅、李欢欢、徐小云、叶林峰、 赵林林、王誉博、李扬笛、杨彦、林晨翔、黄璞、秦宗列
起草单位  国网信息通信产业集团有限公司、国家电网有限公司大数据中心、中国电力科学 研究院有限公司、国网智能电网研究院有限公司、北京国网信通埃森哲信息技术有限公司、四川中电启 明星信息技术有限公司、安徽继远软件有限公司、国网山西省电力有限公司、国网山西省电力公司电力 科学研究院、国网福建省电力有限公司、国网冀北电力有限公司、湖北华中电力科技开发有限责任公司
范围  本标准规定了电力系统中大语言模型的微调数据准备相关工作,包括数据采集、清洗、标注、转换、增强和评估等全过程。 本标准适用于电力系统人工智能大语言模型的应用开发等业务场景,帮助业务人员以及开发人员完成模型训练、模型微调等相关工作。
主要技术内容  一、技术框架与流程
全流程标准化
规范覆盖数据采集、清洗、标注、增强、评估全生命周期,形成电力领域LLM微调的闭环管理。流程包括6大环节:数据收集→清洗→标注→增强→划分→验证,确保数据质量贯穿模型开发始终。
电力场景适配性
针对电力系统特性(如设备监测、负荷预测、故障诊断),明确数据需包含电压、电流、温度等实时传感器数据,以及历史日志、环境数据(如气象信息),强调多模态数据融合。
二、关键技术特点
数据质量控制
清洗规则:采用3σ原则和箱型图法检测异常值,缺失值超过30%的字段自动剔除,时间戳强制统一为ISO8601格式。
标注要求:人工标注需电力专家参与,故障类标签需双重复核;自动标注需经预训练模型初筛,错误率阈值控制在5%以内。
增强技术
针对稀缺故障数据,采用GAN生成对抗样本;
时间序列数据通过时间平移、噪声注入提升鲁棒性;
类别不平衡问题使用SMOTE过采样或混合增强(Mixup)解决。
安全与隐私
敏感数据(如用户信息)需SHA-256哈希脱敏;
存储加密采用AES-256算法,传输强制TLS1.2+协议;
访问控制基于RBAC模型,操作日志留存至少6个月。
三、核心参数要求
数据划分比例
训练集70%、验证集20%、测试集10%,少数类别需分层抽样保证分布均衡。
性能指标
故障检测任务优先召回率(目标≥95%);
负荷预测任务要求MAE≤2%,MSE≤5%。
接口规范
实时数据采集需支持REST API/MQTT协议,吞吐量要求单次传输≥100MB,响应时间毫秒级。
四、差异化创新
电力专属标注体系
定义设备ID、故障类型(如过载/短路)、影响区域等电力专用标签字段,区别于通用NLP标注。
动态版本管理
数据集版本号需记录变更日志(如v1.0→v2.0),历史版本保留可追溯,适配电力设备迭代需求。
该标准首次系统化解决了电力领域LLM微调中的数据治理难题,通过场景化流程设计和高安全要求,为智能客服、故障预测等应用提供高质量数据支撑。
是否包含专利信息  
标准文本  不公开
团体详细信息
团体名称中国电工技术学会
登记证号51100000500006049发证机关中华人民共和国民政部
业务范围学术交流、国际合作、专业展览、业务培训、书刊编辑、咨询服务
法定代表人/负责人贾利民
依托单位名称
通讯地址北京市西城区莲花池东路102号天莲大厦10层邮编 : 100055

收录自团体标准信息平台,认准啦(RenZhunLa.com)为执行该团体标准的产品或服务提供推介展位,欢迎留言交流。

回主站