T/AI 126.4—2024 数据湖 第4部分:人工智能技术应用要求-团体标准
目录
标准详细信息 | |
---|---|
标准状态 | 现行 |
标准编号 | T/AI 126.4—2024 |
中文标题 | 数据湖 第4部分:人工智能技术应用要求 |
英文标题 | Data lake Part 4:Technology requirements for AI applications |
国际标准分类号 | 35.240.99 信息技术在其他领域中的应用 |
中国标准分类号 | |
国民经济分类 | I6550 信息处理和存储支持服务 |
发布日期 | 2024年03月19日 |
实施日期 | 2024年03月19日 |
起草人 | 吕晓鹏、赵阳、王凌、倪志云、李鑫峡、谷桐宇、杨旭萌、蔡亚森、宋君、刘衡治、黄铁军、赵海英、崔晓冉、汪志锋、脱立恒、郭嘉、梁凡 |
起草单位 | 北京易华录信息技术股份有限公司、文安智能科技有限公司、美的集团(上海)有限公司、北京安录国际技术有限公司、北京百度网讯科技有限公司、博雅鸿图视频技术有限公司、华为技术有限公司、北京大学、中山大学 |
范围 | 本文件确立了数据湖对人工智能技术应用架构的要求,规定了架构中各部分的功能要求和接口要求等。 本文件适用于数据湖中对人工智能技术应用API的设计与开发。 |
主要技术内容 | 《数据湖 第4部分:人工智能应用技术要求》特色技术包括: (1)隐私计算安全技术 研究建立可追溯的数据安全保障机制,满足数据安全需求。研究基于联邦学习技术,解决数据不出域场景下的数据碰撞问题,提出数据全面融合,孵化高价值模型方法。基于可信执行硬件和其他加密技术,构建数据出域后模型孵化的安全可信环境,实现做到数据可用不可见,确保数据隐私、安全和合规。 (2)智能分级存储技术 考虑到冷热数据分层特性,一方面需大容量低成本的存储能力,另一方面训练中需快速数据检索能力。研究蓝光存储及磁光电一体化智能分级存储技术,将海量数据存放至低成本的蓝光介质,同时将训练数据预加载至高吞吐量的磁或电介质。此外,分级存储还考虑RAID高可靠性机制,对象自动复制能力和敏感数据加密服务,提升资源库健壮性,保障数据存储安全。 (3)分布式训练及推理技术 面对超大参数模型和海量数据给训练资源和时长带来的挑战,探索训练数据切片机制,通过数据并行、模型并行、混合并行等方式,集成上千GPU加速卡的并行计算模式,实现大规模分布式训练,并确保0.9+的线性扩容能力。同时,基于任务需求变化,自动调整资源配给,研究弹性可伸缩的推理架构,提升算法推理的弹性服务能力;开发兼容多种深度学习框架的推理服务工具,并适配多种国产化算力,实现了异构算力资源的统一调度。 |
是否包含专利信息 | 否 |
标准文本 | 不公开 |
团体详细信息 | |||
---|---|---|---|
团体名称 | 中关村视听产业技术创新联盟 | ||
登记证号 | 京民社证字第0011804号 | 发证机关 | 北京市民政局 |
业务范围 | 音视频技术标准研究推广;组织专业培训与咨询;举办展览展示;承接政府委托项目;进行国际交流与合作。 | ||
法定代表人/负责人 | 蒋文 | ||
依托单位名称 | |||
通讯地址 | 北京市海淀区花园路2号牡丹创业楼515 | 邮编 : 100191 |