人工智能研发运营体系(MLOps)实践指南(2023年) 中国信通院 2023-03-23 附下载
发布机构:中国信通院发布时间:2023-03-23大小:5.07 MB页数:共72页上传日期:2023-03-24语言:中文简体

人工智能研发运营体系(MLOps)实践指南(2023年)中国信通院2023-03-23.pdf

摘要:一、MLOps概述MLOps是通过构建和运行机器学习流水线(Pipeline),统一机器学习(ML)项目研发(Dev)和运营(Ops)过程的一种方法,目的是为了提高AI模型生产质效,推动AI从满足基本需求的“能用”变为满足高效率、高性能的“好用”。本章首先阐述组织在AI大规模生产过程中凸显的管理问题,然后梳理MLOps概念和意义,并分析落地MLOps所遵循的原则。(一)AI生产过程管理问题凸显Gartner调查发现,只有53%的项目能够从AI原型转化为生产1。AI生产转化率低的主要原因在于模型全链路生命周期管理存在问题,包括跨团队协作难度大、过程和资产管理欠缺、生产和交付周期长等。第一,跨团队协作难度大。机器学习项目生命周期中涉及业务、数据、算法、研发、运维等多团队,团队间缺乏相同的技术和业务背景知识作为协作基础,从而带来沟通屏障。同时每个团队的协作工具不尽相同,从数据和算法转化为推理服务的整个过程漫长而复杂,从而增大协作难度。第二,过程和资产管理欠缺。模型生产过程无标准化管理,导致AI资产的价值无法有效发挥。原因在于以下几方面:一是生产过程冗长难管理,AI模型生产过程涉及的环境、流程复杂,各部门习惯于小作坊的生产模式,重复造轮子现象普遍;二是AI资产无集中共享机制,组织内数据、特征、模型等碎片化AI资产无法共享使用,优秀实践经验难以沉淀。第三,生产和交付周期长。机器学习模型生产和交付是一个漫长、复杂又易出错的过程,且耗费的时间成本较高。据Algorithmia报告显示,38%的企业花费超过50%的时间在模型部署上2。这一现象的主要原因有三:一是模型文件的生产需要经过不断重复的实验和评估;二是模型服务需要通过编写服务代码和配置参数,并达到业务需求后,方可部署上线;三是业务效果的保证需通过在线模型开展服务验证和结果对比。(二)MLOps概念与意义MLOps通过连接模型构建团队、业务团队及运维团队,为机器学习模型全生命周期建设标准化、自动化、可持续改进的过程管理体系,使组织规模化、高质量、高效率、可持续地生产机器学习模型。MLOps能有效缓解AI生产过程的各种管理问题,提升AI生产的转化效率。MLOps理念源于面向软件工程的管理方法论DevOps,起初希望可以参考传统软件生产过程的管理方法,以应对提质增效的挑战。然而DevOps并不完全适用,因为机器学习项目是以数据、算法、代码、模型为核心的动态模式,整个过程充满探索性、实验性和不确定性。若要迎合动态模式的需求,需要一种融合了机器学习特性的DevOps方法或体系,MLOps应运而生。MLOps意义和价值主要体现在以下几方面。第一,建立团队协作机制。通过在组织级明确各流程中各角色(例如业务人员、数据工程师、数据科学家、运维工程师等)和职责,并以流水线的方式连接各团队成员的工作,使团队协作机制得以建立,打破沟通屏障,让不同角色各司其职(例如,使数据科学家不用再沦陷于处理繁琐的模型更新和维护等工作),降低团队间整体合作成本。第二,实现敏捷交付过程。通过自动化流水线等方式实现敏捷交付,从而提高模型交付效率,加快模型迭代速度,提高模型效果,提供更丰富、更优质的产品体验。第三,构建全链路反馈闭环。通过贯通需求、开发、交付、部署、运营多环节的全链路,嵌入合规、监管、道德、安全等要求,形成完整的全链路流水线。同时,持续改进和简化原有运营和治理流程,高效率、低风险地实现持续集成、部署、训练和监控,形成有效的反馈闭环。第四,统一管理AI资产。机器学习项目中数据、算法、特征和模型等资产是一个有机整体,通过对AI资产的高效统一管理,并加以风险防控和安全管理等手段,实现有效治理。(三)MLOps实施原则作为AI基础设施之一,MLOps促进各团队高效协作,提升业务价值产出。一般来说,实施MLOps需要遵循的原则包括自动化、持续性、版本化、可监控、可测试、可追溯、可复现、可协作等。自动化包括模型自动化构建、自动化集成、自动化测试、自动化部署等,减少人工操作,提高操作准确性,是MLOps的核心。持续性包括持续集成(CI)、持续部署(CD)、持续训练(CT)、持续监控(CM),是MLOps实现全流程闭环的基础。版本化包括数据、模型和代码等AI资产的版本控制能力,是达到可复现、可追溯的基础,是保证资产可在组织各层面共享使用的基本能力之一。可监控包括模型、模型服务及模型生产过程等维度的健康状态监控能力,以发现数据漂移和概念漂移,识别问题和改进方向,是维护高质量模型服务的基础。可测试从模型评估、集成测试、系统测试、业务测试、生产验证等过程维度,保障模型的功能、性能和可信能力(安全性、保密性、可解释性、公平性等)满足需求,是保证模型交付质量的重要手段。可追溯通过“效果→模型→实验→数据”全流程追溯过程的实现,提供模型实验及数据的血缘回溯能力,是根因分析的基础,是事后审计的手段,也是过程可信的体现。可复现通过端到端记录模型构建过程相关数据、算法、参数等元数据信息,支持重现实验过程并获得高度相似的结果,是数据科学家开展模型工程的重要支撑。可协作确保不同团队角色在数据、代码和模型上进行协作,是全流程可持续闭环实施的协作基础,是提高团队整体效率的保障。

免责声明:
1.本站部分作品是由网友自主投稿和发布、编辑整理上传,对此类作品本站仅提供交流平台,不为其版权负责。
2.如发布机构认为违背了您的权益,请与我们联系,我们将对相关资料予以删除。
3.资源付费,仅为我们搜集整理和运营维护费用,感谢您的支持!

合集服务:
单个细分行业的合集获取请联系行研君:hanyanjun830

关于上传者

文档

236

粉丝

0

关注

0
相关内容
加入星球
开通VIP,可免费下载 立即开通
开通VIP
联系客服 扫一扫

扫一扫
联系在线客服

公众号

扫一扫
关注我们的公众号

在线反馈
返回顶部