人工智能研发运营体系(MLOps)实践指南(2023年)中国信通院2023-03-23.pdf
摘要:一、MLOps概述MLOps是通过构建和运行机器学习流水线(Pipeline),统一机器学习(ML)项目研发(Dev)和运营(Ops)过程的一种方法,目的是为了提高AI模型生产质效,推动AI从满足基本需求的“能用”变为满足高效率、高性能的“好用”。本章首先阐述组织在AI大规模生产过程中凸显的管理问题,然后梳理MLOps概念和意义,并分析落地MLOps所遵循的原则。(一)AI生产过程管理问题凸显Gartner调查发现,只有53%的项目能够从AI原型转化为生产1。AI生产转化率低的主要原因在于模型全链路生命周期管理存在问题,包括跨团队协作难度大、过程和资产管理欠缺、生产和交付周期长等。第一,跨团队协作难度大。机器学习项目生命周期中涉及业务、数据、算法、研发、运维等多团队,团队间缺乏相同的技术和业务背景知识作为协作基础,从而带来沟通屏障。同时每个团队的协作工具不尽相同,从数据和算法转化为推理服务的整个过程漫长而复杂,从而增大协作难度。第二,过程和资产管理欠缺。模型生产过程无标准化管理,导致AI资产的价值无法有效发挥。原因在于以下几方面:一是生产过程冗长难管理,AI模型生产过程涉及的环境、流程复杂,各部门习惯于小作坊的生产模式,重复造轮子现象普遍;二是AI资产无集中共享机制,组织内数据、特征、模型等碎片化AI资产无法共享使用,优秀实践经验难以沉淀。第三,生产和交付周期长。机器学习模型生产和交付是一个漫长、复杂又易出错的过程,且耗费的时间成本较高。据Algorithmia报告显示,38%的企业花费超过50%的时间在模型部署上2。这一现象的主要原因有三:一是模型文件的生产需要经过不断重复的实验和评估;二是模型服务需要通过编写服务代码和配置参数,并达到业务需求后,方可部署上线;三是业务效果的保证需通过在线模型开展服务验证和结果对比。(二)MLOps概念与意义MLOps通过连接模型构建团队、业务团队及运维团队,为机器学习模型全生命周期建设标准化、自动化、可持续改进的过程管理体系,使组织规模化、高质量、高效率、可持续地生产机器学习模型。MLOps能有效缓解AI生产过程的各种管理问题,提升AI生产的转化效率。MLOps理念源于面向软件工程的管理方法论DevOps,起初希望可以参考传统软件生产过程的管理方法,以应对提质增效的挑战。然而DevOps并不完全适用,因为机器学习项目是以数据、算法、代码、模型为核心的动态模式,整个过程充满探索性、实验性和不确定性。若要迎合动态模式的需求,需要一种融合了机器学习特性的DevOps方法或体系,MLOps应运而生。MLOps意义和价值主要体现在以下几方面。第一,建立团队协作机制。通过在组织级明确各流程中各角色(例如业务人员、数据工程师、数据科学家、运维工程师等)和职责,并以流水线的方式连接各团队成员的工作,使团队协作机制得以建立,打破沟通屏障,让不同角色各司其职(例如,使数据科学家不用再沦陷于处理繁琐的模型更新和维护等工作),降低团队间整体合作成本。第二,实现敏捷交付过程。通过自动化流水线等方式实现敏捷交付,从而提高模型交付效率,加快模型迭代速度,提高模型效果,提供更丰富、更优质的产品体验。第三,构建全链路反馈闭环。通过贯通需求、开发、交付、部署、运营多环节的全链路,嵌入合规、监管、道德、安全等要求,形成完整的全链路流水线。同时,持续改进和简化原有运营和治理流程,高效率、低风险地实现持续集成、部署、训练和监控,形成有效的反馈闭环。第四,统一管理AI资产。机器学习项目中数据、算法、特征和模型等资产是一个有机整体,通过对AI资产的高效统一管理,并加以风险防控和安全管理等手段,实现有效治理。(三)MLOps实施原则作为AI基础设施之一,MLOps促进各团队高效协作,提升业务价值产出。一般来说,实施MLOps需要遵循的原则包括自动化、持续性、版本化、可监控、可测试、可追溯、可复现、可协作等。自动化包括模型自动化构建、自动化集成、自动化测试、自动化部署等,减少人工操作,提高操作准确性,是MLOps的核心。持续性包括持续集成(CI)、持续部署(CD)、持续训练(CT)、持续监控(CM),是MLOps实现全流程闭环的基础。版本化包括数据、模型和代码等AI资产的版本控制能力,是达到可复现、可追溯的基础,是保证资产可在组织各层面共享使用的基本能力之一。可监控包括模型、模型服务及模型生产过程等维度的健康状态监控能力,以发现数据漂移和概念漂移,识别问题和改进方向,是维护高质量模型服务的基础。可测试从模型评估、集成测试、系统测试、业务测试、生产验证等过程维度,保障模型的功能、性能和可信能力(安全性、保密性、可解释性、公平性等)满足需求,是保证模型交付质量的重要手段。可追溯通过“效果→模型→实验→数据”全流程追溯过程的实现,提供模型实验及数据的血缘回溯能力,是根因分析的基础,是事后审计的手段,也是过程可信的体现。可复现通过端到端记录模型构建过程相关数据、算法、参数等元数据信息,支持重现实验过程并获得高度相似的结果,是数据科学家开展模型工程的重要支撑。可协作确保不同团队角色在数据、代码和模型上进行协作,是全流程可持续闭环实施的协作基础,是提高团队整体效率的保障。
免责声明: 1.本站部分作品是由网友自主投稿和发布、编辑整理上传,对此类作品本站仅提供交流平台,不为其版权负责。 2.如发布机构认为违背了您的权益,请与我们联系,我们将对相关资料予以删除。 3.资源付费,仅为我们搜集整理和运营维护费用,感谢您的支持!
合集服务: 单个细分行业的合集获取请联系行研君:hanyanjun830
-
数字经济专题报告:人工智能与数字技术驱动医药产业升级 中国银河 2024-03-27(52页) 附下载
核心观点随着科技的不断进步,数字医疗和人工智能(AI)医疗已经成为推动全球医疗健康产业发展的重要力量...
9.8 MB共52页中文简体
5小时前220积分
-
人工智能专题研究系列五:Kimi智能助手热度高涨,国产大模型加速发展 源达信息 2024-03-26(13页) 附下载
投资要点Kimi智能助手爆火,AI大模型商业化可期2024年3月18日月之暗面公告Kimi智能助手的...
1021.22 KB共13页中文简体
1天前220积分
-
通信数字经济专题报告:人工智能行业应用如火如荼,数字经济算力基建再接再砺 中国银河 2024-03-25(28页) 附下载
核心观点:OpenAI推出文生视频模型Sora,人工智能赋能短视频应用发展超预期。从全球角度看,Op...
2.44 MB共28页中文简体
2天前82020积分
-
人工智能周报(24年第12周):阿里通义千问开放1000万字长文档处理功能,腾讯发布GiiNEX AI游戏引擎 国信证券 2024-03-25(12页) 附下载
核心观点人工智能动态:1)产品应用:①阿里通义千问升级,免费开放1000万字长文档处理功能。阿里称目...
905.26 KB共12页中文简体
2天前57020积分
-
数字经济:算力存力风起云涌,人工智能晖光日新 中国银河 2024-03-24(48页) 附下载
数字经济——颠覆全球格局,创造全新机遇。 全球经济目前正从以规模效应为根本的全球化经济向以数据为基础...
4.91 MB共48页中文简体
3天前86420积分
-
中国电子信息制造行业:人工智能推动算力需求激增,为算力供应链企业维持较好的信用状况提供支撑 中诚信国际 2024-03-22(9页) 附下载
要点从概念提出到文生视频模型Sora的推出,人工智能发展经历了三次浪潮和两次寒冬,数据资源的体量及可...
1.08 MB共9页中文简体
3天前64520积分
-
计算机行业深度研究:量子计算:人工智能与新质生产力的“未来引擎” 民生证券 2024-03-22(21页) 附下载
量子计算有望成为解决AI算力瓶颈的颠覆性力量。与传统计算相比,量子计算能够带来更强的并行计算能力和更...
2.61 MB共21页中文简体
3天前68420积分
-
人工智能周报(24年第11周):谷歌推出社会学习框架,Meta再建数据中心 国信证券 2024-03-21(11页) 附下载
核心观点人工智能动态:1)产品应用:微软宣布与众多医疗机构联手成立“Trustworthy&Resp...
855.76 KB共11页中文简体
6天前93620积分
-
中国数字包容发展研究报告(2024年) 中国信通院 2024-03-21(54页) 附下载
数字包容概念的源起和意义源起:数字技术已成为经济社会发展的最大变量当前,数字技术各领域颠覆创新与协同...
1.49 MB共54页中文简体
6天前80915积分
-
数字乡村发展动态(2024年第2期) 中国信通院 2024-03-21(11页) 附下载
中央精神1.《中共中央国务院关于学习运用“千村示范、万村整治”工程经验有力有效推进乡村全面振兴的意见...
859.84 KB共11页中文简体
6天前94315积分
-
绿色算力技术创新研究报告(2024年) 中国信通院 2024-03-21(47页) 附下载
一、绿色算力发展态势数字经济时代,算力正在成为一种新的生产力,广泛融合到社会生产生活的方方面面,为千...
1.35 MB共47页中文简体
6天前14610积分
-
通信行业动态:边缘智能—铺平人工智能的“最后一公里” 民生证券 2024-03-19(13页) 附下载
起源于云计算,主要为应对海量数据需求。云计算的处理方式是将所有数据上传至计算资源集中的云端数据中心或...
1 MB共13页中文简体
1周前43120积分
-
前瞻科技研究:人工智能驱动单芯片PPA提升,背部供电将成为行业新趋势 国金证券 2024-03-15(19页) 附下载
投资逻辑:半导体行业受AI驱动将步入高速增长时代。2023年,尽管全球半导体销售总额较上一年下降8....
3.38 MB共19页中文简体
1周前92220积分
-
通信行业研究周报:全球人工智能与卫星行业快速发展,积极关注相关投资机会 天风证券 2024-03-17(10页) 附下载
上周行业动态:Figure首发OpenAI大模型加持机器人近日,Figure AI发布了一段引人注目...
1.64 MB共10页中文简体
1周前80820积分
-
人工智能行业:新质生产力背景下,AI大模型赋能评级行业数字化转型的关键要素 大公国际 2024-03-15(4页) 附下载
摘要2024年,全国“两会”《政府工作报告》首次提及“人工智能”,指出要加快发展新质生产力,深化大数...
514.4 KB共4页中文简体
1周前69220积分
-
信息无障碍动态(2024年第2期) 中国信通院 2024-03-15(9页) 附下载
部委动态工业和信息化部指导发布互联网应用适老化优秀案例集2月1日,中国信息通信研究院、数字适老化及信...
290.99 KB共9页中文简体
1周前65615积分
-
计算机行业周报:大模型竞争白热化,政府报告首提“人工智能+” 上海证券 2024-03-14(13页) 附下载
市场回顾过去一周(3.4-3.8)上证综指上涨0.63%,创业板指下跌0.92%,沪深300指数上涨...
626.83 KB共13页中文简体
1周前75720积分
-
传媒互联网周报:Claude3发布、“人工智能+”行动开启,海内外多模态加速推进 国信证券 2024-03-11(14页) 附下载
核心观点传媒板块本周表现:行业下跌2.32%,跑输沪深300,跑输创业板指。本周(3.4-3.10)...
335.38 KB共14页中文简体
2周前27220积分
-
人工智能周报(24年第10周):ChatGPT新增朗读功能,Anthropic发布Claude 3系列大语言模型 国信证券 2024-03-11(12页) 附下载
核心观点人工智能动态: 1) 产品应用: ChatGPT 新增朗读功能, 支持 37 种语言、 5种...
646.36 KB共12页中文简体
2周前67320积分
-
计算机行业双周报:苹果,正在生成式人工智能领域进行大量投资 东莞证券 2024-03-11(8页) 附下载
投资要点:行情回顾及估值:申万计算机板块近2周(02/26-03/08)累计上涨5.30%,跑赢沪深...
380.53 KB共8页中文简体
2周前15620积分