01.引言
2025年伊始,越来越多的信息中心在审批IT运维项目时,要求提供ROI测算,说明项目建设完成后可以带来哪些成本的节约和效率的增长,并且非常审慎进行多轮评估。此外,也有更直接的IT部门,要求全年IT运维外包人员缩减20%,简单直接地用KPI牵引推动降本增效。
一时间运维降本增效成为企业IT重点关注的任务之一,无论是国央企、政府还是民营企业都在追求效率提升和成本降低,包括进一步的服务能力提升等。其必要性主要来自以下几个因素:
对于运维组织来说,“降本增效”看似是一项艰巨的挑战,但“降本增效”的目的绝非单纯的“削减开支”,它更是运维组织的机遇,通过技术升级、流程创造、组织进化三位一体的方式,推动运维组织从“救火队”转型为“业务赋能者”,成为企业数字化转型的核心引擎。那么该如何抓住这次机遇?
02.运维降本与增效的思考
在回答运维如何降本增效这个问题前,我们需要先明确,该如何描述和评价“运维效率”。
从局部或具体任务看,效率就是运维服务中各类KPI指标,如一线关单率、服务平均响应时长、平均发布耗时等,通过指标的量化衡量某项任务或者服务效率的高低。组织可以通过技术或管理等手段优化提升,比如可以通过大模型、智能客服等技术手段提升服务响应效率,也可以通过培训赋能、考核激励等手段激励一线提升服务响应速度。KPI指标可以反馈和衡量某项任务、流程、职能的效率,但无法反馈全局运维效率情况。
从全局或组织整体视角看,运维效率是一个组织服务能力和服务价值的体现,反映的是在相同运维成本条件下,组织服务能力水平,包括服务项、服务范围、服务质量等,如下公式:
其他衡量全局效率的方式包括运维应用系统数量/运维人数、负责资源数量/运维人数、全年业务可用性等等。
通过公式可推导运维效率提升的手段包括:
但无论是何种办法,效率提升的前提是对运维成本和运维能力做量化,并能够与组织管理者、运维服务客户通过共同的语言建立共识,比如“钱”。
1)运维成本构成与控制分析
在明确如何衡量运维效率后,我们再来看IT运维成本的构成,然后基于成本来分析如何控制成本和提升效率。
IT运维成本由直接成本和间接成本两部分构成,运维的直接成本指IT运维的直接开销,如人员、资源、采购等成本,直接成本是IT运维为了支撑业务和组织所必需的投入,可以通过技术和管理的手段进行节约和优化。直接成本中的各项组成并不是相互独立的,如运维外采,主要是服务采购、设备采购、软件采购,其中的服务和设备采购,分别与人员成本和资源成本相关。
运维的间接成本指IT运维中投入的隐性成本,如沟通成本、停机损失等,如果管理不当可能会导致直接成本的直线上升。
对应的各项成本控制与优化,可以通过在线化、自动化、智能化和体系化的方式依次开展。
2)人员成本控制与提效方法
人员成本是IT成本中的重要部分,根据Gartner 2023年IT运维成本报告显示:
运维部门除了面对如此高的人员成本外,另一个难题是运维技术人才培养周期长,运维组织成“金字塔”结构,大中型企业中,基础运维人员数量占比可达40%~50%,如何驱动基础和中级运维人员,在有限的组织成本下,激活员工,发挥和创造更高的价值?
通过在线化-自动化-智能化-体系化的成本控制方法看人员成本:
(1)人员成本管理的在线化
通过在线化的手段,记录、统计、跟踪运维人员日常工作,对于一线运维人员,理论上其工作在线化率可以达到100%,即所有的服务受理、运维工作开展、变更操作等均可通过在线化手段进行。通过运维工作在线化执行和记录,进而实现服务水平的衡量和评价,在服务范围不变的情况下,可以通过优化SLA的方式提升服务效率。
同时运维组织对外提供的服务也均通过在线化开展,通过统一的服务目录规范运维组织提供的服务范围和服务价值。组织可以通过扩展服务客户范围、增加服务项等手段,提升服务价值,在运维人员成本不变的情况下,实现提效。
(2)人员成本管理的自动化
自动化运维,作为运维人员提效的最直接有效的手段,因其批量执行效率高、人工干预少无误操作、操作质量高等优势逐渐被广泛地应用于IT基础设施运维和应用运维中。
如某证券通过应用发布自动化建设,实现公司100余套应用系统、2万+主机的集中发布管控,相较于传统发布,单套系统发布效率提升3倍以上,单应用系统每周发布可节约人力投入6.2人/天。
同样,自动化运维也可用于承接外包运维服务工作,从而降低服务外采费用,如某能源操作系统运维外包小组(共6人),通过自动化运维工具实现服务器巡检、基线扫描、漏洞修复、补丁更新等运维变更自动化,全年节约人力投入3397个工时,人力成本可节约28%。
那么组织该如何建设自动化运维能力,通过OASR框架模型来看:
(3)人员成本管理的智能化
运维人员效率低下,一方面是需要从事大量繁琐且重复的运维工作,另一方面是在面对复杂运维问题时,个人经验不足导致的。自动化运维有效地改善了运维工作繁琐和重复的问题。而大模型的出现为第二个难题也带来了一定的转机。
对于基础运维人员来说,一般会存在个人经验不足和专业知识匮乏的问题:
通过大模型,可以改善运维人员知识有限,专业能力不足的问题,结合大模型以及私域运维知识库,可以建设专业运维助手,辅助运维人员进行专项运维工作。
运维问答助手:
运维任务引导:
(4)人员成本管理的体系化
针对组织人员设定阶段发展目标,并在各阶段分别配套组织角色职能、管理流程和规范以及配套工具能力,实现有序发展。
3)资源成本控制与提效方法
根据Gartner 2023年及IDC 2024年报告分析,组织中资源成本占比为30%~60%,是除人力成本外的另一大成本项。
而在成本管理过程中,往往会存在以下问题:
我们同样可以通过在线化-自动化-智能化-体系化的成本控制方法来对资源成本进行控制与优化:
(1)资源成本控制的在线化
同样的,资源成本管理的基础是能够对运维资源对象有清晰的认知,通过线上化的手段厘清配置资源信息,为资源优化、成本控制提供数据支撑,而资源信息在线化最有效的载体是CMDB。CMDB的核心价值是实现IT设施 “数字镜像化”,凡是属于信息科管理的IT对象,均可在配置库中找到唯一实例数据,助力于资产盘点、资源利用率分析及规划等运维工作开展。
(2)资源成本控制的自动化
资源的自动化管理可以分为自动化采集、自动化盘点、自动化调配三部分。
(3)资源成本控制的智能化
基于数据统计和分析,通过数据化和智能化的手段进行资源调整,比如通过容量趋势预测,提前预测性能瓶颈,进行主动扩容。
或通过全局算力调度,利用不同应用忙闲时间的差异,实现资源的错峰调配,有效节约资源。
即使不借助AI,通过简单的资源统计与分析,也能够主动发现资源空耗和浪费,主动优化资源,节约成本。如僵尸业务统计和低负载分析。
通过清退僵尸系统和长期低负载资源,能够非常直观地降低企业资源投入,从而降低运营成本;既能够减少不必要的维护成本,提升运营维护效率;也能够识别和清退长期较少维护,存在安全风险、漏洞高的僵尸系统,提升网络安全。
如嘉为蓝鲸在某项目中:通过CMDB主机资产梳理排查出1000+台僵尸虚机,排查agent异常主机,其中有982台确定已经关机不用;总计排查的空闲虚机资源数量已经有2000+台,预计成本节省约200万/年。
(4)资源成本控制的体系化
无论是资源配置管理还是资源容量管理,均可以形成一套管理体系。
如配置管理,需要形成配置采集、配置存储、配置管理和配置消费于一体的可消费的配置管理体系,其中:
进而构建容量管理体系,实时了解全局容量情况,包括总量、使用量、可调配资源容量等,通过容量管理实现:
同时,结合云、云管平台可以实现资源成本的体系化和精细化管理,提升资源利用率、量化资产价值,并优化资源总体成本。
针对企业用云全生命周期,从工具-流程-人员等多维度体系保障用云成本的持续优化。
4)外采成本的控制与提效方法
外采成本主要包括运维服务外采、软硬件资源外采以及运维软件外采。
运维服务外采一般包括系统运维、应用运维、桌面运维等服务外包。此类外包工作特点包括重复性高、附加值低、风险可控等,如系统巡检、补丁更新;但因外包人员成本控制,人员调整等因素,导致服务采购成本增加,但服务范围、服务能力并没有提升,难以真正的降本增效,此部分同样可以通过在线化手段进行管理,并通过自动化和智能化的手段减少外采人员数量。软硬件外采主要是资源成本,可以参考上文资源成本控制方法。
那么运维软件采购成本该如何控制?因系统异构以及场景化运维需求,需要采购运维软件,如监控、流程、自动化等,商用软件的封闭性导致难以生长,采购成本居高不下。当前企业运维工具建设正从烟囱式建设向平台化建设迈进,一体化运维因其开放、生长、自主可控等特点,有效改善运维工具重复建设,无法满足个性化扩展需求的困局。在一体化业务设计规划与建设中,建议组织充分考虑运维工具现状、管理要求与行业实践,实现运维业务一体化,技术架构平台化、运营赋能数智化。
运维软件工具体系建设建议蓝图:实现运维在线化、操作自动化、场景智能化。
但即使采用平台化建设运维工具体系,依然无法避免需要投入大量的采购成本,尤其是针对个性化场景时,标准产品软件无法满足需求,定制开发成本采购持续居高不下。建议组织构建运维开发平台如嘉为蓝鲸PaaS,培养运维开发力量,实现运维软件自主开发自主建设,进一步节约成本。采用平台化运维的优势包括:
同时,可以借助蓝鲸社区和生态的力量,进一步分担运维软件开发成本,在蓝鲸社区中由社区成员和生态伙伴上传了大量的运维场景工具,运维人员可以快速获取并部署到本地实现能力复用,从而减少开发重复投入,降低成本。借助社区生态,运维人员能快速掌握平台运维及开发能力,降低运维开发转型难度,助力运维组织成长。
5)停机损失成本控制与优化
业务保障作为运维组织的核心价值,业务异常将导致业务损失以及服务满意度下降,这部分损失对于运维组织是不可接受的。相应地为了提升业务连续性,需要有配套的运维成本投入,如监控、发布、应急等。
对于业务连续性建设,可以参考SRE相关实践,如国内的SRE精英联盟,来自于互联网、运营商、金融等行业领军企业的 SRE 团队组织了SRE研讨社区,定期开展社区分享活动,共同探讨 SRE 在各企业的发展路径,分享各自的实战经验,并总结出了这份来自一线实战的、详实而持续更新的《SRE实践白皮书》。
SRE的主要目标是通过结合软件工程和系统运维的最佳实践,提高大规模分布式系统的可靠性、可用性、性能和效率。以下是部分 SRE 追求的核心目标:
组织可以参考SRE服务领域实践开展运维体系建设,但综合考虑成本与收益,建议组织有选择性地建设,比如对不可接受的损失的配套工具必须建设,如监控、代码检查等;其他工具综合考虑ROI建设,如用户体验优化等。
6)沟通成本的控制与优化
据某大型企业调研显示,运维团队每周花费30%工时在无效沟通上,这无疑导致了人员成本的增加。
导致运维人员沟通成本增高的主要原因包括:
针对上述问题,建议组织可以采用在线化-自动化-智能化的方式进行优化和控制。
沟通在线化,打造统一服务入口,通过统一的ITSM受理、记录、评价运维服务,既规范了服务方式,又实现了运维服务的在线化,如通过蓝鲸ITSM构建企业数字化运维服务工作台。
服务实现自动化:通过自动化与IT服务打通,实现服务受理后自动化交付,提升响应效率和用户满意度。同时对于非运维专业工作,鼓励通过工具进行提效,如豆包、Kimi,辅助知识检索、生成会议纪要、编写文档等,让运维人员聚焦专业工作。
服务交互智能化:通过大模型提升一线服务效率。
普通用户一般会向IT提出大量重复性的问题。这类问题大同小异,往往多人询问同一个问题,但是仍需一对一指导,费时费力。一些日常咨询问题,通过搜索引擎等其他方式可以解决,仍需求运维工程师解决。通过大模型、知识库等建立知识智能问答、工单智能提交、自动派单智能化能力,释放一线运维人员精力,提升用户满意度。
7)管理成本的控制与优化
管理成本指保障IT运维体系正常运转所需的非直接技术支出,包括流程管理、制度合规、培训与知识、风险管理、组织协调等。管理成本高的主要原因包括流程低效、组织协同难度大、工具碎片化、信息不集中等原因。通过人员、资源、沟通等成本和效率优化方式,能够为管理成本带来一定的优化空间,但仍可能因为信息分散、数据不集中导致决策难度增大,管理效率下降。
因此,优化管理成本的首要任务是能够将运维数据进行量化展示和统计,包括系统运行态势、运维任务状态、安全态势等等。通过数据构建运维驾驶舱,实现一图观全局。如:
(1)核心业务监测
(2)全局应用状态
(3)事件问题追踪
除了实现运维数据可视化外,可以通过成本分摊、核算、货币化等手段,将运维成本进行可视化,通过工单、系统等手段对运维服务做成本量化,明晰成本构成,为运维预算规划提供基础,同时可以有针对性地进行成本优化和控制。
如某央企公司IT成本摊销管理,通过ITSM实现服务计价,量化服务成本,并通过报表展示成本摊销,为IT预算设计和优化提供数据支撑。首先分析IT组织成本构成,包括固定成本、服务成本、资产折旧、人员薪酬。
其次明确各项成本的数据来源,比如服务成本通过服务工单进行统计和结算,固定分摊图、人员薪资通过财务和人力系统提供数据。最后对数据进行汇总统计,形成IT部门成本明细。实现运维成本可视化、管理规则可优化、运维预算可规划的目标。
03.运维降本增效与转型实践
1)某集团公司运维价值量化实践
某集团公司,人均运维1000+服务器,人均对接和服务30+研发用户。极高的运维效率背后,是其多年运维降本增效的实践与沉淀。
当前运维团队业务覆盖研发过程可靠性、版本发布连续性、持续运营稳定性以及降本增效持久性4大类200余项服务项。目前已实现100%运维在线化、自动化运维工具积累400+、智能化场景全面普及,以及运维管理体系化建设。
(1)在线化:以ITSM为核心的人效管理
将运维组织负责的工作100%线上化,ITSM服务目录覆盖业务操作、故障应急、质量优化、成本优化、自主建设、学习探索、会议沟通、业务体验8类运维场景。同时通过ITSM与周边系统联动,实现数据统计、运维执行的自动化,提升服务效率,节约管理和沟通成本。
(2)自动化:打造工具文化,基于平台建设自动化运维工具体系
通过运维开发平台,赋能运维人员,鼓励建设运维工具,已沉淀700+运维工具,实现运维效率的极致提升;
(3)智能化:数智赋能,运维向运营升级
建设运维AI平台,降低智能运维开发门槛,实现智能运维的推广与普及。通过平台建设通用智能运维场景模板,并提供给各一线运维团队使用,一线运维通过简单的数据接入和训练即可构建属于该团队的智能运维模型。
(4)体系化,通过管理赋能组织,通过工具辅助管理
基于100%在线化的运维工作,平台可以对运维人员服务能力、工作任务进行统计,形成运维人员能力画像,人员绩效考核与管理变得有据可依。
在此基础上,开展运维货币化转型,以远低于业务自建团队的成本,保障相同的可靠性指标,同时提供业务开发团队难以扩展的服务,并获得利润。目的是使得运维组织获得无需自证的价值,满足组织长期发展需要。
货币化推广初年,实现运维成本节约11%。
2)某股份制银行降本增效实践
某银行业务飞速发展给运维带来了巨大的挑战,推动运维团队深化降本增效建设,其挑战包括:
(1)在线化,打造企业服务管理平台(ESM)
通过ESM构建运营数字化转型加速器,替换100+原有运营和服务系统,服务覆盖全行用户,月服务工单数量超50万条,综合服务效率提升5倍以上,实现业务场景流程化、工单处理自动化、服务过程可视化 ,在提升服务效率的同时:
(2)自动化,运维场景自动化,运维效率全面升级
典型建设场景包括:
同时通过RPA建设自动化场景千余个,实现了超万人次操作的全职人力替代。
(3)智能化:深化AIOps与FinOps融合
通过深化AIOps与FinOps融合,利用技术优化资源预测,实现更精准的成本控制和效率提升,为运维带来显著效益。结合FinOps的财务视角,AIOps能自动分析成本趋势,识别异常支出,助力在运维层面实现精细化财务管理。
加大自动化工具投入,实现运维流程智能化,减少人工干预,进一步提升运维效率和降低成本。 持续探索AIOps与FinOps融合的新模式,推动技术创新,以适应不断变化的业务需求,保持行业领先地位。
(4)体系化:科学化成本经营
通过成本可视、资源协同、技术治理三位一体,项目实施首年直接节省新增采购成本显著降低,通过机器滤旧、混部、下线等措施实现间接节约。
04.总结
运维降本增效是运维组织持之以恒的目标,本质是通过技术杠杆与流程创新实现组织能力提升。对于运维组织来说,降本增效课题既是挑战更是机遇,通过降本增效建设可以将运维从成本消耗部门转变为业务增长引擎,支撑数字化转型。也可以助力企业构建“技术驱动型”运维团队,成为企业数字化转型的核心枢纽。
1)技术杠杆:
通过技术手段放大运维的ROI,其中
2)多维成本优化:
从显性到隐性的全面管控
降本增效的目标是实现运维角色的战略升级,从“成本中心”转型为“业务增长引擎”。通过服务货币化、SRE实践与数据驱动决策,运维不仅保障业务连续性,更直接参与企业价值创造。降本增效的终极目标并非“少花钱”,而是“花对钱”。通过技术与管理的双轮驱动,运维团队将成为企业数字化转型的核心枢纽,以更低的成本创造更高的业务价值,实现从“支撑者”到“驱动者”的跨越。
申请演示