确保业务速度和质量的 IT 指标

已发表: 2021-05-04

在本文中

对于任何事情,指标对于监控流程的有效性、识别潜在问题和了解可能的干预措施都是必不可少的。 使用正确的指标意味着信息技术的更好表现,就像营销一样。 让我们找出原因。

“没有控制就没有权力”是我工作了将近 20 年前的一家知名公司的口号。 我到处都看到它,喜欢它,而且我无法忘记它。 也许正是出于这个原因,我很高兴接受了组织 MailUp 实施的挑战,这些 IT 指标在专家中广为人知,并且基于速度和质量平衡

什么是 IT 指标,它们的用途是什么?

什么是 IT 指标? 它们通过测量信息技术世界中的重要变量来帮助控制和改进流程。 像所有复杂的过程一样,技巧在于对有限数量的可测量数量进行分类。 这些不仅构成了我们产品流程和性能的良好指标,而且让我们通过改变其价值的有针对性的干预措施来改进这两个方面

复杂的? 有点——因为要为这种类型的主动控制确定最佳指标并不容易。 在尝试了一些内部定义的指标后,我们决定采用“加速 – 加速:精益软件和 DevOps 的科学”中概述的那些指标。 自 2012 年以来,这些也是 DevOps 年度报告中的主要主题之一。

改进措施:IT 指标如何加速业务绩效

在对数千家公司进行了长达数年的广泛研究之后,上述出版物的作者确认,出色的 IT 性能与数字领域公司同样出色的业务成果之间存在直接关联。 这些研究确定了5 个主要指标,在这些指标中,所有顶级 IT 执行者(最大、最前卫的公司)都取得了优异的成绩。 这些公司采用了这些相同的指标,并设法在所有 5 个指标上与“精英绩效者”的价值观相匹配。 事实上,他们的增长率远高于其他人,这证实了实施 IT 关键绩效指标集是非常有效和重要的。 简而言之,卓越的技术成果成为加速业务层面绩效的一个促成因素。

确保业务速度和质量的 IT 指标

到目前为止,我们讨论的 5 个 IT 指标基于非常简单的概念:速度和质量。 信息如下:快速、持续、频繁地为客户提供价值。 你走得越快,犯错的风险就越大。 您还需要注意错误的频率和故障后所需的恢复时间。

通过将这个概念转化为数字,我们得到了 5 个可测量的数量作为指标:

  • 变更提前期(LTFC):从流程开始到客户可用(“生产中”)的平均时间;
  • 部署频率:生产中发布新闻或更新的频率
  • 更改失败率(CFR):从最近更新引起的问题中恢复的生产更新数量;
  • 平均恢复时间(MTTR):严重生产问题影响客户后的平均恢复时间; 和
  • 可用性:平台服务完全可用的时间百分比(通过减去所有恢复时间的总和获得)。

MailUp 的 IT 指标

在 MailUp ,自 2020 年 9 月以来,我们一直在采用这些指标。我们通过自动测量工具和建立一个连续的流程来做到这一点,其中:

  • 我们监控进度;
  • 我们设定目标; 和
  • 我们确定实现目标的行动。

这需要注意,因为速度的突然提升可能与质量下降有关。

通常会忘记指标是改进流程的间接指标。 关键是测量本身并不是目的。 相反,重要的是当我们设法改变衡量标准时我们对流程和产品的影响。

关于数字,让我们更详细地了解如何在 MailUp 中计算这些指标:

如何衡量它的指标

我们将变更提前期计算最近三个月的平均时间跨度,对应于 Jira 问题的故事(或任务)从处理开始到发布所花费的时间。 在这里,Atlassian Jira 套件可以帮助我们。 它让我们可以衡量一个故事的“状态时间”,即一个问题在其工作流程的每次转换中处于特定状态的时间。 然后可以通过 Jira 控制图或临时仪表板查看导入和汇总的数据,就像我们使用 Tibco Spotfire 制作的那样。

问题构成了任何项目的基石。 这些可以代表要解决的问题(例如错误)或团队或其某些成员的一般任务。 事实上,创建 Jira 软件不仅可以监控问题,还可以跟踪整个工作流程。 在 MailUp 中,我们在 Jira 中使用四种标准问题类型:故事(用户感兴趣的东西)、错误(要解决的问题)、任务(要完成的东西)和史诗(可以在故事数量较少)。

在MailUp 中,我们还测量了Lead Time To Deploy,即从产品最后一次更改到源代码的时间。

对于部署频率和 CFR,我们已将我们的自动生产发布流程(部署管道)与记录与数据库指标相关的信息的流程集成在一起 介入生产环境的技术人员只需要指定是普通版本、hotfix(快速修复)还是回滚(恢复之前的版本)。

MTTR 和可用性基于“事件”的定义。 在内部,我们将其定义为影响和严重程度高于特定阈值的生产中断。 对于每个事件,必须在 Atlassian Jira 上填写“事件表” 。 这表明了各种元素,如持续时间、原因、影响、影响和解决类型。 然后通过一个自动过程从事件卡中提取数据,以图形方式表示它们。

这些趋势与每个指标随时间推移的表现相关。 我们发现使用过去三四个月的移动平均线作为参考非常有用,可以将误导性元素(例如孤立的峰值或过大的评估窗口的惯性)进行背景化和补偿。

这些指标对我们来说足够了吗? 它们当然是了解技术健康状况的绝佳起点,即使我们的未来视野已经有两个进一步的步骤

  • 将这些指标与平台页面的访问速度等其他关键指标相结合;
  • 通过“向下钻取”(深入分析)的子指标对现有指标进行详细说明,从而在现有指标上引入更高的特异性

结论

这个简短的概述指出了使用一组 IT 指标来提高整体业务绩效背后的意义和好处。 要了解有关指标及其计算方式的更多信息,请单击此链接!