从零到卓越:规划构建高效告警平台的实战路径
在现代社会中,告警系统的重要性日益凸显,它通过实时监控和及时通知,帮助各个领域预防风险和应对异常情况,确保安全和稳定运行。
告警系统在现代社会中扮演着越来越重要的角色。
告警系统是一个复杂而关键的系统,它主要用于监控、发现和通告潜在的风险或异常情况,以便及时采取措施进行应对。
通过不断优化和提升告警系统的功能、性能、稳定、精准性,可以更好地保障各个领域的安全和稳定运行。
01 告警平台价值
提高生产效率,降低维护成本
告警平台能够实时监控生产设备的运行状态,包括温度、压力、振动、电流、电压等关键参数。
一旦这些参数超出预设的安全范围或达到故障阈值,系统能立即发出告警,通知相关人员及时处理,从而避免设备损坏或生产中断,确保生产线的高效运行。
告警平台能够及时发现设备故障,从而减少因设备停机导致的生产延误和损失。这有助于降低因停机造成的直接和间接成本。
提升安全管理水平,优化资源配置
在涉及高温、高压、易燃易爆等危险因素的生产环境中,告警平台对于保障人员和设备安全至关重要。通过实时监控和及时告警,系统能迅速识别并处理潜在的安全隐患,防止事故的发生。
告警平台能够根据告警信息的紧急程度和重要性,智能调度维护人员,确保资源得到最优配置。这有助于提高维护工作的效率和质量。
推动技术进步,带动产业升级
告警平台的建设和发展,促进了传感器技术、物联网技术、大数据分析、人工智能算法等技术的不断创新和应用。这些技术的融合和应用,为预警系统的智能化、精准化提供了有力支持。
随着预警系统在各个领域的广泛应用,相关产业链也得到了快速发展。从传感器制造、数据分析软件开发到系统集成服务等领域,都迎来了新的发展机遇。
提升企业竞争力
通过实时监控和数据分析,企业可以及时发现生产过程中的问题并进行改进,从而提高产品质量。
告警平台能够缩短故障处理时间,提高生产线的稳定性和灵活性,使企业能够更快地响应市场需求变化。
02 告警平台产品设计
1、角色用例
▲ 用例图
告警平台要正常运转,服务于实际业务,需要四类角色,设备管理员、系统管理员、告警处理员、领导。
设备管理员:负责设备接入,提供设备信息采集,获取告警的数据源;
系统管理员:负责系统的配置,尤其是告警规则、通知规则等基础数据的配置;
告警处理员:负责告警的全生命周期管理,包含处理、验证、关闭;当部分告警不能直接处理是,需要上报领导知晓;
领导:负责升级告警管理,包含处理、验证、关闭;同时,也需要肩负起监督告警处理员对告警的及时处理;
角色用例的分析,是明白有哪些人员角色参与系统操作、业务执行,为深度业务分析提供突破口。
2、用户故事
▲ 用户故事
讲清楚用户故事,可以串联完完整的业务流程,梳理清楚所有的分支流程,也为后续测试时提供全部检验条件。
什么事物 在什么时间 在什么环境 下触发了哪些告警条件,以怎样的值来报警。
- 实验室3楼 – 302实验室 – 温度超过37度 – 橙色告警 – 通知实验室管理员
- 猪舍3栋 氨气浓度超过36 / m³ 且 二氧化碳浓度超过 83 /m³ – 红色告警 – 通知养殖场厂长
- 2楼206小会议室 – 火警 – 红色告警误报
- 实验室3楼 – 302实验室 – 温度超过43度 – 红色告警 – 通知楼长【告警级别升级】
- 实验室3楼 – 302实验室 – 温度超过43度 – 红色告警 – 通知楼长【之前还未处理,又有告警,告警升级】
- 综合楼4楼 – 过道 – 风速偏大 – 蓝色告警 – 通知保安室 – 忽略告警
在告警用户故事这一块,用户故事1和5,梳理清楚同一个规则生成告警,前告警已处理、未处理的两个不同流程。当前告警还未处理时,再次生成更高级别的告警,就是告警的升级。
在实际处理时,高级别告警处理后,前置的告警将再无处理必要。
3、告警业务流程
▲ 业务流程
设备接入为前置性条件,设备数据采集为告警提供数据源。告警业务扩宽,需要支持统计数据等作为数据源。
告警平台系统管理员进行告警配置,包含告警规则、通知规则配置。告警规则主要配置哪个设备的哪个属性值,在什么情况下生成告警;通知规则主要配置告警生成后通过哪些途径通知哪些人。
告警处理流程包含处理、验证、关闭;处理是针对出现的这个情况,有什么解决方案,可以确定误报、忽略;
验证是确认该告警的处理方案实际落地,比如温度过高报警,通过打开空调的方式处理,验证空调已打开,且温度设置23度,是有效的处理方式。然后可以关闭报警,当前事项处理完成。
告警处理需要考虑,当前告警处理员处理不了这个告警的情况,支持告警升级。
业务流程中,为了提升便捷度,特别增加当告警被处理时,直接修改对应消息的状态,减少信息干扰。
4、ER图设计
▲ ER图
基于以上业务流程分析,拆解出来:告警规则、告警、告警消息规则、告警消息信息实体,也是告警平台的主要库表。告警的处理、升级、验证、关闭都作为告警子表来进行设计。
拆解到ER图的层级,是为了很好的跟前后端开发沟通。也便于从数据的角度理解系统中数据的存储、查询、更新。同时也明确主要信息,产品心中做到有数。
5、状态机管理
▲ 状态机
基于ER图拆解,告警、告警消息的状态进行详细的拆分。
状态机明确了告警、告警信息有哪些状态,各状态下可执行哪些操作,各状态对应通过哪些操作进行状态切换。
其中,告警消息有一个“待下发”状态,这个在业务上实际是不需要,只是为便捷信息溯源,确保数据生成到数据消失,全部都在可控范围内。
03 升级告警平台
系统建设、方案设计、产品设计,都可以遵循:路走通,路好走,路扩宽。
大道至简,但中间的路途并非一马平川的。
▲ 大道至简
功能完善优化
基于以上,完成了告警平台核心功能的梳理和搭建。要提高一个产品的易用性,扩展产品的影响面,在交互细节上还需要更细致、更强化,需要尽可能补全所有的业务流程。
也可以预留一部分运维功能(如强制修改状态,可以让业务流重新流转)。
在告警平台上,优先补充“支持多条件组合告警”,实现更复杂、更有效的、更符合业务现状的配置条件。
其次是补充“人工告警”,支持异常情况的手动告警路径,确保在数据同步、规则判断出现异常时,能够有快速业务执行的通道。
消息系统是个很好的辅助,通过消息来告知用户是否需要关注。但若是消息过多、准确性不高,消息系统就容易成为鸡肋。
在实际执行中,要支持设置消息的忽略与静默,在不恰当、不关键的场景中,不提示消息。另外,当业务已经处理,最好将相关的消息置为已读,不再吸引用户的注意力,从而减少用户的处理,减少系统对用户的干扰。
扩展告警业务范围、扩展告警信息源
当库存低于安全阈值时,预警平台可以自动提醒库管进行补货;当应收账款逾期时,可以提醒财务人员关注并跟进。
在安全领域,预警告警平台可以实时监控网络流量、系统日志等关键信息,一旦发现异常行为或潜在威胁,立即发出警报,有助于企业迅速响应并采取措施,保障系统安全稳定运行。
告警对象分级分组管理
将告警信息按照重要性、紧急程度或影响范围进行分层分类。例如,将告警分为事故类(1级)、异常类(2级)、越限类(3级)、变位类(4级)和告知类(5级)等不同级别。
对于不同级别的告警,制定相应的管理要求和处理流程。高级别的告警需要由专门的团队或人员立即处理,而低级别的告警则可以由相对宽松的团队或人员在规定时间内处理。
根据响应人员的专业技能、经验和职责范围,将其分为不同的响应小组。每个小组负责处理特定类型或级别的告警。
例如,设立专门的网络安全小组负责处理网络安全相关的告警,而数据中心运维小组则负责处理服务器和存储设备的告警。
告警系统通过实时监控与分析、智能化告警处理、合理的资源分配算法以及响应人员的分组分级等策略,可以优化资源配置并提高响应效率。
这些措施有助于企业更好地应对各种潜在风险和挑战,保障业务的连续性和高效性。
AI告警
随着大数据、区块链、虚拟币等新技术新业态的不断发展,新型电信网络诈骗案件日益增加,严重影响网络空间稳定和人民群众财产安全。互联网预警劝阻平台通过精准识别诈骗信息并提示潜在受害人,有效遏制了诈骗行为的蔓延。
利用人工智能和机器学习算法,实现告警的智能化处理。例如,采用动态阈值(区间检测功能),根据历史数据预测指标上下边界,自动调整阈值,从而避免资源在静态阈值下的浪费或不足。
引入趋势性预测功能,根据历史数据预测未来告警数量,以便企业提前准备资源,应对可能的问题。
告警平台对于提高生产效率、降低维护成本、优化资源配置、提升安全管理水平和提升企业竞争力等方面都具有重要意义。
新技术不断发展,新业务需求不断扩展,告警平台也将在实际应用中完善、优化、升级、进化。
本文由人人都是产品经理作者【壹叁零壹】,微信公众号:【壹叁零壹】,原创/授权 发布于人人都是产品经理,未经许可,禁止转载。
题图来自Unsplash,基于 CC0 协议。
- 目前还没评论,等你发挥!