智能化监控告警系统:基于物联网移动网络通信服务平台的设计与实现

0 评论 6197 浏览 54 收藏 30 分钟

监控告警系统是一款用于实时监控各类设备和系统状态的工具,通过采集、分析和处理数据,生成有价值的指标和警报信息,并向管理员发送通知,确保系统稳定运行。本文作者对智能化监控告警系统进行了详细的分析,一起来看一下吧。

一、系统概述

监控告警系统是一款用于实时监控各类设备和系统状态的工具,通过采集、分析和处理数据,生成有价值的指标和警报信息,并向管理员发送告警通知,帮助管理员及时发现和解决问题,确保系统稳定运行。

  • 保持系统稳定:监控告警系统需要实时监控系统运行状态,并能够及时发现问题和异常情况,及时发出告警通知并迅速响应异常,以便管理员采取及时措施。
  • 优化运营策略:监控告警系统支持对各项运营指标进行监控以及分析,帮助运营人员及时调整运营策略,提高运营工作效率。例如通过监控设备的流量使用情况,合理调整不同套餐的限速策略,避免出现用户薅羊毛行为导致的流量浪费;
  • 改善服务质量:监控告警系统支持对设备和系统状态的数据进行采集和分析,生成有价值的指标和警报信息,及时发现并解决问题,避免用户受到影响,提高用户体验。例如通过监控设备的故障率,当出现大规模的设备故障时,能第一时间介入解决问题,避免设备故障导致用户无法使用服务。
  • 实现成本控制:监控告警系统支持对成本相关指标进行监控以及分析,帮助运营人员掌握SIM卡资源的使用情况,有效地控制成本。例如,通过监控 SIM 卡库存情况,合理调整采购 SIM 卡策略,避免库存过高或过低带来的损失。
  • 性能和可扩展性:监控告警系统需要具有良好的性能和可扩展性,以应对大量数据的处理和分析。
  • 安全和风险管理:监控告警系统需要具备安全和风险管理机制,以保证数据的机密性和完整性。同时需要进行备份和恢复策略的设计,以应对系统出现故障的情况。

二、功能模块

系统主要包括数据采集模块、数据分析模块、告警通知模块、告警处理模块、数据展示模块、管理界面模块等多个功能模块。

  • 数据采集模块:负责采集各个模块的数据,包括但不限于平台系统、SIM卡、设备等产生的数据。采集的数据会存储到对应的数据库中,供后续分析使用。
  • 数据分析模块:负责对采集到的数据进行处理、分析和计算,从而得出有价值的指标和警报信息。数据处理模块包括数据分析、告警规则和算法等子模块。
  • 告警通知模块:负责向管理员发送数据分析模块生成的警报通知,包括短信、邮件、即时消息等多种形式。管理员可以根据自己的需求,选择接收告警通知的方式。
  • 告警处理模块:负责记录告警信息的处理情况,包括告警信息是否已经被处理,处理结果如何等。管理员在收到告警通知后,采取措施解决问题,并将处理情况记录,以便后续分析和跟踪。
  • 数据展示模块:负责将监控数据以及分析结果以Dashboard的形式展示出来,帮助管理员更直观地了解系统运行状况。例如,管理员可以通过数据展示模块查看在线设备数的历史趋势,以便更好地调整运营策略。
  • 管理界面模块:提供监控告警系统的管理界面,管理员可以通过该界面进行系统配置、警报设置、数据查看等操作。管理员可以在该界面中设置预警阈值等参数,用于数据分析模块的判断标准。

三、数据采集以及存储

数据采集和存储是监控告警系统中非常重要的环节。一方面,数据的质量和及时性决定了监控告警系统的准确度和实时性;另一方面,数据的存储和处理能力也会对系统的性能和可扩展性产生重大影响。

1. 数据采集

在监控告警系统中,需要采集各个业务系统、设备、应用程序以及核心指标的数据,包括但不限于服务器负载、网络延迟、存储空间、设备故障率、用户访问量等。数据采集的方式可以通过定时轮询、推送通知等多种方式进行。

一种常见的数据采集方式是通过轮询获取各个监控对象的数据。轮询方式通常会周期性地向监控对象发送请求,并获取相应的数据。通过这种方式,可以快速、准确地获取监控对象的数据,但同时也会增加系统的负载和网络流量。

另一种数据采集方式是通过推送通知的方式获取数据。在这种方式下,监控对象会主动将自己的状态信息推送给监控告警系统,监控告警系统只需要监听推送通知并接收数据即可。这种方式能够实现实时数据采集,避免了轮询方式下可能存在的延迟和不准确性。

2. 数据存储

采集到的数据需要进行存储,以便后续的数据分析和指标生成。监控告警系统通常会采用分布式存储方案,以保证数据的高可靠性和高可用性。常见的分布式存储方案包括主从架构、集群架构等。

主从架构一般是指将数据存储在主节点上,然后通过从节点对数据进行备份和冗余。主节点和从节点之间通过数据同步机制进行数据同步,保证数据的可靠性和一致性。主从架构方案适用于数据量比较小的场景,相比于集群架构,主从架构的实现成本更低。

集群架构则是将数据存储在多个节点上,每个节点都可以读写数据。在数据写入时,系统会将数据分散到不同的节点上,以提高数据写入的性能和可扩展性。集群架构适用于数据量较大或读写请求较为频繁的场景,但相对于主从架构,其实现成本更高。

此外,为了提高系统性能和查询效率,监控告警系统还可以采用数据分片、索引优化等技术进行优化。数据分片可以将数据划分为多个部分,分别存储到不同的节点中,从而提高数据的并发读写能力和可扩展性。索引优化则可以通过建立适当的索引结构,加快数据的查询速度和准确性。

四、指标生成以及警报信息

在监控告警系统中,指标生成和警报信息是核心功能之一。通过采集和存储的数据,系统需要对其进行分析和计算,生成各种监控指标,并及时发出警报信息,提醒相关人员进行处理和调整。

1. 数据分析

数据分析模块的主要任务是对采集到的数据进行处理和分析,以便生成相应的监控指标和监控报告。在数据分析的过程中,需要考虑如下几个方面:

  1. 数据分析算法和模型的选择:根据不同的监控对象和指标,采用不同的算法和模型进行处理。例如,对于网络延迟和丢包率等指标,可以采用线性回归、异常检测等算法来进行分析和处理。
  2. 实时分析和计算:根据预设的规则和算法对采集到的数据进行实时分析和计算,并将生成的指标和警报信息存储到相应的数据库中,以供后续查询和使用。例如,对于可分配卡数和已分配卡数等卡库存相关指标,需要进行实时计算统计,避免出现卡库存不足导致的服务故障;
  3. 可视化和报告生成:为了能让用户进行更加直观和方便的数据分析和决策,需要将分析结果以可视化的形式展示出来。例如,对于故障设备率和故障设备数等指标,可以按照时间线使用折线趋势图来进行展示。

2. 指标生成

指标生成模块通常会从存储的数据中,提取出关键的业务指标和监控指标,并将其计算、转换、聚合等操作,生成新的指标数据。监控指标可以分为系统级别指标、应用级别指标以及业务定制化指标:

  1. 系统级别指标包括CPU利用率、内存利用率、磁盘空间利用率等,可以帮助管理员全面了解系统的状态和性能。
  2. 应用级别指标则更加细化,如某个应用程序的响应时间、访问量等,可以帮助开发人员对应用程序进行优化和调整。
  3. 业务定制化指标通常与业务的核心流程和关键性能指标相关,可以根据需求进行定制化,以满足不同用户的监控需求,如卡库存、采购成本、订单量、故障设备率等等。这些指标对于业务决策非常关键,可以帮助业务人员快速发现问题,及时调整业务策略,提高业务效率和盈利能力。

3. 警报信息

警报信息则是根据指标生成模块生成的监控指标进行判断和计算,及时发出警报信息,提醒相关人员进行处理和调整。

根据警报信息的类型和严重程度,可以分为三种:普通告警、严重告警和紧急告警。系统可以根据不同的告警级别进行灵活配置,如设置普通告警无需处理,但需要记录日志;严重告警需要及时通知相关人员,以便进行处理;紧急告警需要立即采取措施,以避免损失。

五、算法与规则设计

为了能快速、准确地检测到异常情况,及时发出警报,需要设计各种算法与规则,用于对采集到的监控数据进行分析、计算和判断,从而生成指标和告警信息。

1. 异常检测算法

异常检测算法是指对采集到的监控数据进行处理和计算的算法,识别出异常情况,主要用于监测设备、传感器和其他IOT节点的状态和性能。常见的异常检测算法包括:

  1. 基于统计的异常检测算法:该算法基于统计学原理,将各种监控指标进行分析和比较,识别出与正常情况不符的数据点。例如,可以计算在线故障设备的历史数据平均值和标准差,然后使用均值加减3倍标准差作为异常检测的阈值,超过该阈值的数据点将被视为异常数据。
  2. 基于机器学习的异常检测算法:该算法利用机器学习技术对监控数据进行分析和建模,从而识别出与正常情况不符的模式和规律。例如,可以使用聚类算法对监控数据进行分类,然后使用异常检测算法对每个类别的数据进行分析和比较,识别出异常数据。
  3. 基于规则的异常检测算法:该算法通过预先定义一组规则,对监控数据进行检测和分析,识别出与规则不符的数据点。例如,可以定义规则检测设备不可用时长数据是否超过了阈值,如果超过了就视为异常数据。

2. 告警规则设置

告警规则需要结合业务需求,通过对监控指标进行分析和比对,判断当前状态是否正常,并生成相应的告警信息的规则。告警规则需要考虑多个因素,如监控指标的变化趋势、阈值设定、告警级别、告警通知方式等。常用的告警规则有:

  1. 阈值告警规则:该规则根据监控指标的阈值来触发警报,例如,当可分配SIM卡数低于阈值时,就会触发警报,并通知相关人员和部门。
  2. 持续时间告警规则:该规则根据监控指标的持续时间来触发警报,例如,当在线设备故障率超过了阈值,并持续5分钟以上时,就会触发警报,并通知相关人员和部门。
  3. 模式告警规则:该规则根据监控指标的模式和趋势来触发警报,例如,当在线设备的可用率在一段时间内一直处于下降趋势时,就会触发警报,并通知相关人员和部门。
  4. 组合告警规则:该规则是将多个告警规则进行组合,当满足其中一个或多个规则时,就会触发警报,并通知相关人员和部门。
  5. 定时告警规则:该规则根据时间设置来触发警报,例如,每天下午4点时,对设备进行一次巡检,若发现异常,则触发警报,并通知相关人员和部门。
  6. 机器学习告警规则: 机器学习算法可以对历史数据进行分析和建模,根据数据模式来识别异常行为,并触发相应的警报。例如,可以使用机器学习算法来分析设备的使用流量,当出现异常使用流量行为时,就触发警报并通知相关人员和部门。
  7. 基于事件的告警规则: 基于事件的告警规则可以根据事件的发生来触发警报。例如,通过对设备状态数据的监测,当出现设备异常故障这些事件时,监控系统可以自动触发警报,并通知相关人员进行故障诊断和修复。

3. 自动化告警处理算法

自动化告警处理算法是指对告警信息进行处理和分析的算法,以减轻管理员的工作负担。在物联网平台中,自动化告警处理算法尤其重要,因为物联网设备数量庞大,监控指标繁多,手动处理告警信息几乎是不可能的。例如,当系统出现异常告警时,自动化告警处理算法可以自动化地进行故障定位和修复操作。

常见的自动化告警处理算法包括:

1)自动化分析算法

通过对告警信息进行自动化分析和处理,提高告警处理的效率和准确性,减少人工处理的工作量。

  • 告警信息的提取和解析:通过自动化算法对监控系统采集到的告警信息进行提取和解析。例如,从告警信息中提取出关键字、设备类型、SIM卡信息等重要信息。
  • 告警信息的分类:对采集到的告警信息进行分类,以便更快速地找到相关问题。例如,将告警信息分为硬件故障、网络异常、卡故障、系统错误等类别。
  • 告警信息的关联分析:对不同的告警信息进行关联分析,找出异常的根本原因,并对告警信息进行去重,避免重复处理同一问题。例如,将不同设备之间的告警信息进行关联分析,找出故障的根本原因。
  • 告警信息的预测分析:通过对历史数据的分析,预测未来可能出现的故障情况。例如,通过对设备运行数据的分析,预测未来可能出现的设备故障情况,提前进行维护和修复。

2)自动告警处理算法

根据预设的规则自动执行一定的处理动作,如发送短信、邮件等通知方式。

  • 发送通知:根据预设的规则,自动发送通知消息,如短信、邮件等,通知相关人员或部门进行处理。
  • 执行预设操作:根据预设的规则,自动执行一些操作,如重启设备、调整设备配置等。
  • 自动调整策略:根据预设的规则,自动调整监控策略,例如调整监控阈值等。
  • 自动忽略告警:根据预设的规则,自动判断告警是否需要处理,如果不需要则忽略。
  • 自动关闭告警:根据预设的规则,自动关闭已经处理完毕的告警。

六、告警通知的实现

告警系统发现问题并生成告警时,告警通知模块会自动触发,并将告警信息通知给相关人员和部门,以便及时采取措施解决问题。以物联网移动网络通信服务平台为例,当监控系统发现问题时,告警通知模块会自动触发并发送告警通知,具体步骤如下:

1)告警生成:监控系统检测到异常情况并生成告警信息。

2)告警分类:告警通知模块对告警信息进行分类,根据不同的告警等级和类型,选择相应的通知方式和接收人员。

3)通知方式选择:告警通知模块根据用户设置的通知方式,选择合适的方式通知相关人员。例如,对于紧急的告警,可以通过短信或电话通知负责人员;对于普通的告警,可以通过邮件或即时通讯工具(企业微信或钉钉等)通知相关人员,低级别告警则在大屏幕上进行展示即可。

  • 邮件通知:将告警信息通过邮件发送给相关人员或部门。该方式适用于需要及时通知并且信息量较大的告警情况。
  • 短信通知:将告警信息以短信的形式发送给相关人员或部门。该方式适用于需要紧急通知但信息量较少的告警情况。
  • 语音电话通知:将告警信息通过语音电话形式通知相关人员或部门。该方式适用于需要紧急通知但又不能立即查看信息的告警情况。
  • 微信/钉钉/企业微信等即时通讯工具通知:将告警信息通过即时通讯工具发送给相关人员或部门。该方式适用于需要及时通知且方便处理的告警情况。
  • 大屏幕展示:将告警信息以可视化的形式展示在大屏幕上,方便相关人员实时了解监控情况。
  • 应用内通知:当监控系统产生告警信息时,可通过应用内通知的方式快速通知相关人员,并提供详细的告警信息。

4)通知内容生成:告警通知模块生成告警通知内容,并将告警信息、设备信息、时间等关键信息包含在通知中,以便相关人员了解问题的具体情况。

5)通知发送:通过自定义规则,告警通知模块将通知发送给预设的接收人员,同时记录发送时间、发送状态等信息,方便后续跟进和处理。

七、警报信息处理

对已经发出来的告警信息进行处理以及记录处理的内容,可以让管理员清晰了解每个告警的处理状态和处理过程,帮助管理员更好地管理和维护系统。

1. 告警信息的处理

当一个告警被触发并且通知给管理员后,管理员需要对这个告警信息进行处理。这个处理过程包括以下几个步骤:

  1. 分析告警信息:管理员需要对告警信息进行分析,了解告警的来源、告警等级以及影响范围等,以便更好地判断告警的紧急程度和处理方法。
  2. 判断告警的处理方法:根据告警的紧急程度和影响范围,管理员需要判断告警的处理方法。如果告警比较紧急且影响范围较大,管理员需要立即采取措施处理告警;如果告警比较普通且影响范围较小,管理员可以在合适的时间进行处理。
  3. 处理告警:管理员需要采取措施对告警进行处理。具体措施包括重新启动设备、更换已分配的SIM卡、修改配置等等。处理完成后,管理员需要记录处理的内容,以便后续的跟踪和分析。

2. 处理记录的跟踪

在物联网移动网络通信服务平台中,每个告警信息都应该有相应的处理记录,以便管理员追踪告警的处理情况。处理记录的跟踪包括以下几个方面:

1)记录告警的处理过程

管理员需要记录告警的处理过程,包括采取的措施、处理时间、处理结果等等。这些记录可以帮助管理员了解告警的处理情况和处理效果。

2)记录告警的处理人员

管理员需要记录处理告警的人员信息,包括处理人员的姓名、工号、联系方式等等。这些记录可以帮助管理员了解告警的处理责任人和责任区域。

3)记录告警的处理状态

管理员需要记录告警的处理状态,包括告警的开始时间、结束时间、处理状态等等。这些记录可以帮助管理员了解告警的处理状态和处理效率。

  • 未处理:当监控系统接收到告警信息后,还没有进行任何处理,此时告警状态为未处理状态。
  • 处理中:当管理员开始处理告警信息时,告警状态会被设置为处理中。此时,管理员正在对告警信息进行分析和处理。
  • 已解决:当管理员处理告警信息后,确定问题已经得到解决,告警状态将被设置为已解决状态。
  • 误报:当告警信息被判定为误报时,告警状态会被设置为误报状态。
  • 忽略:当管理员认为告警信息不需要被处理时,可以将告警状态设置为忽略状态。

4)记录告警的处理结果

管理员需要记录告警的处理结果,包括处理结果的有效性、处理结果的影响范围等等。这些记录可以帮助管理员了解告警处理的情况,追踪问题的解决过程,并为未来的处理提供参考。对于重要的告警事件,还可以向相关人员发送告警处理的结果,以便及时通知相关人员。

  • 告警处理结果描述:管理员需要描述告警的处理结果,包括解决方案、处理过程等。
  • 处理结果状态:管理员需要记录处理结果的状态,如已解决、处理中等。
  • 处理人员:记录处理告警的人员,以便追踪问题的处理过程。
  • 处理时间:记录告警处理的时间,以便追踪问题的解决过程。
  • 处理影响范围:记录告警处理的影响范围,以便管理员评估问题的严重程度,并为未来的处理提供参考。

八、系统界面设计

在物联网移动网络通信服务平台中,监控告警系统的系统界面通常包括以下功能模块:

1)告警设置模块

用于设置告警的规则和处理方式,如设置告警的级别、触发条件、告警通知方式、告警的处理方式等。

2)告警列表模块

包括当前所有的告警信息以及过去所有发生的告警信息,包括告警等级、告警类型、告警内容、告警时间等信息。

  • 管理员通过快速浏览当前所有的告警信息,并进行快速的定位和处理。
  • 管理员通过查看历史告警的记录,并了解告警的处理情况和处理结果。

3)告警详情模块

展示选中告警的详细信息,包括告警的发生时间、告警的影响范围、告警的处理情况等信息。管理员可以通过该模块深入了解告警的具体情况,从而更好地制定解决方案。

4)告警处理模块

用于处理已经发生的告警,通常在告警详情页面进行处理。管理员可以通过该模块对告警信息进行处理,包括告警确认、告警分配、告警处理进展跟踪等。同时,管理员也可以将处理结果记录在该模块中,便于后续的跟踪和分析。

5)告警统计模块

对所有告警信息进行统计分析,包括告警级别、告警类型、设备类型、告警时间、告警内容等等。通过该模块来了解告警情况的总体概括,同时也为监控系统的改进和优化提供数据支持。

  • 总览界面:展示系统中的所有告警信息,以及告警的处理情况和处理结果,并按照告警级别、告警类型等分类。
  • 数据可视化分析界面:结合具体的监控告警指标,通过图表的形式展示具体告警数据的趋势和变化,例如历史告警故障设备趋势、历史故障SIM卡分布等。

6)系统配置模块

用于对监控告警系统权限进行配置和管理。管理员可以通过该模块对系统的用户、权限、日志等进行管理,确保系统的安全和稳定运行。

本文由 @产品@Devin 原创发布于人人都是产品经理,未经许可,禁止转载。

题图来自 Unsplash,基于 CC0 协议。

该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 目前还没评论,等你发挥!