“安防+AI”,规模性落地中的关键三要素
随着AI技术的发展和成熟,AI+安防,必然会为视频资源的信息化、情报化、智能化提供强有力的支撑。文章主要来跟大家分享一下,安防+AI规模性落地中的关键三要素。
随着当前AI技术的不断进步,作为天然AI落地场景的安防领域引起了监控大佬、IT巨头、算法新贵们的极大关注。各类安防+AI,或者AI+安防概念炒的火热,但是真正经得起市场考验的凤毛麟角。
细究起来,不是技术问题,高精尖技术国内基本上可以与美国保持同步,国内团队夺得国际比赛的成绩单光明耀眼;不是人才问题,顶尖的国际人才流动比比皆是。更不是制造能力问题,中国的监控设备制造商制造了世界六成还多的设备,可能有的小伙伴会说是对行业的理解度问题。
不可否认,这是个重要因素,但对大规模落地“安防+AI”的关键要素认知可能是个更关键的问题。
一、当前视频监控的应用现状
从2004年以来的平安城市,天网工程,雪亮工程,经过十多年的建设,全国各省市乃至乡村,都建起了大规模的视频监控系统。
据不完全统计,目前全国已建各类监控近2亿路,加上在建的和待建的,至少规模会翻翻。随之而来的是天量级视频文件,即使配备数百万视频巡视员来看视频,每天能监控到的视频大概也不到总视频量的百分之一。
但是这些天量的视频数据,在社会公共安全管理和案件侦破等工作中,起着越来越重要的作用。在公共安全信息化建设深入持续开展的背景下,现有视频系统缺乏深度应用模式,视频数据智能化程度不高的问题不断凸显。如何用AI升级现有的视频系统,使之能更好地适应物联网时代视频智能化、信息化、情报化的应用需求已势在必行。
当前小规模落地安防+AI,已经不是难题,智能摄像头或者结构化服务器就能解决这个问题。
以下要说的是大规模、城市级的安防+AI中的落地要素:
要素一:视频结构化
要实现视频信息智能化、信息化的问题,必须要先面对结构化的问题,结构化之后就可以把原来只能看无法调用的视频变成可调用的信息。迎接视频数据深度应用的挑战,其核心及瓶颈是通过研究视频结构化描述技术,解决通用视频数据向视频信息化、视频情报化方向的转化,实现社会公共安全视频应用工作模式的创新。
视频结构化描述是一种基于视频内容信息提取的技术,它对视频内容按照语义关系,采用时空分割、特征提取、对象识别等处理手段,组织成可供计算机和人类理解的结构化信息的技术。
从数据处理的流程看,视频结构化描述技术,能够将非结构化的视频数据转化为人和机器可理解的结构化信息,并进一步转化为公安民警实战所用的情报数据,实现视频数据向信息化、情报化、智能化的应用转化,达到借用视频监控掌控安全的目的。
视频结构化描述的内容类型方面主要是:人员、车辆、物品、行为。
- 在视频中把人作为一个可描述的个体展现出来,其中包括人员的脸部精准定位、脸部特征提取、脸部特征比对,还包括人员的性别、年龄范围、大概身高、衣着特征、发饰特征、配饰、携带物品、步履形态、交通工具等多种可结构化描述信息;
- 对于车辆的描述信息包括:车牌、品牌、车颜色、车型、子品牌、车贴、车饰物信息等多种车辆描述信息;
- 对于行为的描述信息包括:区域、越界、徘徊、遗留、聚集等多种行为描述信息。
经过视频结构化解析处理,可以实现如下目标:
- 一是视频变成了可调用的信息库,可以针对目标对象进行快速检索,线索查找速度会得到极大的提升。视频结构化之后,从百万量级的目标图库中(大约一千小时内的高清视频),查找视频截图中的一个嫌疑人对象,一秒内即可完成;千万量级目标的图库中查找,数秒内即可完成。
- 二是监控系统所占用存储容量极大的降低,结构化后的信息,存储人的结构化检索信息和目标数据信息不到原视频数据容量的2%;对于车辆和行为,均不到1%。存储容量极大地降低,可以解决视频长期存储和存储成本高昂的问题。
- 三是视频结构化可以活化视频数据,作为数据挖掘、应用的基础。结构化的图像及描述信息,存入相应的数据仓库,对各类数据仓库可以进行深度的数据挖掘、关联、融合、应用,充分发挥大数据的作用,提升视频监控的应用价值,提高对视频场景的分析和预测能力。
要素二:视频智能分析技术
视频结构化描述是针对视频内容的智能结构化分析,将非结构化的视频数据经过智能分析,形成可供标记描述的结构化数据,因此视频智能化分析是视频结构化的核心技术。
智能视频分析技术的高低,对视频结构化描述的准确率至关重要。为了能更高质量地进行视频结构化分析,必须在这三个方向进行创新:
首先、视频预处理技术,主要包括视频解码、图片筛选、图片清洗等,也包括视频防抖动和图像增强。
- 视频解码把视频还原成一张张的图片,图片筛选把图片中的无用图片进行废弃处理,图片清洗保留最有效图片;
- 视频抖动主要是道路监控中高架安装方式带来的较高频率的小幅抖动,抖动的拍摄往往会拍出一团糊的视频,视频防抖动能有效抑制智能分析中的误报和漏报,提高智能分析的准确率;
- 图像增强是对视频源进行质量改善处理,有效改善画质,提高图像的清晰度,使原本低质量的图像达到清晰可辨。
其次,不断提升分析准确率。
如人脸识别技术从最初的特征脸方法过渡到卷积神经网络方法,由可见光人脸识别到多源光人脸识别。类同,车辆、物品和行为的智能分析也有了更高效的分析技术。要不断关注前沿AI技术的发展,重点关注实战场景下的训练方法、模型构建,加上大数据量的实践,不断提升分析识别的准确率,最后达到可实用的程度。
再次,影像处理技术,主要包括图像复原技术等。图像复原就是综合利用超分辨率、去模糊滤波、变形矫正、色彩调整等对模糊视频进行处理,使之清晰可辨。
要素三:结构化图像信息数据库
通过对视频内容的智能化分析处理,生成一个高密度存储,又能快速调用的结构化图像信息大数据库。只有实现了对图像库的快速落盘,才能使结构化信息不堵塞、不丢失;也只有实现了快速调用,才能做到千万量级秒级检索,也才能快速准确的发现有效线索,充分发挥视频资源的实战价值。
然而,在公安信息化建设深入开展的背景下,现有视频资源缺乏深度应用的模式。其应用的瓶颈依然是视频信息如何高效提取?如何保障识别的准确率?如何进行快速调用?如何同其他信息系统进行标准数据交换、融合、共享等。
视频结构化技术难点
首先是视频结构化核心算法技术的突破。
视频结构化描述依托于智能分析技术,但是当前视频智能分析技术还未突破各种应用环境的制约。
比如:人脸识别的应用场景,当下的人脸识别多半是配合式、重复式应用场景,如:银行、机场、海关卡口。在这种应用场景下,人脸的识别率基本能达到实用要求,而在无配合、多人脸、动态视频的场景下就很难达到实用目标。特别是在一般视频监控场景下,由于架设位置高、拍摄距离远,基本上识别不到人脸,更别说进行人脸结构化了。
虽然当前的深度学习卷积神经网络学习模式,使得人脸检测和识别的准确度大幅提长,但是随之而来的负面效应也相当明显,首当其冲的就是运算复杂度的提升,需要耗费大量的计算资源。
针对这一瓶颈,虽然业内公司试图通过将计算前端推移(智能摄像头)和后端集中化处理(GPU结构化服务器)两种方案来解决,但是智能摄像头方案大规模部署成本高昂,且对已安装的巨量监控无法结构化。
集中化处理方案也需要大量价格昂贵的结构化服务器,而且带来的带宽压力巨大,也不利于规模性实施。这就需要第三种更贴合当前实际的解决方案,报道称由安软慧视推出的这种方案已在部分省市公安厅公安局开始实施,作者已与市局进行了联系,等详细了解后再详细写出。
其次是实战场景大数据和深度学习场景训练模型的构建。
算法、算力和数据作为AI的基本三大支撑,少了哪一个都不行。不获得足够量的场景数据就训练不出好的模型,而没有好的模型又不被客户认可,没办法从客户那里获得巨量的场景数据。
最后是视频结构化标记描述数据存储,检索和应用技术创新。
随着结构化数据总量的海量累积,如何实现其图像大数据的超大容量、高效存储、高效检索以及快速调用就需要不断进行技术创新。如果不能做到规模性实时处理实时检索,它最终只能是一个事后处置系统,仍然会让公安办案失去时机,对于提高破案率的效果不大。
虽然当前还面临不少困难,但随着AI技术的发展和成熟,AI+安防,必然会为视频资源的信息化、情报化、智能化提供强有力的支撑,变视频的被动防御为主动识别,变事后处置为事前事中事后全程掌控,进而最终实现“AI+安防”的规模性落地。
本文由 @李震 原创发布于人人都是产品经理。未经许可,禁止转载
题图来自Unsplash,基于CC0协议
- 目前还没评论,等你发挥!