如今,伴随着大数据在安防领域越来越深入的应用,也突现出一些技术难点。在IT领域,大数据技术发展较为成熟,针对不同的应用场景有较为丰富的技术选型以及技术路线,其中很多技术可以移植应用到安防领域中。但IT与安防毕竟是两个不同的领域,两者之间存在很多不一样的地方。最大的不同,就是数据本身的不同,主要体现在一下方面:
数据类型不同。在IT领域,大数据处理的对象往往是网页索引、用户行为、日志记录等字符型数据,这些是结构化、方便计算识别处理的数据。而在安防领域,数据往往以图片、音频、视频等非结构化的数据,往往计算机不能直接识别,这些数据只有在人面前才显得有意义。
数据量在数量级上的不同。在互联网领域,单条日志记录一般在一百字节之内,到了1PB的日志记录,已经是一个足够大的量。但在安防领域,一张普通的缩略图就几百KB,如果考虑高清摄像,高清视频,这个数量要更大。一个普通的中等城市,在主要交通卡口拍摄的图片,一年下来就能积压几个PB的数据,如果考虑视频,这个数据量更大。
对数据的实时性要求不同。在互联网行业,以日志型数据分析为主的典型应用中,对实时性要求没那么高,比如淘宝的推荐系统,是否分析最近一个小时用户的浏览记录对于推荐效果关系不大。而在安防领域,前端摄像头录制的都是实时流,这是一个不间断的数据流,最近录制的数据超过一定时间没有得到有效保存,将会永远被丢失。
针对安防领域与IT领域在数据本身上的异同,把适合IT领域常规的大数据技术搬到安防领域就会碰到一些技术难点,表现如下:
存储成本问题。在IT领域,海量的数据往往保存在分布式存储系统中,为了提高数据的可靠性,一份数据往往复制成几份相同的副本,分别保存在不同的节点中,当其中一些副本丢失时,可以从其他节点读出数据。比如在Hadoop中,一份数据往往在集群中保存了相同的3份。如果有1PB的原始数据,则至少要占用3PB的磁盘空间。而在安防领域,几个交通卡口的视频,在一个较短的时间内,如果不覆盖之前的数据,就能轻易积压几个PB。由于图像、音频、视频数据本身的量太大,生搬传统的多副本策略成本过高,我们需要设计出一些更高效同时不损失可用性的方案。
小文件存储问题。这个问题是大数据技术面临的一个共性问题,但在安防领域可能又突现得较为严重。在互联网,小文本、图片、音乐都是小文件,当层积较多时,都面临如何存取这些海量小文件的问题。而在安防行业,小文件主要以图片为主,比如一个城市的主要交通卡口在一年内,就能产生百亿张图片。对于这些海量的小文件的存储,涉及到大量元数据的管理,保证存取的性能是问题的关键。
当然,问题并不可怕,通过分析研究安防应用场景,我们摸索出一些贴合安防大数据的解决方案。