维基百科全书的定义:“大数据是飞速增长的,用现有数据库管理工具难以管理的数据集合”。这些数据包括:社交媒体、移动设备、科学计算和城市中部署的各类传感器等等,其中视频又是构成数据体量最大的一部分。
根据IHS 2014 视频监控市场报告,未来五年全球监控摄像机将保持22% 的复合增长。仅仅视频监控录像而言,每天的数据量就达上千PB,累计的历史数据将更为庞大,在视频监控大联网、高清化推动下,视频监控业务步入数据的井喷时代。
“大数据或称巨量数据、海量数据、大资料,指的是所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息。”维基百科对大数据的定义将大数据的特点阐释得非常清晰: “海量”和“非结构化”。
海量
IDC研究表明,2012 年的数据存储总量约为2.8ZB,2020 年数据存储量约为40ZB大数据应用架构下的视频监控云存储技术发展巴丽娟(1ZB=1 亿TB)。数据量正在以 55% 的速度逐年增长。全世界粗略估计有至少有2 亿个摄像头在角落里静静的看着我们。
非结构化
与通常讲的Oracle、SQL 这类传统的数据中心级的结构化数据不同,视频监控业务产生的数据绝大多数以非结构化的数据为主,信息呈现上为松耦合的关系,这给传统的数据管理和使用机制带来了极大的挑战。
大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于如何让数据会“说话”。如何将海量的数据变成落地民生,进行商业趋势、判定研究质量、避免疾病扩散、打击犯罪或测定实时交通路况正是“大数据”盛行的本质。
围绕大数据的命题,经过采集后的视频数据通过创建数据仓库,进行数据的分析和挖掘,最终进行可视化的呈现,就是大数据的衍变过程。在大数据的发展趋势下,对海量视频监控数据的存储和管理是当下各大厂商积极探索的命题之一。
海量视频数据的存储和管理
视频数据的爆炸式增长,意味着需要投入更多的资源以及付出更多的努力,才能在这些体量庞大的数据中寻找到有价值的信息。目前各大厂商也发现单个节点的存储设备无法适应海量的视频监控数据的管理需求,其发展没能跟上数据增长的速度。其实不难发现,视频监控数据和传统的数据中心的结构化数据的业务模型相差较大:
恒定码流的高并发写入
视频监控数据具有高并发、大容量的特点。以1080P 为例,在4Mbps 的码率下,中等城市的监控规模一般为数千到数万个摄像头,按5000 路计算,并发写入码流为5000路×4Mbps ;
大容量
根据相关部门要求录像数据在系统中保存30%天以上。中等城市的存储容量为:5000 路×4Mbps ×24 小时×60 分钟×60 秒×30 天;
高可靠
视频监控存储系统7×24 小时不间断的高压力写入的同时,还必须具有高级别的容错性,存储等硬盘类介质属于电子产品,电子产品或多或少都存在软件或硬件的bug,高压力下的硬盘故障率也会比较高,如果保障故障发生时不造成监控数据的丢失,是视频监控存储管理的重要命题。
在线升级扩容
由于视频监控项目本身在不断发展,系统定期会进行在线扩容和升级,这就要求存储系统具有高度的可扩展性,可在系统中简单便捷地增添存储设备。
信息价值
海量数据和有效数据之间的矛盾。摄像头7×24 小时工作,如实记录镜头覆盖范围的发生的一切,仅仅记录信息是不够的,因为对于客户来讲可能大部分信息是无效,有效信息可能只分布在一个较短的时间段内,按照数学统计的说法,信息是呈现幂律分布的,也称之为信息的密度,通常在最短的时间内提供的数据有效性越高,对客户价值越大。
有效信息提取(计算)
在视频监控领域,往往视频分析的效率决定价值,更低的延迟、更准确的分析往往是平安城市这类客户的普遍需求。随着数据量的增加,哪怕对TB 级别的数据进行对视频内容的数据分析和检索,采用串行计算的模式都可能需要花费数小时的计算,已远远不能胜任时效性的需求。大数据架构下的存储系统还需要考虑后续的计算模式的匹配。
视频文件目前绝大多数的系统都是采用文件系统的方式进行音视频数据的存储。文件系统有几个最大的问题:
■存储设备管理接口不统一
■存储资源的管理及分配制度
■以文件系统为核心的数据存储方式
1) 文件系统易损坏,写文件会导致文件系统元数据区的频繁持续更新,因此文件系统的元数据区很容易损坏,导致文件系统不可用。
2) 性能问题:文件系统经IO 过操作系统的封装,在数据长时期持续写入的情况下,开销要大于直接裸盘写入,降低性能。在磁盘上存在大量录像文件时,系统的录像检索效率会下降很多。另外,磁盘上的大量文件在多次删除重建后,数据在物理磁盘上的位置将变成不连续,导致数据写入的随机性加大,从而降低录像数据的写入性能。
视频存储作为图像数据和报警事件记录的基础载体,重要性是不言而喻的,存储的需求已不仅是一台或几台设备而已,而已提升到了一个解决方案平台的高度。大容量、高并发的视频监控存储系统并不是存储设备的简单堆积,更需要解决监控业务特色的存储机制的完备性、存储标准以及在时间(存储数据处理速度)和空间(存储容量)上的可使用性等问题上满足大容量、高并发等大数据应用架构下的监控存储系统的要求。
宇视CDS(Cloud Direct Storage)视频云存储
“云存储”有许多的定义,大家公认的基本功能有:按需自动服务、资源池、快速灵活、广泛的网络接入等。云存储是通过网络提供的可配置虚拟化存储和相关数据服务,这个服务级别是可以按需要来保证的。云存储的第一个涵义是网络,早期通过云的图示表示网络,这是云存储的由来。“云存储”实际上借助了网络的概念,所以涵括了部分网络在内;另一个含义就是它的服务,虚拟化存储,提供存储池,屏蔽单台存储设备的所有细节,提供传统的存储很难做到按需服务。
宇视科技推出的CDS(Cloud Direct Storage)视频云存储系统,立足于视频监控的业务模式,在传统IT 基于文件存储的云存储模式基础上,推出的新的基于裸数据块的视频云直存技术。
基于裸数据块的视频云直存虚拟化技术
虚拟化是云存储的主要特征之一。存储领域国际权威机构SNIA( 存储网络工业协会) 给出了存储虚拟化(Storage Virtualization) 的定义:“通过将存储系统/ 子系统的内部功能从应用程序、计算服务器、网络资源中进行抽象、隐藏或隔离,实现独立于应用程序、网络的存储与数据管理”。存储虚拟化技术将底层存储设备进行抽象化统一管理,向服务器层屏蔽存储设备硬件的特殊性,而只保留其统一的逻辑特性,从而实现了存储系统的集中、统一、方便的管理。
与传统虚拟化存储相比,基于“裸数据块”的虚拟化存储化技术,不仅继承了“磁盘利用率高” 和“管理方便”的特点,还能将文件系统的风险及碎片问题彻底解决。
高磁盘利用率
传统存储技术的磁盘利用率一般只有30-70%,而采用虚拟化技术后的磁盘利用率高达95%;存储灵活,可以适应不同厂商、不同类别的异构存储平台,为存储资源管理提供了更好的灵活性;
管理方便
管理方便,提供了一个大容量存储系统集中管理的手段,避免了由于存储设备扩充所带来的管理方面的麻烦;性能更好,虚拟化存储系统可以很好地进行负载均衡,把每一次数据访问所需的带宽合理地分配到各个存储模块上,提高了系统的整体访问带宽。
无文件碎片及文件系统问题
云存储是炙手可热的“大数据”中组成之一:存储单元模块。“大数据”中提及富媒体资源指的就是视频监控业务产生的大量数据,占比巨大的富媒体信息中的载体为存储设备和云存储解决方案。
存储设备或云存储解决方案作为视频监控里中结构化和非结构化数据的载体,横跨基础架构、内容信息三个维度的信息化建设的基础。如果将“富”媒体中的视频信息,从底层的动态存储到以事件或物理为索引的信息分析,再到将海量的非结构化数据转化成信息和洞察力,做到真正的“为人所用”,才是大数据的真正魅力所在。
监控特色的数据仓库
数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。 数据仓库是一个过程而不是一个项目;数据仓库是一个环境,而不是一件产品。数据仓库提供用户用于决策支持的当前和历史数据,这些数据在传统的操作型数据库中很难或不能得到。
监控特色的数据仓库技术是为了有效的把基础视频库中的录像信息,按照某些特性或逻辑或定义的结构类型,进行信息的提取,作为数据集成到统一的环境中以提供决策型数据访问的基础。目的做的一切都是为了让用户更快更方便查询所需要的信息,提供决策支持。
传统的数据处理和加工是:从外界存储取出来数据,被应用程序或其他系统程序所读取并计算处理,处理完毕将其放入程序里面,整个业务流有多个处理环节,要不断地存储、读取、计算、再存储,其系统的大量时间花费在数据的迁移上,一旦数据量增加,从数据向计算迁移的环节就肯定“费时费力”。
大数据整理架构发展趋势下,将管理的重点由以前的“设备”为中心,衍变成以“数据”为核心的模式。用户根据数据具体分布,推送部署计算单元,大大节省额外的空间计算消耗。
数据可视化
无论是单一的存储设备,还是IT 或监控云存储的解决方案,其核心都是作为数据的载体。任何行为本身都会产生数据,视频监控业务中每个物体的轨迹、每秒中呈现的数据,都是就是大数据的最原始雏形,但雏形不等于本质,拥有这些轨迹数据的本质,才能更全面、更清楚的对原始数据的认知。
数据可视化技术的基本思想是将数据库中每一个数据项作为单个图元元素表示,大量的数据集构成数据图像,同时将数据的各个属性值以多维数据的形式表示,可以从不同的维度观察数据,从而对数据进行更深入的观察和分析。主要旨在借助于图形化手段,清晰有效地传达与沟通信息。但是,这并不就意味着,数据可视化目的为了有效地传达“数据”的过去状态的呈现及未来状态的预测,通过直观的数据传达关键的方面与特征,从而实现对于相当稀疏而又复杂的数据集的深入洞察。
监控视频数据可视化依据数据及其内在模式和关系,利用计算机生成的图像来获得深入认识和知识。模拟感觉系统的广阔带宽来操纵和解释错综复杂的过程、涉及不同学科领域的数据集以及来源多样的大型抽象数据集合的模拟。
监控视频数据可视化是大数据架构下的特征产物之一,通过视频云存储作为承载。“可视化”的实现能打破成熟的科学可视化领域与较年轻的信息可视化领域间的技术壁垒,同时也是一条铺满荆棘的探索之路。