发新话题
打印

推荐!!智能交通系统数据的管理技术与策略

本主题由 daisy 于 2008-3-13 16:25 移动

推荐!!智能交通系统数据的管理技术与策略

  摘要:智能交通系统的飞速发展为交通管理领域提供了丰富、连续的ITS数据,但大部分交通管理中心仍缺乏针对ITS数据的系统化管理体制和方法,所存储ITS数据的利用效率极低,造成了数据资源的巨大浪费。为了对数据资源进行管理整合以满足用户不断涌现的ITS数据需求,本文提出并描述了以下六大类数据管理技术,包括(1)ITS数据质量控制技术:提供高质量的准确的ITS数据;(2)ITS数据集成技术:根据用户需求、应用类型和数据特征提供最佳的数据集成度;(3)ITS数据抽样技术:从多个数据样本中提取出最具代表性的样本数据实现数据的有效存储;(4)ITS数据压缩技术:在失真度有限的前提下以较高的压缩比压缩历史ITS数据来便利传输和存储;(5)分布式动态ITS数据系统:针对来自不同探测器的分布式ITS数据进行动态分析、显示和处理;(6)ITS数据再获得技术:建立ITS数据库与用户间的接口以改善终端用户的数据检索和获取。所开发的ITS数据管理技术与数据处理流程相结合,基于数据的采集、传输、处理加工、存储和发布的各个环节构造出一整套对ITS数据实施有效管理的完善策略,能够加强数据资源的共享和交换,促进各个交通子系统的有效运作,提高交通运输系统的整体效率。


  1.引言
  随着国内城市交通管理基础设施的迅速发展,功能不断完善的各类交通检测器和电子信息化采集技术为交通管理领域提供了丰富的ITS数据源,为交通规划、信号控制、建模参数标定、交通诱导等交通应用的开展打下了良好的数据基础,各类ITS数据用户的数据需求也不断增长。

  但截至目前,大部分交通管理中心仍缺乏针对ITS数据的系统化管理体制和方法,所存储ITS数据的利用效率极低,其常用的数据管理方法有两类:或者将数据投入实时应用之后立即丢弃,或者将所有数据进行无限期存储。前者仅能满足实时交通应用需求,且严重浪费了数据资源;而后者则以牺牲巨额的物理存储空间为代价,两者均非数据管理的最佳策略。为了提高分布式ITS数据的使用效率,避免数据资源的巨大浪费,需要开发有效的ITS数据管理技术,对数据资源进行管理整合并存储为适当的数据格式,提供给终端用户,以满足其不断涌现的ITS数据需求。

  2.ITS数据管理需求
  国内ITS数据应用中存在的问题是:数据服务对象单一,通常仅面向交警或公交系统;并且,若干已建成系统(各种信息系统、管理系统和控制系统)间缺乏信息资源的共享和交换,基本处于“孤岛型”运作状况,影响了系统的推广应用。

  国外近几年开展了包括数据挖掘技术在内的ITS数据管理技术的研究,一些交通管理中心也开始在数据集成、压缩及存储方面进行初步探索[1]。如何实施数据管理,使之既能满足实时交通应用,又能从长远利益出发,使这些数据易于检索与应用,这是亟需数据管理人员解决的问题。另一方面,对隶属于不同交通领域的ITS数据用户而言,在表达其对各类交通数据需求的同时,更希望数据管理部门提高所收集数据的精度、质量和有效性,来满足未来开发全新的交通应用时的数据需求。

  目前交通研究人员正在尝试各种途径来开发有效的ITS数据管理技术,包括不同用户的ITS数据需求分析、数据处理途径和方法以及数据的有效检索和发布策略等,其目的均在于使数据易于存储和管理,且能更加灵活地满足用户目前和未来的数据需求。可见,有必要开发有效的数据管理技术,加强数据资源的共享和交换,实现ITS数据的全面管理和整合。

  3.ITS数据管理技术的提出
  针对既有的大量ITS数据,很多交通管理中心已经初步设计开发了一系列数据管理技术、方法和规范,其中少量技术在实践中运用后也取得了一定效果。下面对于有关的ITS数据管理技术的概念、作用和发展现状做一评述:
  ITS数据质量控制技术——针对所采集的原始数据中的错误、丢失、不精确和不规则时间点等情况进行修正处理,得到高质量的数据。该技术目前能够对交通数据进行简单的质量控制,或者能够修正很明显的错误数据,或者能够对缺失数据进行简单的补齐[2]。但是目前的质量控制方法具有随意性,算法并不完善(如不规则时间点问题尚未解决),操作停留在手工层次,需要提出更加完善的质量控制算法并且编程实现。
  ITS数据集成技术——旨在根据用户需求、应用类型和数据特征提供具有最适当集成度(数据时间间隔)的集成数据用于不同的交通应用。既然不同的交通应用类型对应着不同的数据集成度,而目前交通管理中心主要依靠经验确定集成度,则需要通过定量分析提出更为准确有效的数据集成方法。
ITS数据抽样技术——旨在从具有相似性的一组数据集合中提取出最能代表总体特征的个体数据样本,在保留数据有用信息的同时节省存储空间。目前数据抽样技术缺乏必要的理论指导,且大多停留在手工层次,需要开发针对大样本量数据的自动化抽样算法,并对算法的实际应用前景做深入研究。
  ITS数据压缩和存储技术——其出发点是利用各种算法将数据冗余压缩到最小,并在有限失真度的前提下尽可能提高压缩比,便于存储和传输。交通管理中心在存储历史数据时,通常是使用通用的WinRar或者Winzip等无损压缩软件进行压缩,此法较为简便,但其压缩率有限,需要开发更为有效的数据压缩技术来大幅提高压缩比,并且保证重构后数据具备很低的失真率,能够满足各类交通需求。
  分布式动态ITS数据处理技术——交通数据在决策支持领域已经取得了初步进展,如优化信号配时、变换可变标识信息、交通事故探测等。但是目前尚不能做到对大量动态的分布式交通数据进行实时分析和处理,需要实现针对数百个检测点采集得到的分布式ITS数据的并行数据分析、处理和显示功能。
  ITS数据再获得技术——旨在建立ITS数据库与用户间的接口以改善终端用户的数据检索和获取。有的交通管理中心已经开发了自身的ITS数据与用户的接口界面[3],但是需要设计完善的ITS数据再获得应用方案,并对已有的和在建的ITS数据库的维护策略与用户接口进行详细规范。

  4.ITS数据管理技术的具体内容
  4.1 ITS数据质量控制技术
由于传输设备故障、路面交通状况和环境因素的异常以及ITS设备的连续性工作特点所引发的间歇性工作故障,所采集的ITS原始数据中存在着问题数据。由于这些问题数据影响了数据的正确性与完整性,必须对问题数据进行判别并且给予修正,以利于ITS数据应用的顺利进行。该过程称为ITS数据的质量控制[2]。

  问题数据可以分为四类:错误数据、缺失数据、不精确的数据和采集时间点的偏移。(1)对于错误数据,首先根据阈值理论和交通流理论来进行判别。对于不满足阈值理论的数据,用阈值替代错误数据;而对于不满足交通流理论的数据,可以采用数据插值或者历史数据平均的方法来进行修正,就目前历史数据还不很丰富的情况下,推荐使用数据插值方法来进行数据修正。(2)对于缺失数据,对既定的时间点依次进行检查识别,判别出缺失数据的具体位置。接下来使用同期历史数据或者插值方法进行数据补齐,使用前法需要有大量的原始数据为基础,而插值方法用于短间隔内数据丢失时的补齐效果较好。(3)对于不精确数据,通常需要通过准确的多样本数据采集方法来获取所研究交通状况的基准值,将实际值与之作对比后得出修正方案和结论。识别这部分数据必须首先判定设备的校正误差和测量误差,而这些信息都由现场技术人员分析后提供。(4)对于不规则时间点判别和修正,假设探测器的数据采集间隔时间为指定的N秒,但是由于实际中探测器工作的不稳定性,部分实测数据的时间间隔不能严格满足N秒的要求,导致实测数据的时间属性不够规范,这将严重妨碍后期对数据的管理和应用(包括集成和抽样等),从而需要对其进行修正。进行时间点修正的原则是既要在最大程度上保留原始数据的信息,又要将时间点修正为规范的格式[4]。

  考虑到数据修正方法的适用性, ITS数据质量控制的具体实施步骤见图1,由于基准值很难获取,其中没有考虑不精确数据的修正。ITS数据质量控制技术软件的前台程序采用Visual Basic 6.0程序语言开发完成,后台数据库采用Microsoft Access数据库作为支撑平台[5]。


图1  ITS数据质量控制的具体实施步骤

  以上主要从单数据源质量问题的角度出发,研究了ITS数据的质量控制技术。若考虑多个数据源的情况,假设从多个数据源同时获取具备同一时空属性的ITS数据,由于不同数据源的精确度和可靠度各不相同,各有优势,如何对多数据源得到的数据进行整合加工,以得到质量更好的数据,这需要借助数据融合技术来实现,称为基于融合技术的多源ITS数据质量控制,属于质量控制技术的外延。

收藏到网摘:
本贴地址:http://bbs.shejis.com/viewthread.php?tid=1265853&fromuid=0
点这里,把本帖地址在MSN/QQ上发给朋友分享!同时你还可以获得积分!

就算跌倒,也要豪迈的笑……

TOP

  4.2 ITS数据集成技术
  对于交通数据而言,集成度即为时间间隔,是用来计量ITS数据的特定时间间隔。而最佳集成度则是针对某一特定的交通需求计算出的最佳时间间隔。数据集成是根据不同用户对交通数据的需求,采用一定的集成方法将ITS存档数据转化成为更能够满足给定需求的最佳时间间隔数据的过程。
  针对来自于多个探测器的连续数据,交管中心若直接存储原始数据,在浪费硬件资源的同时也不能满足某些用户特定的需求;若对原始数据进行有效集成后提取有用信息,则在更好地满足规划类用户需求的同时,也有助于节省存储空间。但是当前实际应用中通常根据经验来选定集成度,方法缺乏理论根据,需要开发更加准确且有根据的数据集成技术。交通研究人员已经开发了两种技术用于数据集成,分别是基于数理统计的集成技术和基于小波分解的集成技术: 
  (1)基于数理统计的集成技术
  该技术的基本思路是:对于原始数据直接集成,对所有可能集成度下的数据序列统计分析检验,寻找最合适的集成度,计算得到的最佳集成度下的数据序列既可以最好地代表原始数据序列,又可以在统计误差允许的范围内尽量少丢失原始数据的信息[6]。该技术基于数据序列变化率展开分析,其运用过程直观且方便使用;但致命缺陷在于,计算所得到的集成数据序列中包含过多的无用信息(错误和噪音),并且不能对集成以后的信息损失进行评价,无法确知集成方法的有效性。
  (2)基于小波分解的集成技术
  将交通变量视为一种信号,则可以利用信号处理理论来进行研究。小波变换是近年来兴起的一种崭新的时频域信号分析理论,小波具备正交性、方向选择性、可变的时频域分辨率等许多优良特性,因而可用来开发更为完善的数据集成技术。

  该技术采用双侧最优化的方法[7]确定最佳集成度:计算左侧集成度过程中,首先利用小波变换分解原始ITS数据,辨别出数据中的噪音和各种有用成份,去除噪音,保留有用成份;其次比较不同数据序列在某一小波分解尺度下的相似性,计算各种可能小波尺度下的相似性值,通过合成自定义的相似性指标,确定可接受的小波尺度,再通过香农采样定理将该小波尺度转化成集成度,从而得到集成度的左侧界限。计算右侧集成度过程中,将集成后的数据和原始数据进一步分解到某一特定的分解尺度,比较它们相似的成份,通过合成自定义的信息损失指标,确定哪一集成度下的信息损失是可以接受的,从而得到集成度的右侧界限。最佳集成度介于左右侧界限之间,若不存在最佳集成度的范围,建议改变相异性指标和信息损失指标的参数重新进行计算。图2为双侧最优化方法确定最佳集成度的图示。

             图2  基于双侧最优化方法确定最佳集成度
  该技术可用来确定不同时段、空间和用途的原始ITS数据的最佳集成度。利用MATLAB语言开发ITS数据集成技术软件实现小波分解的全过程[5]。与基于数理统计的集成技术相比,小波分解集成技术着重研究实际ITS数据序列的详细分解成份,可以有效地消除无用信息,方法直观且容易计算,能够更精确地确定最佳集成度,现阶段必将大量应用。

  4.3 ITS数据抽样技术
  由于ITS数据量庞大,在不必要存储所有数据的情况下,可以考虑从具有相似性的一组数据集合中抽取出最能够代表总体特征的个体数据样本,当使用该样本来代替总体数据集合时,既保留了数据的有用信息,又节省了大量的存储空间,该过程称为ITS数据抽样。

  ITS数据抽样方法包括误差平方和法(SSE)和交互检验法(CV),二者均基于数理统计方法,通过将每个个体样本和总体均值作定量比较,选择出与总体均值差距最小(方差作为指标)的那个个体样本作为最佳样本。最佳样本的确定还与所选择的总体样本集合密切相关,在进行总体样本选择时必须保证个体样本(抽样单位)间存在必要的相关性,以使得数据抽样变得有意义。根据概率论中的中心极限定理等理论,可以在给定的置信水平下计算出不同条件下适合的样本容量范围[8]。


就算跌倒,也要豪迈的笑……

TOP

  以交通流数据为例,说明数据抽样技术的实现步骤(SSE方法)[9]:
  第一步:确定抽样样本容量和抽样单位,构成抽样总体样本并按照抽样单位分组;
  第二步:针对速度变量,计算同一时间点的总体数据样本平均值;
  第三步:将每个时间点的数据样本值与均值作比较,并计算每组样本的偏差平方和;
  第四步:针对流量和占有率变量,采用同样的方法计算出每组样本的偏差平方和;
  第五步:建立量化系统,对三个不同数量级的变量量化到同一个比较层次上,然后根据各自的重要程度给不同变量分配适当的权重,并加权计算每组样本的全部变量的综合偏差平方和;
  第六步:偏差平方和最小的那一组即为最佳抽样样本。
  ITS数据抽样技术软件的前台程序采用Visual Basic 6.0程序语言开发完成,后台采用Oracle9i数据库作为支撑平台[5]。该程序通过存储代替总体的最佳样本,能够大幅降低所需的存储空间。图3为使用SSE方法得到的最佳、最差和平均样本的时间-流量图,样本容量为10,抽样单位为周三早高峰流量数据,流量、速度和占有率的权重分别是1/3、1/3 和1/3。


图3  最佳抽样日和最差抽样日与总体平均值的时间-流量图

  CV方法和SSE方法基本类似,唯一的区别是:CV方法中计算某个时间点的数据样本的方差时,不是将该样本与所有同一时间点的数据样本平均值作比较,而是将扣除该数据样本以外的其余同一时间点的数据样本平均值进行比较,这样能够减弱异常数据对抽样结果的影响。实际应用中需要根据数据中所包含的奇异点情况进行方法选择。

  4.4 ITS数据压缩与存储技术
  由于ITS涉及的数据种类繁多,所需存储的数据量巨大,已构成海量数据;加之原始数据以及经集成或抽样处理后的数据,均有数据存档的需求,有必要开发ITS数据的压缩技术,对ITS数据进行有效的压缩与重构(解压缩)处理,使数据易于存储和传输。如果将交通数据序列视为信号,则可应用在数据压缩领域应用广泛的信号处理技术来实现。无损压缩应用于不允许在压缩过程中信号有丝毫损失的场合,应用于ITS数据文本文件之后的压缩比可达20:1,但这并不能完全满足交通数据压缩的要求。有必要开发压缩比更高但存在有限失真的有损压缩技术,只要应用中能够允许这些失真,就证明以失真为代价换取更高编码效率的方法是可行的。

  小波变换具有很好的时-频局部化特性,能更加有效地提取和分析局部信号,首先对ITS数据信号进行小波分解,结合下采样方法得到分层的高低频系数,然后对低频近似数据用离散余弦变换进行预处理,使低频分量的能量变得集中,再构造适合ITS数据特点的量化器进行量化。对量化之后的数据采用成熟的Huffman编码和LZW编码技术进行编码,最终得到高压缩比且失真度很低的压缩数据[10]。

  综上所述,笔者基于信号处理领域中的小波变换及离散余弦变换技术,通过设计适当的特征抽取阈值与量化器,开发出针对ITS数据的压缩和重构方法。压缩的出发点是利用各种算法将数据冗余压缩到最小,并在控制失真度的前提下尽可能多的保存有用信息,提高数据的使用效率和质量。ITS数据压缩和重构的详细流程见图4。利用MATLAB软件和Visual C++语言开发ITS数据压缩与存储的可移植专用软件[5]。通过将重构数据与原始数据进行对比,证明采用笔者设计的数据压缩技术,与常用的WinZip软件相比,能够将文件的压缩幅度提高61.92%,且重构数据中与原始数据的相对差值比率大于5%的记录仅占1.27%,从而在限失真度的前提下得到了更高的压缩效率[11]。


图4  ITS数据压缩与重构流程图

  关于ITS数据存储,首先应该考虑用户的存储需求,从该需求出发,选择适合的ITS数据存储介质,并遵守有关的ITS数据存储注意事项。


就算跌倒,也要豪迈的笑……

TOP

  4.5 分布式动态ITS数据处理技术
  传入交通管理中心的ITS数据是由几百甚至更多个探测器从不同路段同时收集的,呈现分布式动态特征,这部分数据在实时交通控制系统中,可被用来进行信号配时优化、探测交通事故和交通辅助决策等,但是需要经过分析和处理才适于应用。
  建立分布式动态ITS数据处理平台系统来实现这一功能,系统由服务器端和客户端两部分构成,服务器端收集到达的ITS数据,根据客户端的数据需求,采用信号处理领域中的小波变换和离散余弦变换方法,对所需的ITS数据进行滤波和插值处理后,将结果在客户端显示用于辅助决策。服务器平台通常安装于交通管理中心的中央服务器上。

  以MATLAB软件和Visual C++语言为开发平台设计该系统[5]。如图5所示,服务器端数据处理系统的主要功能有:实时存储远程数据,进行动态处理并将结果图形化动态显示。监听模块用于接受客户端发来的请求并把处理结果传递给客户端,监听模块在与客户端进行数据交互的过程中将自动调用后台的压缩/解压缩模块。客户端系统主要用来接收服务器端的处理结果,不作详述。


图5  服务器端ITS数据处理系统功能模块图

  4.6 ITS数据再获得技术
  ITS数据经过质量控制、集成和压缩等处理后,存储在数据仓库中。采集ITS数据的最终目的是为了满足交通数据用户的数据需求,而数据再获得的概念就是要建立ITS中央数据库与终端用户间的接口,实现终端用户对数据的便捷检索和获取。


  根据ITS数据用户的类型来开发ITS数据再获得系统,按照用户操作权限将数据用户分为四类,见表1。不同的数据用户的数据需求和操作权限有所不同。数据用户的不同应用目的,对于ITS数据再获得有着不同的要求。对于实时应用,应把最新的短间隔数据提供给用户,数据仅需必要的加工;对于非实时应用,则要根据用户要求提供指定时间的数据,并对数据进行深加工,可能包含简单的筛选、分组、或生成图表等,甚至更为复杂的数据集成或融合工作。

表1 数据用户及权限
数据用户 权限
数据库管理员 拥有对数据库的最高访问权限,包括用户权限管理、启动或关闭数据库、对整个数据库的备份或恢复操作等
原始数据组织者 可以对自己负责的数据进行录入、修改和增删等操作
一般的查询用户 只可以查询某一部分原始数据,没有对数据的增删、修改权限
普通出行者 只能被动接受由ITS数据管理系统发布的数据,一般指出行信息

  数据用户的不同使用环境,影响着ITS数据再获得的表现形式。对于要求速度高、计算量大、安全性要求高的使用者(如数据分析员),要为其开发基于特定网络协议连接数据库的接口;对于远程查询要求,安全性要求高的,要为其开发基于TCP/IP协议的加密web访问接口;对于其它远程查询要求,要求有普通web访问接口;对于难以接触计算机终端和网络的使用者,可以使用电子公告板、无线广播,或者通过移动通信设备查询等方式。

  目前,数据再获得在软件结构上,分为C/S结构、B/S结构以及三层及多层体系结构。其中,C/S结构主要应用于局域网内小范围的应用;B/S结构则应用于Internet环境下;三层和多层结构实现了数据层和应用逻辑层的分离,可以实现较复杂的应用。

  基于以上分析,针对不同数据用户笔者开发了三套数据再获得方案。对于普通出行者,需要交通部门加强数据发布的基础设施建设,包括可变信息板、交通广播及其它移动通讯设备等,来满足用户的数据需求。对于一般查询用户,通过建立基于B/S结构的数据再获得网站,用户通过接入Internet访问网站的数据服务器,设定查询条件来获取所需数据。对于数据库管理和分析人员,通过开发基于C/S结构的数据库管理系统,实现用户权限管理和对数据的查询与维护。基于Oracle 9i数据库,利用Visual Basic 6.0编程语言和JSP开发语言进行系统的设计开发[5]。

  5.结论
  开发有效的ITS数据管理技术对智能交通系统的高速全面发展有着非常重要的意义,只有实现ITS数据的有效管理才能够保证各类交通应用的有序和高效运作。具体来讲,ITS数据质量控制技术能够提供高质量的准确的ITS数据,ITS数据集成技术能够根据用户需求、应用类型和数据特征提供具有最适当集成度的集成数据满足不同的交通应用,ITS数据抽样技术能够从多个数据样本中提取出最具代表性的样本数据实现数据的有效存储,ITS数据压缩技术能够在失真度有限的前提下以较高的压缩比压缩历史ITS数据来便利传输和存储,分布式动态ITS数据系统能够针对来自不同探测器的分布式ITS数据进行动态分析、显示和处理,ITS数据再获得技术能够建立ITS数据库与用户间的接口以改善终端用户的数据检索和获取。

  所开发的ITS数据管理技术与交通系统内的数据处理流程环环相扣,当从探测器采集得到原始数据之后,首先进行质量控制提高数据质量,然后根据需要进行集成或者抽样将数据处理成需要的形式,在入库存储之前进行数据压缩以节省空间,最后通过数据再获得技术将数据发布给广大的数据用户,另外还可以借助分布式动态ITS数据处理系统进行交通数据辅助决策。

  可见,所开发的ITS数据管理技术与数据处理流程相结合,提出了一整套对ITS数据实施有效管理的完善策略,能够加强数据资源的共享和交换,促进各个交通子系统的有效运作,提高交通运输系统的整体效率。



就算跌倒,也要豪迈的笑……

TOP

发新话题
统计代码