以交通流数据为例,说明数据抽样技术的实现步骤(SSE方法)[9]:
第一步:确定抽样样本容量和抽样单位,构成抽样总体样本并按照抽样单位分组;
第二步:针对速度变量,计算同一时间点的总体数据样本平均值;
第三步:将每个时间点的数据样本值与均值作比较,并计算每组样本的偏差平方和;
第四步:针对流量和占有率变量,采用同样的方法计算出每组样本的偏差平方和;
第五步:建立量化系统,对三个不同数量级的变量量化到同一个比较层次上,然后根据各自的重要程度给不同变量分配适当的权重,并加权计算每组样本的全部变量的综合偏差平方和;
第六步:偏差平方和最小的那一组即为最佳抽样样本。
ITS数据抽样技术软件的前台程序采用Visual Basic 6.0程序语言开发完成,后台采用Oracle9i数据库作为支撑平台[5]。该程序通过存储代替总体的最佳样本,能够大幅降低所需的存储空间。图3为使用SSE方法得到的最佳、最差和平均样本的时间-流量图,样本容量为10,抽样单位为周三早高峰流量数据,流量、速度和占有率的权重分别是1/3、1/3 和1/3。

图3 最佳抽样日和最差抽样日与总体平均值的时间-流量图
CV方法和SSE方法基本类似,唯一的区别是:CV方法中计算某个时间点的数据样本的方差时,不是将该样本与所有同一时间点的数据样本平均值作比较,而是将扣除该数据样本以外的其余同一时间点的数据样本平均值进行比较,这样能够减弱异常数据对抽样结果的影响。实际应用中需要根据数据中所包含的奇异点情况进行方法选择。
4.4 ITS数据压缩与存储技术
由于ITS涉及的数据种类繁多,所需存储的数据量巨大,已构成海量数据;加之原始数据以及经集成或抽样处理后的数据,均有数据存档的需求,有必要开发ITS数据的压缩技术,对ITS数据进行有效的压缩与重构(解压缩)处理,使数据易于存储和传输。如果将交通数据序列视为信号,则可应用在数据压缩领域应用广泛的信号处理技术来实现。无损压缩应用于不允许在压缩过程中信号有丝毫损失的场合,应用于ITS数据文本文件之后的压缩比可达20:1,但这并不能完全满足交通数据压缩的要求。有必要开发压缩比更高但存在有限失真的有损压缩技术,只要应用中能够允许这些失真,就证明以失真为代价换取更高编码效率的方法是可行的。
小波变换具有很好的时-频局部化特性,能更加有效地提取和分析局部信号,首先对ITS数据信号进行小波分解,结合下采样方法得到分层的高低频系数,然后对低频近似数据用离散余弦变换进行预处理,使低频分量的能量变得集中,再构造适合ITS数据特点的量化器进行量化。对量化之后的数据采用成熟的Huffman编码和LZW编码技术进行编码,最终得到高压缩比且失真度很低的压缩数据[10]。
综上所述,笔者基于信号处理领域中的小波变换及离散余弦变换技术,通过设计适当的特征抽取阈值与量化器,开发出针对ITS数据的压缩和重构方法。压缩的出发点是利用各种算法将数据冗余压缩到最小,并在控制失真度的前提下尽可能多的保存有用信息,提高数据的使用效率和质量。ITS数据压缩和重构的详细流程见图4。利用MATLAB软件和Visual C++语言开发ITS数据压缩与存储的可移植专用软件[5]。通过将重构数据与原始数据进行对比,证明采用笔者设计的数据压缩技术,与常用的WinZip软件相比,能够将文件的压缩幅度提高61.92%,且重构数据中与原始数据的相对差值比率大于5%的记录仅占1.27%,从而在限失真度的前提下得到了更高的压缩效率[11]。
图4 ITS数据压缩与重构流程图
关于ITS数据存储,首先应该考虑用户的存储需求,从该需求出发,选择适合的ITS数据存储介质,并遵守有关的ITS数据存储注意事项。