大数据多源异构新特征与数据融合新需求

互联网连接了人们的生活、企业的生产和政府的管理,也使得社会各参与者在无数活动中产生数据。这些数据来源广泛,结构复杂多样,同时,数据可获得性的增强也使更多领域日益重视数据资源价值的挖掘。因此,海量数据的新特征及更多领域的新需求,促使多源异构大数据融合成为大数据研究领域的重要内容。

多源异构大数据呈现的新特征

多源异构大数据呈现的新特征总体可以概括为:交叉性、多元性、变化性和共识性。不同活动、不同业务的内容常常出现重叠,大量跨行业、跨媒体、跨数据库的数据具有很强的交叉性。数据形态结构也呈现多样化,既有数字、表格等结构化数据,也有文本、图片、声音、视频等非结构化及半结构化数据。

此外,多元性不仅是数据类型、结构不同,而且是数据中蕴含的内容和知识的多“维度”与多“粒度”,体现了数据和知识间复杂的立体关系。数据的变化性指数据随着时间的推移发生变化。数据的共识性是指人们对很多数据之间的关系及数据和知识之间的关系已经达成共识,这些关系和知识具有普遍适用性,有助于建立起数据、信息和知识间的关联关系,挖掘更多知识。

挖掘多源异构数据中的信息和知识并将其转化为价值,离不开数据融合。信息融合模式可以抽象为3个层级,分别是数据级融合、特征级融合和决策级融合。

数据级融合主要指对相同介质传感器收集的数据直接进行融合;特征级融合是指先从原始数据中提取特征,然后对它们进行融合;决策级融合则是对特征或已经得到的初步结果进行更高层次的融合,得出更综合和系统的决策。不同融合层次都有大量方法和技术,包括主成分分析、Kalman滤波、贝叶斯估计、机器学习、D-S证据理论、智能计算等。

从数据级融合到特征级融合再到决策级融合,融合的层次越来越高,计算量和精度降低,信息损失增加,但稳健性和灵活性得到提升。多元信息融合的应用主要在军事、通信、控制、医疗、交通等领域,融合的数据以传感器产生的“硬数据”为主。

多源异构大数据对数据融合的新需求

多源异构大数据对数据融合的新需求使数据融合在理论研究、方法技术和实际应用中都迎来了挑战。 当前由于多源异构大数据在全领域、各行业的渗透和价值的发挥,数据挖掘与融合的应用延伸到企业管理、政府治理、银行风险防范等诸多社会经济问题中,这些新兴的应用场景有别于信息融合传统的应用领域,因此,企业、政府等众多参与主体的应用场景对数据融合提出了新需求。

在社会经济和管理领域中,数据来源更具复杂性和开放性,研究问题往往参与主体较多,系统性较强,存在大量直接关联或隐性关联的数据,与传统传感器收集的数据相比,预设数据源的重要性可能降低,开发和确定新数据变得重要。

同时,社会活动离不开“人”的参与,因此充分考虑与“人”有关的“软因素”和“软数据”,将其与其他“硬数据”融合分析,成为新的需求。

在数据融合模式上,将多个层级的融合相结合而非单独局限于某个层次的融合,使数据融合贯穿于数据挖掘全过程成为未来发展方向。此外,社会、经济和管理领域的应用场景需要强化前沿技术与领域专家知识的结合,增强方法工具在应用中的可理解性及和实践的联系具有重要的意义。

文章摘编自《中国科学院院刊》,原标题:《基于“物理—事理—人理”的多源异构大数据融合探究》

作者:李爱华 续维佳 石勇

原标题:大数据多源异构新特征与数据融合新需求