科界大咖说|大数据之美

大数据不是简单的数据大。它实际上是我们当今社会所拥有的一种独特能力。我们通过数据分析,获得深刻的洞见,或者是新的产品和服务。我们利用这些数据,来帮助我们的决策,从而获得更大的价值。我将通过几个大数据应用的实例来更直观的为大家介绍什么是大数据。

大数据是对海量数据深度分析所获得的变化总和。它不是一种简单的技术发展或者技术挑战,而包括我们的决策流程、生活方式、商业模式,甚至观念形态等等。举一个食品安全的例子。我们每个人可能都很在乎我们自己吃的东西,在餐馆吃的食品是不是安全,我们叫的外卖是不是安全。用大数据的方法,通过掌握实时更新的所有大型食品外卖平台和餐饮平台中的评论数据,可以帮助我们了解餐馆是否真正能满足我们的食品安全要求。每一个老百姓、每一个消费者的贡献虽然可能都是碎片的,也许十个吃了不干净食品的人只有一个会给出差评,也许这个差评不是那么准确,但是,当上百个评论每天在更新的时候,我们就可以从这些海量数据中找到我们老百姓真正关切的问题。

大数据可以协助司法公正。通过大数据分析,可以告诉你一个案件的审判要素是什么,可以了解到在最高法推荐的那些优秀的结案文件中,哪些案子与你的审判要素最相近,然后推给你参考,帮助你了解这些案子审判要素是什么,为什么基于这个审判要素会得到这样的判决。大数据还可以告诉你,如果作为一个机器人,会给出什么样的判决,所以,这是一个辅助手段。有了这样一个辅助手段之后,我们就能保障,哪怕在基层法院,大体上也能够向最高法推荐的这些最优秀的案子看齐,知道这样的审判要素可能有多大幅度的量刑范围。这对于我们在全国范围内保障司法公平性是非常有益的。

大数据科学安排孩子学习内容。教育实际上是数据和人工智能能够发挥巨大作用的战场,比如面对中小学生,一个很大的问题是每个人上的课都一样,不管你学的好还是不好,我们给的教学都是一样的,家庭作业是一样的。对于优秀的学生来说,可能他绝大部分时间都在听他懂的东西,做他会的题目,他把时间浪费了。对于那些还有点跟不上的学生来说,可能别人讲的时候,他觉得跟我的知识点还有距离,他没办法从这么快的节奏中学到东西。我们做了很多翻转课堂的实验,让每个学生上课的时候都有一个PAD,老师有一个屏幕,上面可以看到一个班级的学生在做什么。一整个学年,我们的选择填空题仅数学题在课堂上能做1100道左右,有了这些题目之后,针对每一个学生就可以建立一棵知识树。这样就可以掌握每个学生哪里学得很好,哪里还需再进步。这时候就可以由系统自动给学生布置个性化的家庭作业。

大数据的手段发现学生心理问题。我们在电子科大用校园一卡通的数据做了一个很有趣的实验。每个电子科大学生都有校园一卡通,这个一卡通进出寝室、进出图书馆、吃饭、打水、去艺术中心看演出、去超市买东西等都会用到。所以,有了一卡通之后,其实我们对学生的行为就可以有比较全面的画像。比如,我们可以通过关联一个学生经常发生的“前后脚”刷卡数据,从而判断出他在校园里有多少亲密好友,有多少关系一般的朋友。我们会考虑他是否出现社会交际障碍,是否需要心理咨询,会给予这个孩子更多关注。通过这种方式,我们就能更早地把学业问题和心理问题提前发现,避免造成更严重的后果,这就是利用大数据的手段发现端倪。

大数据提高污水治理水平。水是生命之源,但是真正治理水的时候存在很多痛点。首先,我们没有办法给出一个全景式的判断我们水资源的情况,以及我们水污染发展的趋势。第二,我们没有办法很及时地发现一些重大的污染事件,并且跟踪这个污染事件治理的情况。第三,当出现一些大型的污染事件,尤其是出现因为泄露,因为爆炸,带来大型污染事件的时候,我们不能精确的判断到底要向上游要多少水,向水库要多少水,或者采用什么样的方法能够快速地稀释我们的污染物。大数据在这个时候可以发挥巨大的作用。我们可以基于海量的遥感数据,建立多光谱模型,通过机器学习的方式,能够给出我们的水的污染的总体评价情况。我们利用大量数据,基于人工智能方法,其实可以把原来看起来很难进行统一全规模、全自动化管理的东西,能够在统一的自动化的方式中进行定量的管理,从而大幅度地提高我们的治理水平。

大数据能解决工业制造过程中最核心问题。中国从大国往强国变化,其中很重要的一点是我们首先要做一个制造业大国,一个工业大国,工业是立国之本。大数据能够解决如何提高我们的工业水平。首先在终端,当我的产品生产成为成品之后,我可以用一个检测设备,更清楚地检测产品,用光学的方法看片子。用这些数据,我就能够自动化地发现这个片子有没有缺陷,有什么类型的缺陷,缺陷的大小有多大,位置在哪里,这可以自动化地找。过去这个检测必须要人去完成。这样做的第一个贡献,可以大幅度地降低目检人员的工作,甚至让一部分目检人员不用工作了,这样就降低了成本,提高了效率。第二,可以提升目检人员检测精度,原来目检人员一天要看几千上万张片子,一个目检人员能够做到两个90%就很了不起了。两个90%的意思一是指我报10个错,有9个确实是错;另一个是指10个有错的片子里面有9个都抓得住,这叫召回率,两个都要达到90%。但是用机器,我们可以做到两个95%,两个97%,甚至两个99%。这是人不可能做到的。所以我既降低了成本,同时,我还提高了精度。当有了大量的这样的缺陷的积累,比如说几百万、上千万的片子都有积累之后,我们就可以做第二件更重要的事,我们发现每一种缺陷和我们的设备参数之间的关联。找到这种关联关系之后,我们就可以通过自动化调节参数的方法,去降低我们的不良率,提升我们的良率,换句话说,大幅度地提高我们的工艺生产水平,而这才恰恰是工业4.0核心中的核心。

希望大家能认识到,大数据,特别是大数据加上人工智能之后,它能够对我们工作、生活带来的颠覆性的改变,它的的确确已经进入到我们社会经济生活的方方面面,不再是一个挂在天边的月亮,而就是在我们近前的一盏盏明灯。希望通过不长时间的讲座,能够让大家为扑面而来的新科技时代做更高、更早、更充分的准备,从而在你们的工作生活中运用大数据的思想,成为下一个科技时代的胜利者。谢谢大家。

(周涛,电子科技大学大数据中心主任、博士生导师,教授。)



原标题:科界大咖说|大数据之美