大數據不是為了數據而數據
大数据,不是为了数据而数据
1844年,莫尔斯发出人类历史上的第一份电报:“上帝创造了何等的奇迹”电报的发明,揭开了电信史上的第一页现如今,随着信息技术的不断发展和AI数据分析能力的飞速提升,大数据在今后可以创造出什么样的奇迹呢在2017中国大数据技术大会(BDTC2017)的媒体群访中,澳洲昆士兰大学教授周晓方、微软亚洲研究院副院长首席研究员刘铁岩、华东师范大学教授钱卫宁、滴滴出行高级副总裁章文嵩与大家共同探讨了大数据的未来运用问题
大数据,不是为了数据而数据
如今企业实施的大数据系统,大多展现的是一个非常炫酷的面板和一些看上去很吸引眼球的数据分析,但数据的实际应用价值并没有什么确切的体现就这个问题,四位专家分别表达了自身对目前大数据的观点:
章文嵩总裁首先论述了自己的观点:“不是为了数据而数据,首先要了解需要用大数据解决的问题是什么怎样来定义这些问题如果把问题梳理清楚然后基于这些问题,看看在数据上能不能做很多的启示,真正要解决问题出发而不是为了数据而数据”
随后周晓方教授对这个问题进行了深入分析:第一个方面是刚才说的,我们有一个问题,然后看需要什么样的数据,用这些数据如何来解决我们的问题第二个方面,我们现在有了数据以后,怎样去解放思想,创造新的应用价值企业界和科研界可以合作解决这个问题大数据的话,前面刚才大会的主席发言也都说了,是我们时代的特征大数据已是事实的存在,而且数据应用的技术在那里,各种运用场景现在也都落地了因此,CRO们不能为了大数据而大数据,而是你到底应该做甚么事情,你有什么样的数据,需要甚么数据,用这些数据怎么样把我们已有的工作做的更好,用这些数据怎么样能够把我们一些新的应用推动起来
刘铁岩院长:数据是我们具有的一部分,我们拿到数据是一个基础,我们一定要从进程中找到价值,过程是我们做机器学习的这个过程,我们再讲大数据一定要把数据和智能结合起来,要有全盘的计划在这个角度来说我们要拿什么数据是为了实现刚才各位说的实现某种目的我们寻觅合适的数据,而不是拿到所有的数据觉得反正是个宝贝留下来就好,数据大也有很多好的方面,很丰富,也有很多坏的方面,是噪声,有些可能是错误的,如果没有一个有效的算法和方法,把噪声去除掉,把信息发掘出来,其实大数据不见得是有价值的
最后钱卫宁教授做了对这个问题进行了总结:我们的一个看法是说,数据其实很像我们以前的电,有电之前跟有电以后运用是不一样的,如果我有了电我还是在用蒸汽机会觉得说这个电没有多大的作用,现在又了数据之后,我们可能说一个业务的模型或决策的模型都是要变的,所以就是说可能你刚才讲的有了数据以后我只是一个展示只是出一个报表这个还是属于传统的这个思惟模式,但是更多的要讲说我们有了这个数据以后怎么样根据这个数据重构,去重新来设计我们整个业务的流程,这样可以把数据用的更好
数据清洗,如何区分沙与金
在上个问题中提到数据价值,数据好的方面,也有很多坏的方面,是干扰,是噪声怎样才能通过有效方法,把噪声去除掉,把信息挖掘出来下面几位专家就数据清洗的问题又进行了更深入的探讨
周晓方教授:数据质量管理是大数据的一个问题,要从数据的完整性方面来看待这个问题比如上一部分人的观点不能代表全部社会,由于数据不完整还有时效性、准确性、一致性等等,这个都是传统的问题数据清洗这个问题已经研究了很多年现在我们自己的研究团队也是一直在推这个数据质量管理,现在光荣都被AI拿走了,但是为AI进行支撑的数据管理、数据分析、各种大数据的差异都是在后面默默在做的如果不把这个底层的数据支持做好的话,那么也就是酷炫的都没有用
章文嵩总裁:数据质量非常关键,如果数据不准你得出的任何结论都有问题这里面我们面临的一些问题,解决的办法涉及到数据的搜集、生产、传输整体的这个过程,我们对数据肯定是层层要做校验,哪些校验有些环节数据不准了,或有些环节数据丢了就拿滴滴来说最重要的一个漏洞,用户进来那个冒泡表达了他的这个目的地,冒泡之后我们有很多的动作,然后用户是个发单,平台是否派单,派单后执行最后到完单支付这个漏斗模型其实层层环节都要校验所以这个数据,可以帮我们定位哪些买点是对的,哪些环节是我们络传输软件处理的BUG导致数据丢失了,这是层层校验,就跟财务做校验一样,每个环节都要校验,确保数据准确性和软件的正确性
刘铁岩院长:我接触过很多传统企业,在跟我们聊的时候更多不是讲大数据,是讲AI在深入沟通的时候,解决第一问题是大数据问题而不是智能问题他们的愿景是想用智能解决某个运用,实际上整个公司里的数据根本没有管理好组织起来,回到大数据真的非常重要先是数字化,然后是传统的管理再是数字清洗从做机器学习和AI角度来看,什么是数据清洗什么是数据管理,我们希望从最原始的数据开始出发,然后通过特别复杂的链路,连到最终应用上每一个环节可能都提供反馈信息如果我们不做端到端的处理,割裂开有可能会出现什么现象我们在前期做数据处理的时候以为是噪声的问题,可能是信号,我们以为是信号的东西也许是噪声那末怎么在全部数据链路的智能化的进程中都给大家一个机会,曾经当成是噪声清洗掉的东西是有机会重新发掘和反复匹配的,曾被你认为是有用的东西要不断的甄别里面的宝贝在哪里,问题在哪里,这是一个补充
数据运用,资源的分配与民生
在随后的讨论活动中,几位专家还就智能出行的无人驾驶对人们生活的改变,通过大数据如何减少东西部贫富差距等问题进行了深入沟通将技术讨论提升到了民生问题的高度
我们相信,随着大数据技术的深入运用,未来紧缺的公共资源应该可能得到更加合理的分配比如春运的火车票可以给有切实回家需求的购票者更多的购买机会,急需就医的患者可以更方便进行挂号,公众的交通也能得到有针对性的调理大数据的明天将会令人们的生活更加美好
做微信小程序多少钱
宝宝脸有点黄怎么回事
小孩脾胃虚弱怎么办
深圳远大肛肠医院地址在哪里新乡牛皮癣医院哪家好
成都恒博医院怎么样
-
斯诺克海口赛吕昊天惨遭塞尔比零封赵心童无
人工智能 | 2020-07-09
-
利物浦大将不关心曼城战绩他们不可能场场
人工智能 | 2020-07-01
-
视频弹幕网A站与B站为何发展出两条不同的
人工智能 | 2019-07-16