首页 > 业内资讯 > 忘掉你的大数据,数据思维才最重要!

忘掉你的大数据,数据思维才最重要!

时间:2015-12-01 | 来源:数据挖掘与数据分析 | 阅读:114

话题: 数据挖掘与数据分析




2数据治理还原推测到“高分辨率”




我接下来就给大家讲讲处理数据里面最核心的两个工作。第一个工作我们称之为数据清洗或是叫数据治理。


很多公司拥有大量的数据,但如果这些数据没有办法整合到一起,没办法清洗、在线化,没办法让使用者方便取用,那即便数据量再大也不能说这个公司有大数据。所以清洗和整合数据是非常重要的。通常在技术领域有一个概念叫“ETL”,ETL其实只把数据抽取到一起,进行数据格式统一化,最后再加载到一个可应用的平台上,这是整个数据治理行业里面最核心的几个环节。但在大数据概念出来之后,跟传统ETL有一个挺大的区别在于数据格式跟以前相比更加复杂。通常我们所谓的大数据、我们处理的数据除了包括以前的结构化数据,还包括新的非结构化数据。


非结构化数据是指数据里每一条记录之间的格式并不统一,甚至很多数据都是脏数据。大家可以想象银行的很多数据,比如消费者注册信息:姓名、年龄、手机号、身份证号,包括月收入可能都要求填,但很多情况下大家填信息的时候格式都不一定统一,比如说手机号可能有一些人填没有加“86”,再比如说身份证号有人填的是18位的,有人填的是15位的,这些信息是否是统一格式对于未来的数据应用非常关键。


今天很多互联网公司都是拥有大量数据的,中国最大的三巨头BAT都拥有海量消费者网名数据。百度云每天一个人搜索数据,阿里拥有每个人每天购物的浏览数据和下单采购数据,腾讯就不用说了,他有我们每个人的聊天记录、通信记录。他们拥有的数据都是非常可怕的。这些数据有一个很主要的工作在清洗过程中,就是需要把数据的唯一用户标识进行统一,因为很多的数据是散落在不同的子平台上的,在不同的平台上的可能会有不同的唯一标识,在有的情况下一个网名是处于登陆状态,而有些情况下是处于没有登录的情况。如何把不同的数据都打到同一个标签上是很多公司正在做的事情。


湘ICP备2022002427号-10湘公网安备:43070202000427号
© 2013~2019 haote.com 好特网