十年回顾：Hadoop老矣，尚能饭否？

时间：2016-02-03　|　来源：数据挖掘与数据分析　|　阅读：68

话题：数据挖掘与数据分析

5Hadoop in China国内最早的Hadoop交流平台

技术推广是需要平台的，而好的交流平台对新技术的落地起到极其重要的作用。2008年，我所在的研究小组想在分布式数据存储方面做一些研究工作，前期调研阶段接触到Hadoop，其新颖的设计思想得到大家的一致认同，2008年11月Hadoop技术沙龙顺势成立，后来发展成Hadoop in China大会。

2012年，中国计算机学会（CCF）于10月正式成立了大数据专家委员会。2013年，大会正式更名为“中国大数据技术大会(BDTC)”。至此，Hadoop in China从60人规模的小型沙龙发展到国内大数据领域一年一度最重要的技术会议之一。大会曾邀请到包括Hadoop创始人Doug Cutting，Spark创始人Ion Stoica在内的众多国际著名专家到会做特邀报告。

6未来大数据技术的发展趋势

系统架构的专业化。从当今IT技术的发展角度看，提出系统结构上的解决方案是“应用驱动的大数据架构与技术”。也就是说根据具体类型应用的需求，在系统架构和关键技术上进行创新。为了降低成本并获得更好的能效，大数据应用系统越来越趋向扁平化、专用化的系统架构和数据处理技术，逐渐摆脱了传统的通用技术体系。比如并行数据库更鲜明的分化为面向事务处理的OLTP类数据库和面向分析的OLAP类数据库等。传统的应用服务器、数据库服务器和存储服务器这样的典型三层架构受到极大的冲击。应用开发人员更深入的理解计算机系统结构，“程序” = “算法” “数据结构”将逐渐演变成“程序” = “算法” “数据结构” “系统结构”。
大数据生态系统范围扩大。克隆了Google的GFS和MapReduce的Apache Hadoop自2008年以来逐渐为互联网企业接纳，并成为大数据处理领域的事实标准。但2013年出现的Spark作为一匹黑马可以说终结了这一神话，大数据技术不再一家独大。由于应用不同导致Hadoop一套软件系统不可能满足所有需求，在全面兼容Hadoop的基础上，Spark通过更多的利用内存处理大幅提高系统性能。此外，Scribe、Flume、Kafka、Storm、Drill、Impala、TEZ/Stinger、Presto、Spark/Spark SQL等的出现并不是取代Hadoop，而是扩大了大数据技术生态环境，促使生态环境向良性和完整发展。今后在非易失存储层次、网络通信层次、易失存储层次和计算框架层次还会出现更多、更好和更专用化的软件系统。
系统整体效能更为用户重视。在全球互联网企业的努力下，Hadoop已经可以处理百PB级的数据，在不考虑时间维度的前提下，价值密度低的数据可以处理了。在解决了传统关系型数据库技术无法处理如此量级的数据之后，业界正在向系统能效要价值。能效问题一方面体现在系统性能上。互联网服务强调用户体验，原本做不到实时的应用在向实时化靠拢，比如前端系统及业务日志从产生到收集入库的延迟从1到2天时间进化到10秒以内。传统企业无法忍受关系数据库动辄几十分钟的查询分析性能，纷纷求助于性价比更好的技术和产品。这些需求使大数据交互式查询分析、流式计算、内存计算成为业界研发和应用的新方向。能效问题的另一方面体现在系统功耗和成本上。中科院计算所陈云霁研究员领导研究的专用神经网络处理器技术，可大幅加速机器学习负载，与通用芯片和GPU相比，计算速度提高几十倍，功耗只有十分之一，整体能效提高450倍。百度云存储万台定制ARM服务器可节电约25%，存储密度提升70%，每瓦特计算能力提升34倍（用GPU取代CPU计算），每GB存储成本降低50%。
个性化服务的需求愈发强烈。个性化对应于互联网服务的长尾部分，这部分需求在传统的系统设计中因为复杂性原因是被舍弃的，但正是这部分体现出个性化服务的需求。个性化服务，即系统能够提供满足不同个体需求的差异化服务，比如个性化推荐，广告精准投放等。就拿个性化推荐技术来说，目前已经开始从简单的商品推荐走向复杂的内容推荐。根据用户的特性与偏好，推荐内容的特征，以及当时的上下文数据（客户端设备类型、用户所处时空数据等），向特定用户提供个性化的内容推荐服务，内容包括商品（包括电商和零售）、广告、新闻和资讯等。在移动设备和移动互联网飞速发展的时代，个性化推荐将成为用户获取信息最直接的渠道之一。
价值挖掘的理论和技术亟待发展。对数据进行浅层分析的理论和技术，主要体现在分布式系统和关系型数据库理论的结合与再创新，目前已经有较大幅度进展。但是，从数据中抽取隐含的信息或者知识，也就是价值挖掘，这方面的理论和技术还比较缺乏。一是缺乏成熟的数据挖掘建模方法和工具，经验对于挖掘出有价值信息的影响甚大，原始数据与隐含信息之间存在技术缺失，所以“啤酒尿布”的案例并不是天天都能产生的。二是机器学习和深度学习技术面临应用问题。与大数据相结合，已经在诸如语音识别、图像识别、广告推荐和风险控制等场景中得以初步应用，但这方面的技术和软件工具成熟度不高，还有很大提升空间。此外，机器学习和深度学习的应用场景还不够广泛，这既是机遇也是挑战。