首页

手游

新游

礼包

攻略

开测表

专题

话题

 首页 > 业内资讯 > 大数据工具比较：R语言和Spark谁更胜一筹？

创世纪.神

幽游白书武术会

阴阳师妖怪屋

怒剑传说

远征2最新版

顽石英雄

迷你装甲

魔法学徒的一天游戏

白蛇仙劫

大数据工具比较：R语言和Spark谁更胜一筹？

时间：2015-12-09　|　来源：数据挖掘与数据分析　|　阅读：104

话题：数据挖掘与数据分析

分析的目标是得到一个可以从像素数值中识别数字是几的模型。

选择这个数据集的论据是，从数据量上来看，实质上这算不上是一个大数据的问题。

对比情况

针对这个问题，机器学习的步骤如下，以得出预测模型结束：

在数据集上进行主成分分析和线性判别式分析，得到主要的特征。（特征工程的步骤）[译者注：百度百科传送门，主成分分析、线性判别式分析]。
对所有双位数字进行二元逻辑回归，并且根据它们的像素信息和主成分分析以及线性判别式分析得到的特征变量进行分类。
在全量数据上运行多元逻辑回归模型来进行多类分类。根据它们的像素信息和主成分分析以及线性判别式分析的特征变量，利用朴素贝叶斯分类模型进行分类。利用决策树分类模型来分类数字。

在上述步骤之前，我已经将标记的数据分成了训练组和测试组，用于训练模型和在精度上验证模型的性能。

大部分的步骤都在R语言和Spark上都运行了。详细的对比情况如下，主要是对比了主成分分析、二元逻辑模型和朴素贝叶斯分类模型的部分。

主成分分析

主成分分析的主要计算复杂度在对成分的打分上，逻辑步骤如下：

通过遍历数据以及计算各列的协方差表，得到KxM的权重值。（K代表主成分的个数，M代表数据集的特征变量个数）。
当我们对N条数据进行打分，就是矩阵乘法运算。
通过NxM个维度数据和MxK个权重数据，最后得到的是NxK个主成分。N条数据中的每一条都有K个主成分。

在我们这个例子中，打分的结果是42000 x 784的维度矩阵与784 x 9的矩阵相乘。坦白说，这个计算过程在R中运行了超过4个小时，而同样的运算Spark只用了10秒多

矩阵相乘差不多是3亿次运算或者指令，还有相当多的检索和查找操作，所以Spark的并行计算引擎可以在10秒钟完成还是非常令人惊讶的。

我通过查看前9个主成分的方差，来验证了所产生的主成分的精度。方差和通过R产生的前9个主成分的方差吻合。这一点确保了Spark并没有牺牲精度来换取性能和数据转换上的优势。

小编推荐

BAT疯抢2.19亿二次元用户，90后为谁买单？麦肯锡压箱底的10个经典方法！可视性与策略：云如何帮助增强IT安全性报告显示：2016互联网数据分析人才高度稀缺北京到底有多大？居然......这么大！

首页上一页 1 2 3 4 5 下一页尾页

视频推荐

推荐

最新好玩手游

更多 

手游风云榜

更多 

月神宝藏(送GM商城) V1.0 安卓版

君临城下(送GM万充) V1.0 安卓版

悠唐天下(炸服GM神卡) V1.0 安卓版

伏魔诀（无限送真充） V1.0 安卓版

天空之息 V1.0 安卓版

纯三国送无限资源 V1.0 安卓版

思仙 V1.5.6 安卓版

仙语奇缘连抽版 v1.0.4 安卓版

校花的贴身高手天阶岛福利版 V1.0 安卓版

阿拉德之怒 V5.2.3 安卓版

235.76 Bytes 10

群英之战 V1.0 安卓版

闪烁之光 V1.9.7 安卓版

决战玛法 V7.5.0 安卓版

资讯阅读

更多 

《热血江湖手游技能加点攻略》（掌握技能加点要诀，成就无敌江湖之王）

业内资讯  2025-05-21
新版本赏金玩法出装攻略（全面解析最优出装方案，让你在新版本赏金玩法中独领风骚）

业内资讯  2025-05-20
老鼠铲子出装铭文攻略（打造无敌老鼠！）

业内资讯  2025-05-20
王者太虚战场出装攻略（打造最强装备，征服太虚战场）

业内资讯  2025-05-19
制裁战神队友出装攻略（打造最强战队，击败敌人无往不胜）

业内资讯  2025-05-19
《狐狸端游联盟出装攻略》（狐狸出装攻略，助你战胜对手！）

业内资讯  2025-05-18
王者荣耀（揭开哪吒输出利器，带你稳定carry全场）

业内资讯  2025-05-18
地狱男爵技能加点攻略

业内资讯  2025-05-16
逐梦三国（揭秘孙权如何在起凡中成为绝对强者）

业内资讯  2025-05-16
《凯德出装铭文推荐攻略，助你稳定击败对手》

业内资讯  2025-05-13
护卫乌龟出装攻略（如何选择适合乌龟的护卫出装）

业内资讯  2025-05-11
《公主级2-6攻略技能大揭秘》（掌握攻略技能，成为公主级2-6的王者！）

业内资讯  2025-05-08

查看更多

湘ICP备2022002427号-10湘公网安备：43070202000427号
© 2013~2019 haote.com 好特网