机器学习商业应用入门及七个实例

时间：2016-01-05　|　来源：数据挖掘与数据分析　|　阅读：70

话题：数据挖掘与数据分析

速度
实现价值的时间
模型准确性
集成简便
灵活部署
可用性
可视化

让我们分别来看一看：

速度。时间就是金钱，运算快速的软件能够使你高薪雇用的数据科学更具生产力。实践中的数据科学往往需要不断实验和迭代，一个项目可能数百次测试，运算速度上的微小改善可能就会显著的提升效率。考虑到每天的数据量，高性能的机器学习软件必须在分布式平台上运行，这样你就可以就工作量分散在多台服务器上。

实现价值的时间。执行期的表现只是「实现价值的时间」中的一部分。公司生意的度量标准应该是整个项目的完成时间，从数据获取到部署完成。在现实情况下，这意味着你的机器学习软件应该将Hadoop和云格式整合起来，并且应该输出的预测模型的代码能够被部署在公司的任何其他地方。

模型准确性。准确性关系重大，尤其是设计到高风险行业。例如交易中的欺诈监测，在准确性上提高一点就能每年节省数百万美元。你的机器学习软件应该给予数据科学家充分授权，让他们可以使用公司的所有数据，而不是只让他们处理某些样本。

集成简便。你的机器学习软件应该与你生产过程中复杂的大数据软件共存。理想化的机器学习软件应该是运行在日常硬件上，而不需要专门的高性能计算设备，也不需要GPU芯片等外加设备。

灵活部署。你的机器学习软件应该在一定范围内提供多种部署选择，包括Hadoop上的主机托管或者独立的计算机集群。如果云服务是公司架构中的一部分，务必要寻找那些能够运行在多种云平台的软件，包括AWS、微软Azure和谷歌云平台。

可用性。数据科学家会使用不同的软件工作来进行工作，包括R、Python、Scala等分析语言。你的机器学习平台应该可以非常简便的将这些工具集成起来。另外，精心设计的机器学习算法应该包含以下几种省时功能：1）处理缺失数据的能力；2）转化分类数据的能力；3）管理复杂性的规则化技术；4）适用于测试及学习自动化的网格搜索能力；5）自动化的交叉验证。