首页 > 业内资讯 > 机器学习商业应用入门及七个实例

机器学习商业应用入门及七个实例

时间:2016-01-05 | 来源:数据挖掘与数据分析 | 阅读:179

话题: 数据挖掘与数据分析

  • 速度

  • 实现价值的时间

  • 模型准确性

  • 集成简便

  • 灵活部署

  • 可用性

  • 可视化

让我们分别来看一看:

速度。时间就是金钱,运算快速的软件能够使你高薪雇用的数据科学更具生产力。实践中的数据科学往往需要不断实验和迭代,一个项目可能数百次测试,运算速度上的微小改善可能就会显著的提升效率。考虑到每天的数据量,高性能的机器学习软件必须在分布式平台上运行,这样你就可以就工作量分散在多台服务器上。


实现价值的时间。执行期的表现只是「实现价值的时间」中的一部分。公司生意的度量标准应该是整个项目的完成时间,从数据获取到部署完成。在现实情况下,这意味着你的机器学习软件应该将Hadoop和云格式整合起来,并且应该输出的预测模型的代码能够被部署在公司的任何其他地方。


模型准确性。准确性关系重大,尤其是设计到高风险行业。例如交易中的欺诈监测,在准确性上提高一点就能每年节省数百万美元。你的机器学习软件应该给予数据科学家充分授权,让他们可以使用公司的所有数据,而不是只让他们处理某些样本。


集成简便。你的机器学习软件应该与你生产过程中复杂的大数据软件共存。理想化的机器学习软件应该是运行在日常硬件上,而不需要专门的高性能计算设备,也不需要GPU芯片等外加设备。


灵活部署。你的机器学习软件应该在一定范围内提供多种部署选择,包括Hadoop上的主机托管或者独立的计算机集群。如果云服务是公司架构中的一部分,务必要寻找那些能够运行在多种云平台的软件,包括AWS、微软Azure和谷歌云平台。


可用性。数据科学家会使用不同的软件工作来进行工作,包括R、Python、Scala等分析语言。你的机器学习平台应该可以非常简便的将这些工具集成起来。另外,精心设计的机器学习算法应该包含以下几种省时功能:1)处理缺失数据的能力;2)转化分类数据的能力;3)管理复杂性的规则化技术;4)适用于测试及学习自动化的网格搜索能力;5)自动化的交叉验证。


湘ICP备2022002427号-10湘公网安备:43070202000427号
© 2013~2019 haote.com 好特网