速度
实现价值的时间
模型准确性
集成简便
灵活部署
可用性
可视化
让我们分别来看一看:
速度。时间就是金钱,运算快速的软件能够使你高薪雇用的数据科学更具生产力。实践中的数据科学往往需要不断实验和迭代,一个项目可能数百次测试,运算速度上的微小改善可能就会显著的提升效率。考虑到每天的数据量,高性能的机器学习软件必须在分布式平台上运行,这样你就可以就工作量分散在多台服务器上。
实现价值的时间。执行期的表现只是「实现价值的时间」中的一部分。公司生意的度量标准应该是整个项目的完成时间,从数据获取到部署完成。在现实情况下,这意味着你的机器学习软件应该将Hadoop和云格式整合起来,并且应该输出的预测模型的代码能够被部署在公司的任何其他地方。
模型准确性。准确性关系重大,尤其是设计到高风险行业。例如交易中的欺诈监测,在准确性上提高一点就能每年节省数百万美元。你的机器学习软件应该给予数据科学家充分授权,让他们可以使用公司的所有数据,而不是只让他们处理某些样本。
集成简便。你的机器学习软件应该与你生产过程中复杂的大数据软件共存。理想化的机器学习软件应该是运行在日常硬件上,而不需要专门的高性能计算设备,也不需要GPU芯片等外加设备。
灵活部署。你的机器学习软件应该在一定范围内提供多种部署选择,包括Hadoop上的主机托管或者独立的计算机集群。如果云服务是公司架构中的一部分,务必要寻找那些能够运行在多种云平台的软件,包括AWS、微软Azure和谷歌云平台。
可用性。数据科学家会使用不同的软件工作来进行工作,包括R、Python、Scala等分析语言。你的机器学习平台应该可以非常简便的将这些工具集成起来。另外,精心设计的机器学习算法应该包含以下几种省时功能:1)处理缺失数据的能力;2)转化分类数据的能力;3)管理复杂性的规则化技术;4)适用于测试及学习自动化的网格搜索能力;5)自动化的交叉验证。
湘ICP备2022002427号-10湘公网安备:43070202000427号
© 2013~2019 haote.com 好特网