ZenML——一个伟大的科学工作流数据标准化的工具

通过拉胡尔Toora |照片竹蛏FeyissaUnsplash

几个月前,债务和图表数据科学团队聚在一起交换我们的办公室,克罗伊登参与马拉松”。这家网站的目的是尝试Apache气流ZenML作为开源工具改善MLOps工作流。我将详细的结果ZenML这里。

ZenML是一个伟大的工具,它允许您将Python函数转换为链接步骤形成可复制的ML管道。这是使用Python修饰符。每一步可以代表一个不同的ML生命周期的一部分:导入数据,预处理,模型训练等。步骤是完全可定制的实现允许极大的灵活性。债务团队尝试创建一个管道从一个简单的迭代的现收现付的金融脆弱性聚类模型。这个模型使用熊猫和scikit-learn KMeans集群(如果可以使用纯PySpark仍然测试)。

在不到一个小时,团队能够整合一个管道工作,使用ZenML功能的API,看起来是这样的:


我们可以手动触发管道(尽管ZenML作业调度功能)从jupyter笔记本中使用下面的代码:

注意到的第一件事就是如何管道提供了一个非常简单明了的方式来表示步骤在您的ML生命周期。ZenML使用默认缓存所以调试或测试实验管道迭代非常快。我们印象最是如何快速删除和添加的步骤。

我们还创建了一个自定义的实现类,它使我们能够存储任何结果熊猫DataFrame工件直接上传到S3(但是其他云存储解决方案可以使用):


虽然我们没有时间测试:功能商店,实验模型注册,追踪者和更多可以集成在一个ZenML工作流由于其扩展的列表第三方集成。这给数据科学家的权力选择最好的工具和基础设施为他们的特定的用例。

最后,ZenML是一个伟大的科学工作流和数据标准化的工具使得创建毫升管道简单和可再生的。

标记:

法国电力公司发布的

提供信息和文章关于公司活动,包括最新的产品、活动和社区项目。