MLflow

MLflow Artifacts Storing artifacts(google cloud storage) but not displaying them in MLFlow UI

混江龙づ霸主 提交于 2021-02-11 17:38:54
问题 I am working on a docker environment(docker-compose) with a jupyter notebook docker image and a postgres docker image for running ML models and using google cloud storage to store the model artifacts. Storing the models on the cloud storage works fine but i can't get to show them within the MLFlow UI. I have seen similar problems but non of the solutions used google cloud storage as the storage location for artifacts. The error message says the following Unable to list artifacts stored under

Installing dependencies from (Conda) environment.yml without Conda?

扶醉桌前 提交于 2021-02-08 08:26:25
问题 I currently use Conda to capture my dependencies for a python project in a environment.yml . When I build a docker service from the project I need to reinstall these dependencies. I would like to get around, having to add (mini-)conda to my docker image. Is it possible to parse environment.yml with pip/pipenv or transform this into a corresponding requirements.txt ? (I don't want to leave conda just yet, as this is what MLflow captures, when I log models) 回答1: Nope. conda automatically

Installing dependencies from (Conda) environment.yml without Conda?

前提是你 提交于 2021-02-08 08:25:22
问题 I currently use Conda to capture my dependencies for a python project in a environment.yml . When I build a docker service from the project I need to reinstall these dependencies. I would like to get around, having to add (mini-)conda to my docker image. Is it possible to parse environment.yml with pip/pipenv or transform this into a corresponding requirements.txt ? (I don't want to leave conda just yet, as this is what MLflow captures, when I log models) 回答1: Nope. conda automatically

How to make predictions using a model that requires an input shape with more than two dimensions using MLflow?

雨燕双飞 提交于 2021-02-07 23:00:16
问题 I'm trying to implement a tensorflow (keras) based model into mlflow while learning how it works and if it suite our needs. I'm trying to implement the Fashion MNIST example from tensorflow website Here the link I was able to train and to log the model successfully into mlflow using this code: import mlflow import mlflow.tensorflow import mlflow.keras # TensorFlow and tf.keras import tensorflow as tf from tensorflow import keras # Helper libraries import numpy as np import matplotlib.pyplot

Data + AI Summit 欧洲2020全部超清 PPT 下载

爷,独闯天下 提交于 2020-12-07 08:19:28
Data + AI Summit Europe 2020 原 Spark + AI Summit Europe 于2020年11月17日至19日举行。由于新冠疫情影响,本次会议和 六月份举办的会议 一样在线举办,一共为期三天,第一天是培训,第二天和第三天是正式会议。会议涵盖来自从业者的技术内容,他们将使用 Apache Spark ™、Delta Lake、MLflow、Structured Streaming、BI和SQL分析、深度学习和机器学习框架来解决棘手的数据问题。会议的全部日程请参见: https://databricks.com/dataaisummit/europe-2020/agenda 。 和今年六月份会议不一样,这次会议的 KeyNote 没什么劲爆的消息,不过会议的第二天和第三天还是有些干货大家可以看下的。在接下来的几天,本公众号也会对一些比较有意思的议题进行介绍,敬请关注本公众号。 本次会议的议题范围具体如下: 人工智能用户案例以及新的机会; Apache Spark™, Delta Lake, MLflow 等最佳实践和用户案例; 数据工程,包括流架构 使用数据仓库(data warehouse)和数据湖(data lakes)进行 SQL 分析和 BI; 数据科学,包括 Python 生态系统; 机器学习和深度学习应用 生产机器学习(MLOps)

PyCaret 2.1横空出世-有什么新的内容?

瘦欲@ 提交于 2020-10-23 01:20:58
2020年8月PyCaret2.1 更新版本正式发布。 Py Caret是一个开源的、低代码率的Python机器学习库,它可以使机器学习工作流程自动化,同时,它也是一个端到端的机器学习和模型管理工具,可以缩短机器学习实验周期,将生产力提高10倍。 与其他开源机器学习库相比,Py Caret是低代码库的一个很好的选择,只利用几个单词,便可以用它来替换数百行代码,从而使得实验快速高效。 如果以前没有听到或使用过PyCaret,请参阅先前发布的指南,以便快速入门。 安装PyCaret 安装Py Caret非常容易,只需要几分钟的时间。建议使用虚拟环境来避免与其他库的潜在冲突。请参阅下面的示例代码,以创建Conda环境并在该Conda环境中安装pycaret: #创建conda环境 conda create --name yourenvname python=3.6 #激活环境 conda activate yourenvname #安装pycaret pip install pycaret #创建与conda环境链接的notebook内核 python -m ipykernel install --user --name yourenvname --display-name "display-name" 如果已经安装好了PyCaret,还可以使用pip对它更新: pip install

Spark Summit North America 202006 高清 PPT 下载

試著忘記壹切 提交于 2020-10-21 20:31:52
为期五天的 Spark Summit North America 2020在美国时间 2020-06-22 ~ 06-26 举行。由于今年新冠肺炎的影响,本次会议第一次以线上的形式进行。这次会议虽然是五天,但是前两天是培训,后面三天才是正式会议。本次会议一共有超过210个议题,一如既往,主题也主要是 Spark + AI,在 AI 方面会议还深入讨论一些流行的软件框架,如 Delta Lake、MLflow、TensorFlow、SciKit-Learn、Keras、PyTorch、DeepLearning4J、BigDL 和 deep learning pipeline等。会议的全部日程请参见: https://databricks.com/sparkaisummit/north-america-2020/agenda 这次会议带来了几点比较重要消息:数砖收购 Redash 公司,发布 Delta Engine等,不过目前 KeyNote 会议的 PPT 还没有发布,感兴趣的可以看下相关视频。过往记忆大数据也在前几天发了几篇这次会议 KeyNote 的介绍,感兴趣的同学可以看这里。另外,在接下来的几天,本公众号也会对一些比较有意思的议题进行介绍,敬请关注本公众号。 如果想及时了解 Spark 、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号: iteblog

开源机器学习模型管理工具DVC介绍

我与影子孤独终老i 提交于 2020-08-14 23:50:10
算法工程师往往在使用算法的过程中要不断地调整参数去找到最好的效果,俗称“调参民工”。在不断的调参过程中,会产生各种各样的模型,如何记录好这些参数与模型效果对应的关系,往往另算法工程师很头疼。所以大家都在呼唤一款实用的模型管理工具,因为有了版本管理机制才能更好的做效果比对,甚至多人协同开发。 今天就介绍一款开源的模型管理工具-DVC: https://dvc.org/doc/tutorials/get-started/experiments 1 模型版本控制的误区 在设计模型版本管理功能的时候有一个误区,就是只管理模型文件。模型版本管理这件事,要从整个机器学习pipline的角度去思考,要考虑到每次训练的数据可能不同、算法参数可能不同、评价指标metrics可能不同。 所以模型管理更是一个机器学习全链路工程的管理,这一点DVC和MLflow的设计理念都是比较好的。 2 DVC的设计理念 DVC是一个创业团队维护的开源模型管理SDK,跟客户的交互基本上是通过命令行的形式,只要“pip install dvc”就可以快速安装。 DVC可以看做是对git的一种二次封装,如下图所示,dvc checkout底层调用的就是git checkout DVC把数据+算法脚本+Metrics当成一次代码checkout,这样就可以天然的利用git的能力进行版本管理。 3 DVC具体使用 (1

SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月5日议题

时光怂恿深爱的人放手 提交于 2020-08-11 06:30:56
Spark中文峰会第二日,就在本周日上午杭州会场,错过悔十年的压轴好戏来了~ SPARK + AI SUMMIT 2020 中文精华版线上峰会 ,十四位来自北京、上海、杭州、硅谷的PMC和意见领袖,一一还原英文现场的经典分享。 除 Databricks、Facebook、阿里巴巴、Intel 、领英等一线厂商的经典应用场景外,还有Ray、SQL、Structured Streaming、 MLflow、Koalas、K8s、Delta lake、Photon等新奇议题及社区生态的最新落地。 点击 详细议程 7月5日上午议题: 利用闪存优化在Cosco基础上的Spark Shuffle 吴一 Databicks开源项目组软件工程师,主要参与开源社区Spark和公司产品Databricks Runtime的研发。最近两年专注于Spark及大数据技术领域 来源: oschina 链接: https://my.oschina.net/u/4343506/blog/4332580

Spark 背后的商业公司收购的 Redash 是个啥?

人走茶凉 提交于 2020-07-28 12:29:03
在2020年6月24日的 Spark AI summit Keynote 上,数砖的首席执行官 Ali Ghodsi 宣布其收购了 Redash 开源产品 的背后公司 Redash! 如果想及时了解 Spark 、Hadoop或者HBase相关的文章,欢迎关注微信公众号: iteblog_hadoop 通过这次收购,Redash 加入了 Apache Spark、Delta Lake 和 MLflow,创建了一个更大、更繁荣的开源系统,为数据团队提供了同类中最好的工具。为什么数砖会收购 Redash 公司? Redash 是什么? Redash 是一个可以协作的可视化和仪表盘平台,旨在让任何人,无论其技术水平如何,都可以在团队内部或跨团队共享见解。 一直使用 SQL 的用户可以利用Redash 来探索、查询、可视化和共享来自任何数据源的数据。世界各地每天有数千个组织的数百万用户使用 Redash 来做出数据驱动的决策。 Redash 主要包含以下特点: Query editor: 使用模式浏览器和代码提示来快速编写 SQL 和 NoSQL 查询。 可视化和仪表盘: 使用拖放创建漂亮的可视化界面,并将它们合并到单个仪表板中。 分享: 通过共享可视化仪表盘及其关联的查询,可以轻松实现协作,并支持对报告和查询的同行审查。 进度刷新: 在用户定义的间隔内自动更新图表和仪表板。 报警: