AirFlow功能展示个人笔记

匿名 (未验证) 提交于 2019-12-02 23:56:01

跨越时间的 DAG 的树表示。如果 pipeline(管道)延迟了,您可以很快地看到哪里出现了错误的步骤并且辨别出堵塞的进程。

图形视图可能是最全面的一种表现形式了。它可以可视化您的 DAG 依赖以及某个运行实例的当前状态。

过去 N 次运行的不同任务的持续时间。通过此视图,您可以查找异常值并快速了解 DAG 在多次运行中花费的时间。

甘特图可让您分析任务持续时间和重叠情况。您可以快速识别系统瓶颈和哪些特定 DAG 在运行中花费了大量的时间。

透明就是一切。虽然您的 pipeline(管道)代码在源代码管理中,但这是一种快速获取 DAG 代码并提供更多上下文的方法。

从上面的页面(树视图,图形视图,甘特图......)中,始终可以单击任务实例,并进入此丰富的上下文菜单,该菜单可以将您带到更详细的元数据并执行某些操作。

查看日志


所有的任务实例

记录了所有DAG的运行情况

外部系统的连接信息存储在 Airflow 元数据数据库中,并在 UI 中进行管理(Menu -> Admin -> Connections)。在那里定义了conn_idconn_id而无需在任何地方硬编码任何此类信息。

可以定义具有相同conn_id许多连接,并且在这种情况下,并且当挂钩使用来自BaseHookget_connection方法时,Airflow 将随机选择一个连接,允许在与重试一起使用时进行一些基本的负载平衡和容错。

Airflow 还能够通过操作系统中的环境变量引用连接。但它只支持 URI 格式。如果您需要为连接指定extra信息,请使用 Web UI。

如果在 Airflow 元数据数据库和环境变量中都定义了具有相同conn_id连接,则 Airflow 将仅引用环境变量中的连接(例如,给定conn_idpostgres_master,在开始搜索元数据数据库之前,Airflow 将优先在环境变量中搜索AIRFLOW_CONN_POSTGRES_MASTER并直接引用它)。

许多钩子都有一个默认的conn_id,使用该挂钩的 Operator 不需要提供显式连接 ID。 例如,PostgresHook的默认conn_idpostgres_default

XComs

XComs 允许任务交换消息,允许更细微的控制形式和共享状态。该名称是“交叉通信”的缩写。XComs 主要由键,值和时间戳定义,

但也跟踪创建 XCom 的任务/DAG 以及何时应该可见的属性。任何可以被 pickle 的对象都可以用作 XCom 值,因此用户应该确保使用适当大小的对象。

变量是将任意内容或设置存储和检索为 Airflow 中的简单键值存储的通用方法。可以从 UI(Admin -> Variables),代码或 CLI 列出,

创建,更新和删除变量。此外,json 设置文件可以通过 UI 批量上传。虽然管道代码定义和大多数常量和变量应该在代码中定义并存储在源代码控制中,但是通过 UI 可以访问和修改某些变量或配置项会很有用。

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!