了解 TFX 管道

MLOps 是将 DevOps 实践应用于帮助自动化、管理和审核机器学习 (ML) 工作流程的实践。ML 工作流程包括以下步骤：

以临时方式管理这些步骤可能很困难且耗时。

TFX 通过提供一个工具包来简化 MLOps 的实现，该工具包可以帮助您在各种编排器上编排机器学习流程，例如：Apache Airflow、Apache Beam 和 Kubeflow Pipelines。通过将您的工作流程实现为 TFX 管道，您可以

本指南介绍了了解 TFX 管道所需的核心理念。

工件

TFX 管道中步骤的输出称为 **工件**。工作流程中的后续步骤可以使用这些工件作为输入。通过这种方式，TFX 允许您在工作流程步骤之间传输数据。

例如，ExampleGen 标准组件会发出序列化示例，这些示例会被 StatisticsGen 等组件用作输入。

工件必须使用在 ML Metadata 存储库中注册的 **工件类型** 进行强类型化。详细了解 ML Metadata 中使用的概念。

工件类型具有名称，并定义其属性的模式。工件类型名称在您的 ML Metadata 存储库中必须是唯一的。TFX 提供了多种标准工件类型，用于描述复杂数据类型和值类型，例如：字符串、整数和浮点数。您可以重用这些工件类型或定义从 Artifact 派生的自定义工件类型。

参数是管道在执行之前已知的输入。参数允许您通过配置而不是代码来更改管道或管道一部分的行为。

例如，您可以使用参数来运行具有不同超参数集的管道，而无需更改管道的代码。

使用参数可以通过简化使用不同参数集运行管道的操作来提高实验速度。

**组件** 是机器学习任务的实现，您可以将其用作 TFX 管道中的步骤。组件由以下部分组成：

TFX 提供了多种标准组件，您可以在管道中使用。如果这些组件无法满足您的需求，您可以构建自定义组件。详细了解自定义组件。

TFX 管道是 ML 工作流的可移植实现，可以在各种编排器上运行，例如：Apache Airflow、Apache Beam 和 Kubeflow Pipelines。管道由组件实例和输入参数组成。

组件实例会生成工件作为输出，通常依赖于上游组件实例生成的工件作为输入。组件实例的执行顺序是通过创建工件依赖关系的有向无环图来确定的。

例如，考虑一个执行以下操作的管道：

为了确定组件实例的执行顺序，TFX 会分析工件依赖关系。

数据提取组件没有任何工件依赖关系，因此它可以作为图中的第一个节点。
StatisticsGen 依赖于数据提取生成的示例，因此它必须在数据提取之后执行。
SchemaGen 依赖于 StatisticsGen 创建的统计信息，因此它必须在 StatisticsGen 之后执行。
ExampleValidator 依赖于 StatisticsGen 创建的统计信息和 SchemaGen 创建的模式，因此它必须在 StatisticsGen 和 SchemaGen 之后执行。
Transform 依赖于数据提取生成的示例和 SchemaGen 创建的模式，因此它必须在数据提取和 SchemaGen 之后执行。
Trainer 依赖于数据提取生成的示例、SchemaGen 创建的模式和 Transform 生成的保存的模型。Trainer 只能在数据提取、SchemaGen 和 Transform 之后执行。
Evaluator 依赖于数据提取生成的示例和 Trainer 生成的保存的模型，因此它必须在数据提取和 Trainer 之后执行。
自定义部署器依赖于 Trainer 生成的保存的模型和 Evaluator 创建的分析结果，因此部署器必须在 Trainer 和 Evaluator 之后执行。

根据此分析，编排器会运行：

了解更多关于构建 TFX 管道的信息。

TFX 管道模板通过提供一个预构建的管道来简化管道开发的入门，您可以根据自己的用例对其进行自定义。

了解更多关于自定义 TFX 管道模板的信息。

运行是指管道的单次执行。

编排器是一个系统，您可以在其中执行管道运行。TFX 支持以下编排器：Apache Airflow、Apache Beam 和 Kubeflow Pipelines。TFX 还使用DagRunner 来指代支持编排器的实现。