TensorFlow 文本介绍

TensorFlow 文本提供了一组与文本相关的类和操作,可与 TensorFlow 2.0 一起使用。该库可以执行文本模型通常需要的预处理,并包括核心 TensorFlow 未提供的其他对序列建模有用的功能。

在您的文本预处理中使用这些操作的好处是,它们是在 TensorFlow 图中完成的。您无需担心训练中的标记化与推理中的标记化不同,也无需管理预处理脚本。

安装 TensorFlow 文本

使用 pip 安装

使用 pip install 安装 TF 文本时,请注意您正在运行的 TensorFlow 版本,因为您应该指定相应的 TF 文本版本。

pip install -U tensorflow-text==<version>

从源代码构建

TensorFlow 文本必须在与 TensorFlow 相同的环境中构建。因此,如果您手动构建 TF 文本,强烈建议您也构建 TensorFlow。

如果在 MacOS 上构建,您必须安装 coreutils。使用 Homebrew 最简单。首先,从源代码构建 TensorFlow 从源代码

克隆 TF 文本仓库。

git clone  https://github.com/tensorflow/text.git

最后,运行构建脚本以创建 pip 包。

./oss_scripts/run_build.sh