TensorFlow 文本提供了一组与文本相关的类和操作,可与 TensorFlow 2.0 一起使用。该库可以执行文本模型通常需要的预处理,并包括核心 TensorFlow 未提供的其他对序列建模有用的功能。
在您的文本预处理中使用这些操作的好处是,它们是在 TensorFlow 图中完成的。您无需担心训练中的标记化与推理中的标记化不同,也无需管理预处理脚本。
安装 TensorFlow 文本
使用 pip 安装
使用 pip install 安装 TF 文本时,请注意您正在运行的 TensorFlow 版本,因为您应该指定相应的 TF 文本版本。
pip install -U tensorflow-text==<version>
从源代码构建
TensorFlow 文本必须在与 TensorFlow 相同的环境中构建。因此,如果您手动构建 TF 文本,强烈建议您也构建 TensorFlow。
如果在 MacOS 上构建,您必须安装 coreutils。使用 Homebrew 最简单。首先,从源代码构建 TensorFlow 从源代码。
克隆 TF 文本仓库。
git clone https://github.com/tensorflow/text.git
最后,运行构建脚本以创建 pip 包。
./oss_scripts/run_build.sh