TensorFlow 文本处理指南记录了用于自然语言处理 (NLP) 的库和工作流程,并介绍了处理文本的重要概念。
KerasNLP
KerasNLP 是一个高级自然语言处理 (NLP) 库,它包含所有最新的基于 Transformer 的模型以及低级标记化实用程序。对于大多数 NLP 使用案例,它是推荐的解决方案。
- KerasNLP 入门: 通过在不断提高的复杂度级别上执行情感分析来学习 KerasNLP,从使用预训练模型到从头开始构建自己的 Transformer。
tf.strings
该 tf.strings
模块提供用于处理字符串张量的操作。
- Unicode 字符串: 在 TensorFlow 中表示 Unicode 字符串,并使用 Unicode 等效的标准字符串操作来操作它们。
TensorFlow 文本
如果您需要访问低级文本处理工具,可以使用 TensorFlow 文本。TensorFlow 文本提供了一组操作和库,可帮助您处理文本形式的输入,例如原始文本字符串或文档。
- TensorFlow 文本简介: 了解如何安装 TensorFlow 文本或从源代码构建它。
- 将 TensorFlow 文本运算符转换为 TensorFlow Lite: 将 TensorFlow 文本模型转换为 TensorFlow Lite 以部署到移动设备、嵌入式设备和物联网设备。
预处理
- 使用 TF 文本进行 BERT 预处理: 使用 TensorFlow 文本预处理操作将文本数据转换为 BERT 的输入。
- 使用 TF 文本进行标记化: 了解 TensorFlow 文本提供的标记化选项。了解何时可能需要使用一个选项而不是另一个选项,以及如何在模型中调用这些标记器。
- 子词标记器: 从数据集中生成子词词汇表,并使用它来构建一个
text.BertTokenizer
从词汇表中。
TensorFlow 模型 – NLP
TensorFlow 模型 - NLP 库提供 Keras 原语,可以组装成基于 Transformer 的模型,以及脚手架类,可以轻松地对新架构进行实验。
- TensorFlow 模型 NLP 库简介: 使用来自 NLP 建模库 的构建块,构建用于常见 NLP 任务的基于 Transformer 的模型,包括预训练、跨度标记和分类。
- 自定义 Transformer 编码器: 自定义
tfm.nlp.networks.EncoderScaffold
,一个双向基于 Transformer 的编码器网络脚手架,以采用新的网络架构。