TensorFlow 文本处理指南记录了用于自然语言处理 (NLP) 的库和工作流程,并介绍了处理文本的重要概念。
KerasNLP
KerasNLP 是一个高级自然语言处理 (NLP) 库,它包含了所有最新的基于 Transformer 的模型以及低级分词(tokenization)工具。它是大多数 NLP 用例的推荐解决方案。
- KerasNLP 入门:通过执行不同复杂度等级的情感分析来学习 KerasNLP,从使用预训练模型到从零开始构建你自己的 Transformer。
tf.strings
tf.strings 模块提供了处理字符串张量 (Tensor) 的操作。
- Unicode 字符串:在 TensorFlow 中表示 Unicode 字符串,并使用标准字符串操作的 Unicode 等效项来处理它们。
TensorFlow Text
如果你需要使用更底层的文本处理工具,可以使用 TensorFlow Text。TensorFlow Text 提供了一系列操作和库,帮助你处理文本形式的输入,例如原始文本字符串或文档。
- TensorFlow Text 简介:了解如何安装 TensorFlow Text 或从源码构建它。
- 将 TensorFlow Text 算子转换为 TensorFlow Lite:将 TensorFlow Text 模型转换为 TensorFlow Lite,以便部署到移动设备、嵌入式设备和物联网设备上。
预处理
- 使用 TF Text 进行 BERT 预处理:使用 TensorFlow Text 预处理操作将文本数据转换为 BERT 的输入。
- 使用 TF Text 进行分词 (Tokenization):了解 TensorFlow Text 提供的分词选项。了解何时应该优先选择某种选项,以及如何在模型中调用这些分词器。
- 子词分词器 (Subword tokenizers):从数据集中生成子词词汇表,并使用它从词汇表中构建
text.BertTokenizer。
TensorFlow 模型 – NLP
TensorFlow Models - NLP 库提供了可组装成基于 Transformer 的模型的 Keras 原语,以及支持对新颖架构进行轻松实验的基架 (scaffold) 类。
- TensorFlow Models NLP 库简介:使用 NLP 建模库中的构建块,为常见的 NLP 任务(包括预训练、跨度标注和分类)构建基于 Transformer 的模型。
- 自定义 Transformer 编码器:自定义
tfm.nlp.networks.EncoderScaffold(一种基于双向 Transformer 的编码器网络基架),以采用新的网络架构。