文本分类

使用 TensorFlow Lite 模型将段落分类到预定义的组中。

入门

如果您是 TensorFlow Lite 的新手,并且正在使用 Android,我们建议您探索 TensorFLow Lite 任务库 的指南,以便在几行代码内集成文本分类模型。您也可以使用 TensorFlow Lite 解释器 Java API 集成模型。

以下 Android 示例演示了两种方法的实现,分别为 lib_task_apilib_interpreter

Android 示例

如果您使用的是 Android 以外的平台,或者您已经熟悉 TensorFlow Lite API,您可以下载我们的文本分类入门模型。

下载入门模型

工作原理

文本分类根据段落的内容将其分类到预定义的组中。

此预训练模型预测段落的感情是积极的还是消极的。它是在 大型电影评论数据集 v1.0 上训练的,该数据集来自 Mass 等人的研究,包含标记为积极或消极的 IMDB 电影评论。

以下是使用模型对段落进行分类的步骤

  1. 使用预定义的词汇表对段落进行标记化,并将其转换为单词 ID 列表。
  2. 将列表馈送到 TensorFlow Lite 模型。
  3. 从模型输出中获取段落为积极或消极的概率。

注意

  • 仅支持英语。
  • 此模型是在电影评论数据集上训练的,因此在对其他领域文本进行分类时,您可能会遇到准确率下降的情况。

性能基准

性能基准数字是使用 此处描述的工具 生成的。

模型名称 模型大小 设备 CPU
文本分类 0.6 Mb Pixel 3 (Android 10) 0.05ms*
Pixel 4 (Android 10) 0.05ms*
iPhone XS (iOS 12.4.1) 0.025ms**

* 使用了 4 个线程。

** 在 iPhone 上使用 2 个线程以获得最佳性能结果。

示例输出

文本 消极 (0) 积极 (1)
这是我近年来看过的最好的电影。强烈推荐! 25.3% 74.7%
真是浪费我的时间。 72.5% 27.5%

使用您的训练数据集

按照此 教程 应用此处使用的相同技术,使用您自己的数据集训练文本分类模型。使用正确的数据集,您可以创建用于文档分类或有毒评论检测等用例的模型。

详细了解文本分类