使用 TensorFlow Lite 模型将段落分类到预定义的组中。
入门
如果您是 TensorFlow Lite 的新手,并且正在使用 Android,我们建议您探索 TensorFLow Lite 任务库 的指南,以便在几行代码内集成文本分类模型。您也可以使用 TensorFlow Lite 解释器 Java API 集成模型。
以下 Android 示例演示了两种方法的实现,分别为 lib_task_api 和 lib_interpreter。
如果您使用的是 Android 以外的平台,或者您已经熟悉 TensorFlow Lite API,您可以下载我们的文本分类入门模型。
工作原理
文本分类根据段落的内容将其分类到预定义的组中。
此预训练模型预测段落的感情是积极的还是消极的。它是在 大型电影评论数据集 v1.0 上训练的,该数据集来自 Mass 等人的研究,包含标记为积极或消极的 IMDB 电影评论。
以下是使用模型对段落进行分类的步骤
- 使用预定义的词汇表对段落进行标记化,并将其转换为单词 ID 列表。
- 将列表馈送到 TensorFlow Lite 模型。
- 从模型输出中获取段落为积极或消极的概率。
注意
- 仅支持英语。
- 此模型是在电影评论数据集上训练的,因此在对其他领域文本进行分类时,您可能会遇到准确率下降的情况。
性能基准
性能基准数字是使用 此处描述的工具 生成的。
模型名称 | 模型大小 | 设备 | CPU |
---|---|---|---|
文本分类 | 0.6 Mb | Pixel 3 (Android 10) | 0.05ms* |
Pixel 4 (Android 10) | 0.05ms* | ||
iPhone XS (iOS 12.4.1) | 0.025ms** |
* 使用了 4 个线程。
** 在 iPhone 上使用 2 个线程以获得最佳性能结果。
示例输出
文本 | 消极 (0) | 积极 (1) |
---|---|---|
这是我近年来看过的最好的电影。强烈推荐! | 25.3% | 74.7% |
真是浪费我的时间。 | 72.5% | 27.5% |
使用您的训练数据集
按照此 教程 应用此处使用的相同技术,使用您自己的数据集训练文本分类模型。使用正确的数据集,您可以创建用于文档分类或有毒评论检测等用例的模型。