万字长文综述给你的数据加上杠杆文本增 - 参考文献

TUhjnbcbe - 2023/10/29 17:18:00

白癜风发病机理 http://disease.39.net/bjzkbdfyy/190916/7467667.html
　　　　　　　　　　　　　　　　　　　　　　　　　　　　

机器之心

机器之心发布

作者：李渔

样本少、分布不均衡，如何让训练的模型性能更优越？文本增强技术算得上一个不错的办法。本文介绍了熵简科技联合创始人李渔的一篇关于自然语言处理领域中文本增强技术的论文，重点探讨了近两年来常用的五类文本增强技术路径以及对应的代表性技术。

1为什么要了解文本增强技术

2.典型技术方案

2.1.回译（Backtranslation）

2.2.随机词替换

2.3.非核心词替换

2.4.基于上下文信息的文本增强

2.5.基于语言生成模型的文本增强

3.新方向展望

4.在金融领域任务的实践16

4.1.金融领域的NLP任务为什么需要文本增强技术

4.2.案例背景及实验条件

4.2.1.案例背景和数据集特点

4.2.2.算法模型

4.3.实验结果及分析

4.3.1.回译

4.3.2.EDA

4.3.3.基于TF-IDF的文本增强

4.3.4.三类方法的对比

4.3.4.小结

5.总结

参考文献

摘要

文章系统性地回顾了自然语言处理领域中的文本增强技术在近几年的发展情况，重点列举和讨论了18年、19年中人们常用的五类文本增强技术路径以及对应的代表性技术。接下来，文章以金融领域的自然语言处理任务入手，多维度地分析几类通用文本数据增强技术在实际业务问题上的重要价值。文章的结论是，文本增强技术是一类低成本的数据杠杆，可以在不引入新数据下，有效撬动模型性能。

1为什么要了解文本增强技术

本文摘自熵简科技NLP团队的内部技术沙龙，文章系统性地回顾了自然语言处理领域中的文本增强技术在近几年的发展情况，重点列举和讨论了18年、19年中人们常用的五类文本增强技术路径以及对应的代表性技术，希望对于大家的日常研究工作有所启发。在第4节中，我们以金融资管领域的实际应用场景入手，多维度地分析了几类通用的文本数据增强技术在实际产品研发中的作用。

在开始介绍具体方法之前，先简单列举一下目前自然语言处理任务中运用文本增强技术的常见场景：

(1)少样本场景

在少样本场景下，能够搜集到的样本数目不满足模型训练的需求，导致模型处于欠拟合的状态。自然而然，在现有数据基础上，运用文本增强技术来扩充样本集，是一件又快又省，性价比很高的事。很多研究也已经表明，这种方法可以明显提高模型的性能[1-3]；

(2)分类任务中样本分布不均衡的场景

除了一些基准benchmark，真实场景中大部分文本分类任务中的各类别样本数目都是不均衡的，很多时候样本数最多类别的数目可能比最少的类别高两个数量级。这会带来很多问题，比如模型对于小样本类别往往处于欠拟合状态，在实际预测时，几乎不会对这一类别给予太高的概率。

自然，面对这样的问题，一种常见的处理方式是针对小样本类别，运用数据增强技术进行样本扩充，从而降低样本间的不均衡性，提高模型的泛化能力。这种方法也在实际中被多次证明了其有效性[2,4]；

当然，对于样本不均衡问题，已经有很多解决方法，大家可以参考这篇google引用数快1万的论文[5]及其引文。

(3)半监督训练场景

至少从19年NLP方向google出品的半监督学习算法UDA可以看出[6]，文本数据增强技术可以用在无标签样本上，以构造出半监督训练所需的样本对，以此让模型从无标签的数据中获取到优化所需的梯度。关于半监督学习的具体进展，后面如果有时间，可以单开一篇文章介绍。

(4)提高模型的鲁棒性

数据增强技术在不严谨的情况下可以分为两类，一类是在保持语义不变的情况下，变换文本的表达形式，例如接下来提到的回译、文本复述等；另一类是，按照某种策略对原文进行局部调整，例如后面提到同义词替换，随机删除等等。不论是哪种方法，都可以认为是提高了模型的鲁棒性，使得模型更