参考文献

注册

 

发新话题 回复该主题

文献导读一种高效而简单数据生成的自动译后 [复制链接]

1#
北京治疗白癜风 http://finance.sina.com.cn/chanjing/b/20090930/09073071708.shtml

论文阅读:AnAutomaticPostEditingWithEfficientandSimpleDataGenerationMethod

期刊名称:IEEEAccess

作者:HYEONSEOKMOON,CHANJUNPARK,JAEHYUNGSEO,SUGYEONGEO,ANDHEUISEOKLIM

作者单位:DepartmentofComputerScienceandEngineering,KoreaUniversity,Seoul,RepublicofKorea

1.Introduction

自动译后编辑(AutomaticPostEditing,APE)是对机器翻译结果的校正方法。APE训练模型一般需要原文src、机器译文mt、后编辑译后pe三元组数据,但其中pe数据获取需要大量人工(专家)消耗。HYEONSEOKMOONetal()基于平行语料库提出快速获取APE三元组数据三种噪声生成方法。

2.ProposedMethod

设三联体T={(X(i),?Y(i),Y(i))}di=1,其中X(i),?Y(i),Y(i)代指src、mt、pe三元组数据;

(1)随机噪声法

随机噪声法是指产生?Y(i)的噪声方案,随机取代部分Y(i)词汇,利用移动、删除、增添操作将方案结合在一起,公式见图(1)

(2)基于POS噪声法

基于POS噪声法与随机噪声法实现相似的噪声处理,但部分POS标记单词序列会被替换,即在随机噪声法基础上增加了标准,公式见图(2)

其中PartpfSpeech(POS)主要指?Y(i)数据。

(3)基于语义噪声法

基于语义噪声法与其他降噪法相似,将Y(i)数据通过其他词替换成?Y(i)数据,此种方式适用于人类专家编辑。

3.总结:三联体

经过模型机器学习,基于TER、BLEU测评。利用三种降噪方案产生的APE三联体,可以建立一个APE模型有效减少mt数据误差。

但不管APE还是PE,都是为了减少mt数据输出误差,多重性降噪方案的融合在评估中效果明显度不够,结合实际需求还需深度融合与训练。或从基本上提高mt输出引擎本身,也是一种有效降低成本思路。

预览时标签不可点收录于合集#个上一篇下一篇
分享 转发
TOP
发新话题 回复该主题