北京治疗白癜风 http://finance.sina.com.cn/chanjing/b/20090930/09073071708.shtml论文阅读:AnAutomaticPostEditingWithEfficientandSimpleDataGenerationMethod
期刊名称:IEEEAccess
作者:HYEONSEOKMOON,CHANJUNPARK,JAEHYUNGSEO,SUGYEONGEO,ANDHEUISEOKLIM
作者单位:DepartmentofComputerScienceandEngineering,KoreaUniversity,Seoul,RepublicofKorea
1.Introduction
自动译后编辑(AutomaticPostEditing,APE)是对机器翻译结果的校正方法。APE训练模型一般需要原文src、机器译文mt、后编辑译后pe三元组数据,但其中pe数据获取需要大量人工(专家)消耗。HYEONSEOKMOONetal()基于平行语料库提出快速获取APE三元组数据三种噪声生成方法。
2.ProposedMethod
设三联体T={(X(i),?Y(i),Y(i))}di=1,其中X(i),?Y(i),Y(i)代指src、mt、pe三元组数据;
(1)随机噪声法
随机噪声法是指产生?Y(i)的噪声方案,随机取代部分Y(i)词汇,利用移动、删除、增添操作将方案结合在一起,公式见图(1)
(2)基于POS噪声法
基于POS噪声法与随机噪声法实现相似的噪声处理,但部分POS标记单词序列会被替换,即在随机噪声法基础上增加了标准,公式见图(2)
其中PartpfSpeech(POS)主要指?Y(i)数据。
(3)基于语义噪声法
基于语义噪声法与其他降噪法相似,将Y(i)数据通过其他词替换成?Y(i)数据,此种方式适用于人类专家编辑。
3.总结:三联体
经过模型机器学习,基于TER、BLEU测评。利用三种降噪方案产生的APE三联体,可以建立一个APE模型有效减少mt数据误差。
但不管APE还是PE,都是为了减少mt数据输出误差,多重性降噪方案的融合在评估中效果明显度不够,结合实际需求还需深度融合与训练。或从基本上提高mt输出引擎本身,也是一种有效降低成本思路。
预览时标签不可点收录于合集#个上一篇下一篇