摘 要:針對目前機器翻譯模型存在的曝光偏差和譯文多樣性差的問題,提出一種基于強化學習和機器翻譯質(zhì)量評估的中朝神經(jīng)機器翻譯模型 QR-Transformer。首先,在句子級別引入評價機制來指導模型預(yù)測不完全收斂于參考譯文;其次,采用強化學習方法作為指導策略,實現(xiàn)模型在句子級別優(yōu)化目標序列;最后,在訓練過程中融入單語語料并進行多粒度數(shù)據(jù)預(yù)處理以緩解數(shù)據(jù)稀疏問題。實驗表明,QR-Transformer 有效提升了中朝神經(jīng)機器翻譯性能,與 Transformer 相比,中-朝語向 BLEU 值提升了 5.39,QE 分數(shù)降低了 5.16,朝-中語向 BLEU 值提升了 2.73,QE 分數(shù)下降了 2.82。
本文源自計算機應(yīng)用研究 發(fā)表時間:2021-02-25《計算機應(yīng)用研究》系中國計算機學會會刊之一,創(chuàng)刊于1984年,由國家科技部所屬四川省計算機研究院主辦,北京、天津、山東、吉林、云南、貴州、安徽、河南、廣西、甘肅、內(nèi)蒙古等十余省市計算中心協(xié)辦的計算技術(shù)類學術(shù)刊物[1]。
關(guān)鍵詞:機器翻譯;中朝機器翻譯;強化學習;機器翻譯質(zhì)量評估
神經(jīng)機器翻譯(Neural Machine Translation, NMT)首次由 Kalchbrenner 和 Blunsom 在 2013 年提出[1],之后幾年間,大量基于編碼器-解碼器結(jié)構(gòu)的神經(jīng)機器翻譯模型涌現(xiàn)[2~4],翻譯性能和速度也不斷被刷新。隨著深度學習迅速發(fā)展,神經(jīng)機器翻譯由于其優(yōu)越的性能和無須過多人工干預(yù)等特點,近年來備受關(guān)注[5,6]。朝鮮語是我國朝鮮族的官方語言[7],同時通行于朝鮮半島、美國、俄羅斯遠東地區(qū)等朝鮮族聚居地區(qū),具有跨國跨地區(qū)的特點。朝鮮族是我國 24 個擁有自己語言的少數(shù)民族之一[8],因此中朝機器翻譯的研究,對促進少數(shù)民族語言文字工作的發(fā)展、推動中朝、中韓跨語言信息交流具有重要的現(xiàn)實意義和迫切的時代需求。
目前,多數(shù) NMT 模型在訓練時采用教師強制策略,即最小化生成句子及參考譯文之間的差異,迫使生成譯文與參考譯文無限接近。首先,由于在句子預(yù)測過程中通常沒有參考譯文可用,會帶來曝光偏差問題,這可能會影響模型的性能與魯棒性[9]。其次,語言中大量存在著同義詞與相似表達現(xiàn)象,因此即使使用教師強制策略,也無法保證模型每次生成譯文與參考譯文一致,且會極大遏止翻譯的多樣性,使得大部分合理譯文均為不可達狀態(tài)[10]。另外,對于中朝機器翻譯而言,國內(nèi)對于該任務(wù)的研究起步晚、基礎(chǔ)差,缺少大規(guī)模平行語料。在低資源環(huán)境下提升中朝機器翻譯質(zhì)量面臨諸多問題。
獲取優(yōu)質(zhì)的譯文是機器翻譯模型的基本要求和最終目標 [11],模型輸出的譯文應(yīng)當達到預(yù)期的翻譯質(zhì)量。從實用角度考慮,機器翻譯的評測指標應(yīng)該是可調(diào)整的,即可以直接應(yīng)用于機器翻譯系統(tǒng)的優(yōu)化[12]。因此本文嘗試在句子級別引入一種評價機制來指導模型預(yù)測不完全收斂于參考譯文,以此緩解曝光偏差問題和翻譯多樣性差問題。評價機制采用無參考譯文的機器翻譯質(zhì)量評測 (Quality Estimation, QE),指導策略采用策略優(yōu)化的強化學習方法,能夠?qū)崿F(xiàn)模型在句子級別上優(yōu)化目標序列。為緩解強化學習本身存在公認的訓練不穩(wěn)定和方差大等問題,本文將傳統(tǒng)神經(jīng)機器翻譯的交叉熵損失函數(shù)與強化學習獎勵函數(shù)進行線性組合,并借鑒了 Weaver 等提出的基線反饋方法[9]。另外由于先前工作均采用 BLEU值[13]作為獎勵函數(shù)[14,15],直接使用評價指標優(yōu)化模型參數(shù)會導致模型產(chǎn)生嚴重偏向性,加劇了翻譯多樣性差的問題,因此本文提出了一種基于 QE 評價的獎勵函數(shù)。同時在訓練過程中使用單語語料和不同粒度的朝鮮語預(yù)處理,能夠克服數(shù)據(jù)稀疏性并提升低資源語言機器翻譯質(zhì)量。
1 相關(guān)工作
1.1 Bilingual Expert 機器翻譯質(zhì)量評估模型
機器翻譯質(zhì)量評估不同于機器翻譯的評價指標如 BLEU, TER[16],METEOR[17]等,它能夠在不依賴任何參考譯文的情況下,自動給出機器生成譯文的質(zhì)量預(yù)測。目前最常用的質(zhì)量得分為人工編輯距離 HTER。HTER 需要語言學專家對機器生成譯文進行后編輯,直至譯文通順且符合源句語義為止,這樣計算得到的編輯距離即 HTER 分數(shù)。由于計算過程中采用非定向參考譯文,因此機器翻譯質(zhì)量評估對于多樣化的機器翻譯更加友好。
為解決機器翻譯質(zhì)量評估問題,Kai 等在 2019 年提出了 Bilingual Expert 模型[18]。該模型由詞預(yù)測模塊和質(zhì)量評估模塊兩部分組成。首先通過平行語料對詞預(yù)測模塊進行訓練,訓練過的詞預(yù)測模塊可提取到翻譯特征,其次將獲取特征和質(zhì)量得分標注輸入至質(zhì)量評估模塊訓練,最終可實現(xiàn)對待評估句子質(zhì)量的自動評估。詞預(yù)測模塊通過雙向自注意網(wǎng)絡(luò)模型獲取當前被預(yù)測詞的上下文信息,從而對目標端單詞進行預(yù)測。質(zhì)量評估模塊將詞預(yù)測模塊抽取出的特征通過 BiLSTM 回歸預(yù)測模型得到反映譯文質(zhì)量的得分。
1.2 基于自注意力的神經(jīng)機器翻譯
Vaswani 等提出的機器翻譯架構(gòu) Transformer[19]模型基于編碼器-解碼器結(jié)構(gòu),該模型完全擯棄了循環(huán)[5]和卷積[20]操作,開創(chuàng)性地使用自注意力機制來實現(xiàn)序列解碼問題,解決了傳統(tǒng)網(wǎng)絡(luò)結(jié)構(gòu)并行力差和長距離依賴問題。
如圖 1 所示,Transformer 模型的編碼器由 n 層堆疊形成,每層又包含多頭注意力和全連接前饋神經(jīng)網(wǎng)絡(luò)兩個子層,并均在其后添加殘差連接[21]和層歸一化[22]操作。模型使用多頭縮放點積注意力,當輸入維度為 dk 的請求 Q 、鍵 K 和維度為 dv 的值 V 時,注意力機制可表示為
Attention ( ) softmax T dk ? ? = ? ? ? ? QK Q,K,V V (1) 多頭注意力機制可表示為 ( ) ( ) 1 h i MultiHead ( ) =Concat head ,..., e & head head =Att nt n io Q K V i i i Q,K,V Q K W W , W ,V (2)
解碼器部分與編碼器基本相同,不同之處在于在每層添加了交叉注意子層用來對源隱藏狀態(tài)進行多頭關(guān)注。另外為了在解碼器預(yù)測目標序列時保持下文單詞不可見狀態(tài),加入了掩碼操作。
1.3 基于強化學習的機器翻譯模型
強化學習通過從環(huán)境狀態(tài)映射到動作過程中獲取最大累計獎賞,解決了復(fù)雜狀態(tài)空間下的決策問題,為自然語言處理任務(wù)提供了新思路[23]。在序列級任務(wù)中引入強化學習,使得訓練過程中直接優(yōu)化獎勵,解決了訓練和預(yù)測過程中依賴分布不同導致的曝光偏差問題。大量工作表示出強化學習在序列生成任務(wù)中的優(yōu)勢[24,25]。
強化學習的基本思想是智能體根據(jù)當前交互環(huán)境選取一個執(zhí)行動作,之后環(huán)境以某概率發(fā)生轉(zhuǎn)移并反饋給智能體一個獎懲,智能體以最大化獎勵為目的重復(fù)上述過程[26]。具體到翻譯任務(wù)中,NMT 模型視為作出決策的智能體,采用隨機策略 從詞表中選取候選詞看做一個動作,智能體訓練期間的目標是追求期望獎勵最大化,即: ( ) * a a t a = ? argmax | ; ? t s (3)
2 翻譯模型框架結(jié)構(gòu)
為緩解曝光偏差問題和翻譯多樣性差問題,本文提出了一種基于強化學習和機器翻譯質(zhì)量評估的中朝機器翻譯模型 (Quality Estimation Reinforced Transformer, QR-Transformer)。 QR-Transformer 在句子級別引入評價機制指導模型預(yù)測不完全收斂于參考譯文。模型具體框架結(jié)構(gòu)如圖 2 所示,主要包含機器翻譯和機器翻譯質(zhì)量評估兩個模塊。模型翻譯模塊采用編碼器-解碼器架構(gòu)與 Transformer 保持一致,評估模塊采用句子級別的機器翻譯質(zhì)量評估模型 Bilingual Expert,采用強化學習方法進行訓練。訓練算法如下:
算法 1 模型訓練算法輸入:? (a s t t | ;?) 。輸出:? (a s t t + + 1 1 | ;?) 。初始化參數(shù)? ; 初始化狀態(tài) t s ; while 未收斂: if t s 不是終止狀態(tài): 根據(jù)策略? (a s t t | ;?) 選擇出動作 t a ; 選取下一單詞 t 1 y + ; 通過質(zhì)量評估模塊計算獎勵 tr 并進入新狀態(tài) t 1 s + ; for 狀態(tài)-動作集合的每一步: 更新參數(shù)? ? ? + − ? (r b a s t t t ) ? ? log | ? ( ) ; end for return ?
機器翻譯過程中 NMT 系統(tǒng)作為強化學習的智能體,通過不斷與環(huán)境進行交互獲取當前時刻環(huán)境狀態(tài)信息,即時間步 下源句 及生成目標句的上文 。其中 表示時間步 之前模型預(yù)測的目標句。智能體根據(jù)當前環(huán)境的狀態(tài)決策出下一步所選單詞,同時獲得當前狀態(tài)執(zhí)行選詞操作后的獎勵值并進入下一狀態(tài),通過強化學習最終找到翻譯的最優(yōu)策略。
根據(jù)模型結(jié)構(gòu)將機器翻譯任務(wù)描述為:給定中朝平行語料,訓練一個參數(shù)為?的機器翻譯模型 M?;機器翻譯模型 M?將 給定源句序列 x= , ,..., ( x x x 1 2 n ) 翻譯為目標句序列 y= , ,..., ( y y y 1 2 n ) ,其中 nm, 分別為源句及目標句的序列長度;在時間步 t 時,狀態(tài) yt 定義當前時間步翻譯模型 M?生成的目標句 yt t = , ,..., ( y y y 1 2 ) ,動作 定義為在當前環(huán)境下選取下一個單詞 yt+1 ;給定譯文數(shù)據(jù)及其 HTER 得分,訓練參數(shù)為?的機器翻譯質(zhì)量評估模型 Q?,進行有監(jiān)督訓練之后的質(zhì)量評估模型 作為獎勵函數(shù)的生成器對未見譯文給出質(zhì)量打分 ( ) ˆ Score y QE t ,機器翻譯模型 M?在 ( ) ˆ Score y QE t 的指導下與環(huán)境交互從而產(chǎn)生下一個單詞 。
2.1 基于機器翻譯質(zhì)量評估模型的反饋信號生成
優(yōu)秀的譯文通常包括忠實度、流利度等多方位評價,因此機器翻譯任務(wù)難以抽象成簡單的優(yōu)化問題。所以本文不直接采用人工設(shè)定單一規(guī)則作為獎勵函數(shù)來源,而使用機器翻譯質(zhì)量評估模型 Q?的輸出作為獎勵的一部分,模型 Q?可以通過相對復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)對生成譯文進行更為全面的評分,評分結(jié)果與人類評價更具有相關(guān)性,且對譯文多樣性的包容度更高。
本文中模型 Q?使用與 Bilingual Expert 相同的網(wǎng)絡(luò)結(jié)構(gòu),模型包括一個基于雙向 Transformer 的詞預(yù)測模塊和基于 BiLSTM 回歸預(yù)測模型。雙向 Transformer 架構(gòu)包括源句的自注意力編碼器、目標句的雙向自注意力編碼器和目標句的重構(gòu)器三個部分。通過在大規(guī)模平行語料上進行預(yù)訓練獲取隱藏狀態(tài)特征 h 。編碼器部分對應(yīng) q h x y ( | , ) ,解碼器部分對應(yīng) P y h ( | ) ,計算公式如下:
q h x y q h x y q h x y =? ? ? (4) ( | ) ( | , ) t t t t p y h p y h h =? (5) 隱藏狀態(tài) h h h = ,..., ( 1 m ) 為前向后向隱藏狀態(tài)的拼接,獲取了句子深層次的翻譯特征。最后提取特征如下: Concat , , , , ( 1 1 ) mm t t t t f h h e e f = − + (6) 其中, 1 1 , e e t t − + 為目標位置前后詞項詞嵌入表示, mm f 為錯誤匹配特征。最后將特征 輸入至 Bi-LSTM 進行訓練得到預(yù)測 HTER 得分: HTER =sigmoid Bi-LSTM ( ? ( )?) w f T ? (7) 訓練過程目標函數(shù)為 2 arg min||HTER-HTER ||2 ? (8)
式(7)中得到的標量值即為機器翻譯質(zhì)量評估模塊對生成譯文的評價,與 BLEU 值相比更具有深層次翻譯特征,因此 QR-Transformer 使用該值對機器翻譯模塊進行指導,達到預(yù)測譯文不完全收斂于參考譯文的效果。
2.2 基于強化學習的訓練方法
基于強化學習的翻譯任務(wù)中,采用隨機策略? (at | ; st ?) 從詞表中選取候選詞看做一個動作,智能體在訓練過程中,通過解碼器生成目標句后環(huán)境給出的獎勵來學習得到更優(yōu)譯文。? ? (at t | ; * s W s b t ? = + ) ( ) (9) 其中:? (at | ; st ?) 表示選擇動作的概率, 代表 sigmoid 函數(shù);代表策略網(wǎng)絡(luò)的參數(shù)。訓練期間,動作采樣表示為給定源句和上文下選取該詞的條件概率 ,目標為追求期望獎勵最大化,如式(4)所示。當生成完整目標句后,將句子的質(zhì)量評估得分作為標簽信息計算反饋值,結(jié)合強化學習算法中的 Policy Gradient 方法[27]最大化預(yù)期收益,如公式(10)所示。 ( ) ( ) ( ) ( ) ˆ ˆ 1 ˆ 1 ( ) i ˆ ˆ ˆ N N i y p y x i i y Y J E R y p y x R y ? = = ?? = ? = ∣ ? ? ∣ (10)
其中 Y 是候選翻譯句子組成的空間,R y( ˆ) 表示譯文的句子級反饋,因為在時間步 t+1的狀態(tài)完全由時間步 t 的狀態(tài)決定,因此概率 與 p(S S t+1 t | ,at ) 為 1。最終使用梯度更新策略,如式(11)所示。 ( ) 1 1 1 ( ) ( - ) log | N L L t n t J R b a N ? ? ? ? = = ? ? = − ? ? ? t s (11)
其中, N 代表回合數(shù), ,REINFORCE 算法的梯度估計存在較大差異,這主要是由于使用單個樣本來估計期望值所致。為了減少差異,在每個時間步 t 從返回的獎勵中減去平均獎勵,作為更新策略的實際獎勵,從而避免迭代方向一直朝著錯誤方向進行,加快收斂速度。
3 強化學習模型的訓練
3.1 基于波束搜索的動作采樣策略
基于強化學習的機器翻譯任務(wù)動作空間巨大且離散,其大小為整個單詞表容量。在對動作空間進行采樣時,使用窮舉搜索可以保證獲取到最佳動作,但其計算成本過高,貪心策略計算成本小但無法保證獲取最優(yōu)序列。因此需要一個合理策略權(quán)衡性能與計算成本的關(guān)系。
波束搜索(beam search)[28]是貪心搜索的改進版本,它設(shè)置一個超參數(shù)波束大小 k 。在時間步 t 選擇具有最高條件概率的樣本作為候選輸出序列。在隨后時間步中,對上一時間步選出的候選序列重復(fù)上述操作。波束搜索的計算成本介于貪心搜索和窮舉搜索之間。特別地,當波束大小為 1 時,波束搜索退化為貪心搜索。通過靈活選擇波束大小,能夠在性能與計算成本之間進行權(quán)衡。波束搜索原理示意如圖 3 所示。
具體到機器翻譯任務(wù)中,波束搜索使得模型在解碼階段保留概率最高 k 個候選詞項,并留至下一時間步繼續(xù)計算產(chǎn)生 k 個隱層狀態(tài),維持波束大小不變會產(chǎn)生 k k ?個預(yù)測結(jié)果,根據(jù)預(yù)測結(jié)果不斷生成序列直至產(chǎn)生句子結(jié)束符時終止。由于在每一時間步考慮了多種可能性,使得解碼階段產(chǎn)生高質(zhì)量翻譯結(jié)果的概率增大。
3.2 融合 BLEU 值和 QE 分值的反饋函數(shù)設(shè)計
建立恰當?shù)莫剟顧C制對獲取高質(zhì)量翻譯至關(guān)重要,因此設(shè)計高泛化能力的反饋函數(shù)是研究的重點。在以往的神經(jīng)機器翻譯任務(wù)中,均假設(shè)生成目標句每個詞項的有效預(yù)測值唯一,即針對每個句子具有固定的參考譯文,因此最小風險培訓方法[29]或基于強化學習的神經(jīng)機器翻譯模型[14,15]均使用生成句子與參考譯文之間的相似得分 BLEU 值作為訓練目標。然而在自然語言中,同一源句片段可對應(yīng)多個合理翻譯,基于 BLEU 值的反饋函數(shù)無法對參考譯文以外的詞匯給出合理的獎懲力度,使得大部分合理譯文被否定,極大限制了強化學習對翻譯效果的提升,加劇了機器譯文多樣性差問題。因此本文將反饋函數(shù)設(shè)置為 ( ) ( ) ( ) 1 ˆ ˆ ˆ 1 t BLEU t QE t R y Score y Score y ?? − = + + (12)
其中, Score y BLEU t ( ˆ ) 為生成譯文與參考譯文之間的歸一化 BLEU 值, 為生成譯文的歸一化 QE 評估得分;超參數(shù) 用于平衡 BLEU 值和 QE 得分之間的權(quán)重,避免引入QE 得分后有可能加重訓練不穩(wěn)定的問題,從而使得訓練能在較快速度收斂的同時充分考慮到翻譯的多樣性。
在機器翻譯任務(wù)中,智能體需要采取數(shù)十個動作來生成一個完整目標句,但生成完整序列后僅可獲得一個終端反饋,且序列級的獎勵無法區(qū)分每一詞項對總獎勵的貢獻程度,因此存在獎勵稀疏問題,這會導致模型收斂速度緩慢甚至無法學習。獎勵塑造(Reward shaping)可緩解這一問題。該方法為解碼的每個時間步都分配一個即時獎勵,需要將獎勵對應(yīng)至詞語級別,設(shè)置為 r y R y R y t t t t ( ˆ ) = − ( ˆ ) ( ˆ −1 ) (13)
在訓練期間,每完成一次采樣動作均計算一個累計獎勵作為當前序列反饋值,兩個連續(xù)時間步之間的反饋差值為詞項級別獎勵。這樣模型在每次動作結(jié)束后都可獲取當前時間步的即時獎勵,從而緩解了獎勵稀疏問題。實驗證明,使用獎勵塑造不會改變最優(yōu)策略,同時由于整個序列的獎勵值為每個詞項級獎勵之和,與序列級獎勵值保持一致,因此不會影響序列總獎勵。 ( ) 1 ( ) ˆ ˆ T t t t t R y r y = = ? (14)
3.3 損失函數(shù)設(shè)計
為穩(wěn)定強化訓練過程,緩解強化學習可能帶來的較大方差,本文將 MLE 訓練目標與 RL 目標相結(jié)合。具體步驟是在損失函數(shù)中保留傳統(tǒng)機器翻譯的交叉熵損失函數(shù),然后與強化學習訓練目標進行線性組合?;旌虾蟮膿p失函數(shù)為 L L L combine mle rl = + 1 ? ? ? − ( ) (15) 其中, 表示結(jié)合損失函數(shù), Lmle 表示交叉熵損失函數(shù),表示強化學習獎勵函數(shù),?是控制 Lmle 和 Lrl 的之間權(quán)重的超參數(shù)。由于模型在訓練初期得到的譯文比較粗糙,難以達到理想翻譯效果,因此完全使用強化學習目標進行訓練(即? =0 )時,會使得模型收斂困難,從而直接影響到模型翻譯性能;而一昧地增大交叉熵損失函數(shù)的比例則會削弱強化學習對模型帶來的性能提升。所以通過?值對交叉熵損失和強化學習目標進行權(quán)衡,能有效實現(xiàn)模型效益最大化。
4 實驗結(jié)果及分析
4.1 實驗語料
實驗用于訓練翻譯模型和譯文質(zhì)量評估模型的數(shù)據(jù)資源來自于本實驗室承擔“中韓科技信息加工綜合平臺”項目構(gòu)建的中-英-朝平行語料[30]。原始語料包含 3 萬余句,涉及生物技術(shù)、海洋環(huán)境、航天 3 個領(lǐng)域。為緩解數(shù)據(jù)稀疏問題,實驗還使用了額外單語語料。按照本文任務(wù)進行預(yù)處理后得到的詳細數(shù)據(jù)信息如表 1 所示。QE 任務(wù)的 HTER 得分由 TERCOM 工具自動計算得到。
4.2 多粒度數(shù)據(jù)預(yù)處理
大規(guī)模的語料詞嵌入可以為模型提供充分的先驗信息,加快模型的收斂速度,有效提升下游任務(wù)效果。然而朝鮮語屬于低資源語言,缺乏大規(guī)模語料,因此語料中會存在大量低頻詞,進而導致詞向量質(zhì)量較低。針對這一問題,本文使用更加靈活的朝鮮語語言粒度進行詞嵌入,以此緩解數(shù)據(jù)稀疏問題。朝鮮語屬于表音音素文字,從語音角度而言,朝鮮語由音素按照規(guī)則構(gòu)成音節(jié),音節(jié)再構(gòu)成語句。由于音素和音節(jié)數(shù)量相對固定(音素 67 個,音節(jié) 11172 個),使用這樣的粒度構(gòu)建詞典的規(guī)模非常小,與其他粒度相比能夠明顯減少低頻詞的存在。另外從語義角度看,分詞具有更清晰的形態(tài)以及語言特征。因此考慮使用音素、音節(jié)、詞三個粒度對朝鮮語文本進行語料預(yù)處理。音素使用開源音素分解工具 hgtk 獲取,音節(jié)直接通過讀取字符獲得,分詞采用分詞工具 Kkma。
4.3 實驗設(shè)置
翻譯模塊在基于自注意力的編碼器-解碼器框架上實現(xiàn), Transformer 系統(tǒng)采用與 Vaswani 等[14]描述相同的模型配置,具體實現(xiàn)采用谷歌大腦構(gòu)建的 Tensor2Tensor 開源工具, dropout 設(shè)置為 0.1,詞向量維數(shù)為 512,MLE 訓練梯度優(yōu)化算法使用 Adam 算法[31]并使用學習率衰減調(diào)度;機器翻譯質(zhì)量評估模塊,特征提取部分編碼器和解碼器層數(shù)為 2,前饋子層隱藏單元數(shù)為 1024,注意力機制 head 數(shù)為 4;質(zhì)量評估部分使用單層 Bi-LSTM,隱層單元設(shè)置為 512,梯度優(yōu)化算法使用 Adam,學習率設(shè)置為 0.001;強化學習訓練過程中使用 MLE 模型進行參數(shù)初始化,學習率設(shè)置為 0.0001,波束搜索寬度設(shè)置為 6。
4.4 實驗結(jié)果
4.4.1 翻譯性能
為驗證模型的翻譯性能,本文在相同硬件條件和語料規(guī)模下,與幾個常見的代表性神經(jīng)機器翻譯模型進行中朝翻譯對比實驗。其中 LSTM+attention 模型使用 Bahdanau 等人[5] 提出的網(wǎng)絡(luò)結(jié)構(gòu),并將循環(huán)單元替換為對長距離依賴更友好的 LSTM;Transformer 模型使用 Vaswani 等人[19]提出的基于自注意力的網(wǎng)絡(luò)結(jié)構(gòu)。分別計算各模型在測試集上的 BLEU 值和 QE 值,所得結(jié)果如表 2 所示。
從表 2 可以看出,QR-Transformer 在中-朝和朝-中兩個方向的翻譯任務(wù)上均可以超過基線模型,與 LSTM+attention 相比,中-朝語向 BLEU值提升了 9.87,QE分數(shù)降低了 59.68,朝-中語向 BLEU 值提升了 10.99,QE 分數(shù)下降了 57.76;與 Transformer 相比,中-朝語向 BLEU 值提升了 5.39,QE 分數(shù)降低了 5.16,朝-中語向 BLEU 值提升了 2.73,QE 分數(shù)下降了 2.82,引入評價模塊有效提高了中朝機器翻譯性能。
由于模型引入了機器翻譯質(zhì)量模塊對翻譯模塊進行強化訓練,因此為保證該策略的合理性和有效性,本文對機器翻譯質(zhì)量評估模塊性能進行驗證。驗證指標采用 WMT 比賽使用的皮爾遜相關(guān)系數(shù)(Pearson’s Correlation Coefficient)、平均絕對誤差(Mean Average Error, MAE)和平方根均方誤差(Root Mean Squared Error, RMSE)。皮爾遜相關(guān)系數(shù)用于衡量預(yù)測值和真實值之間的相關(guān)性,正相關(guān)性越高則 QE 模塊性能越好。平均絕對誤差和平方根均方誤差分別代表預(yù)測值和真實值之間絕對誤差的平均值和均方誤差的平方根,值越小越好。同 時 實 驗 與 開 源 系 統(tǒng) QuEst++[32]進 行 對 比 , 該系統(tǒng)為 WMT2013-2019 官方基線系統(tǒng)。具體實驗結(jié)果如表 3 所示。
從表3實驗結(jié)果可以看出,實驗中采用的Bilingual Expert 相較于 QE 任務(wù)的基線系統(tǒng) QuEst++有較好的性能提升,皮爾遜相關(guān)系數(shù)提高了 0.079,MAE 降低了 0.018,RMSE 降低了 0.007,與人工評價具有較高的相關(guān)性,證明了本實驗采用的機器翻譯質(zhì)量評估模型的有效性。因此利用機器翻譯質(zhì)量評估模塊來優(yōu)化翻譯模塊是合理的。
在表 4 的翻譯示例中,QR-Transformer 在中-朝、朝-中兩個語向上得到的翻譯較為準確,譯文的流暢度和忠實度都符合目標語言規(guī)范,且譯文質(zhì)量明顯優(yōu)于其余基線模型,證明 QR-Transformer 可以有效提升中朝神經(jīng)機器翻譯模型的性能。
5 結(jié)束語
為緩解機器翻譯任務(wù)中教師強制策略帶來的曝光偏差和翻譯多樣性差的問題,本文提出了一種基于強化學習和機器翻譯質(zhì)量評估的中朝機器翻譯模型 QR-Transformer。該模型在句子級別引入了一種評價機制,以此指導模型預(yù)測不完全收斂于參考譯文。評價機制采用無參考譯文的機器翻譯質(zhì)量評估,指導策略采用強化學習方法。實驗結(jié)果表明,該方法能夠有效提升中朝機器翻譯的性能。在下一步工作中,本文將結(jié)合中文和朝鮮語的語言特點,探索更適配于中朝機器翻譯評估的模型,從而進一步提升中朝機器翻譯系統(tǒng)的性能。
論文指導 >
SCI期刊推薦 >
論文常見問題 >
SCI常見問題 >