Interpreter Breaks Down How Real-Time Translation Works

口譯員分解即時翻譯的工作方式

前陣子，一位同步翻譯員聲討科大訊飛「AI同步造假」，在網上引起了軒然大波。人工智慧和同步翻譯，由此成為大家熱議的話題。今天，我們來談一談「人工智慧翻譯，是否真的可以取代同步翻譯員」？

同步翻譯有多難？

同步翻譯最早出現，在第一次世界大戰後的巴黎和會上，英法兩國代表借助同步翻譯人員的幫助，完成了緊張的談判。

如今，該技術依然在國際會議上，扮演著極其重要的角色。據統計，95%的國際會議，都有專業同步翻譯人員助力。同步翻譯員在台上，能夠將同步能力運用自如，需要平時大量的艱苦練習，即使是雙語運用自如的專業人員，在實做之前，也要進行數年的鍛鍊。

他們不僅需要事先學習、熟悉會議資料，還需要隨機應變的能力。同步翻譯的工作方式也比較特殊，因為壓力巨大，一般多人協同，在一場數小時的過程中，每人輪流翻譯幾十分鐘。相較之下，普通的口譯工作則要簡單不少。機器翻譯如能代替同步翻譯，無疑具有巨大的價值。

人工智慧翻譯的水準如何？

那麼，人工智慧同步翻譯的能力究竟怎樣？會不會搶走同步翻譯人員的飯碗呢？去年上半年的博鰲亞洲論壇上，首次出現了AI同步。然而，現場配備的系統卻掉了鍊子，鬧出詞彙翻譯不準確、重複等低級錯誤。

客觀來講，人工智慧或機器翻譯技術，在自然語言處理上，的確有許多突破。這些突破給人希望，讓人暢想未來，但是，短期內的價值，更多體現在輔助翻譯等領域。

當然，目前機器翻譯已經取得非常大的進步，在衣食住行等常用生活用語上的中英翻譯，可以達到大學六級的水準，能夠幫助人們，在一些場景處理語言交流的問題，但距離人工同步以及高水準翻譯所講究的「信、達、雅」，還存在很大的差距。

目前的差距是由現有技術水準的限制決定的，機器翻譯，又稱為自動翻譯，是利用電腦將一種語言轉換為另一種語言，機器翻譯技術的發展與電腦技術、資訊論、語言學等學科的發展緊密相關。

從早期的詞典比對，到結合語言學專家梳理的知識規則，再到基於語料庫的統計學方法，隨著計算能力的提升，和多語言資訊的累積，機器翻譯技術開始在一些場景中，提供便捷的翻譯服務。

新世紀以來，隨著網路的普及，網路公司紛紛成立機器翻譯研究組，研發了基於網路大數據的機器翻譯系統，從而使機器翻譯真正走向實用，市場上開始出現比較成熟的自動翻譯產品。近年來，隨著深度學習的進展，機器翻譯技術得到了進一步的發展，促進了翻譯品質的提升，使得翻譯更加地道、流暢。

機器翻譯的難點在哪裡？

這裡，簡單介紹一下機器翻譯的難點。整個機器翻譯的過程，可以分為語音辨識轉換、自然語言分析、譯文轉換，和譯文生成等階段。在此，以比較典型的、基於規則的機器同步翻譯為例（參見下圖），模組包含了：語音辨識（語音轉換為文本）、自然語言處理（語法分析、語義分析）、譯文轉換、譯文生成和語音生成等模組。其中的技術難點主要是：語音辨識、自然語言處理和譯文轉換等步驟。

第一個技術難點是語音辨識。近二十年來，語音辨識技術取得了顯著進步，開始進入家電、汽車、醫療、家庭服務等各個領域。常見的應用系統有：

語音輸入系統，相對於鍵盤輸入方法，它更符合人的日常習慣，也更自然、更高效；語音控制系統，即用語音來控制設備的運行，相對於手動控制來說更加快捷、方便，可以用在諸如工業控制、語音撥號系統、智慧家電、聲控智慧玩具等許多領域；智慧對話查詢系統，根據客戶的語音進行操作，為用戶提供自然、友好的數據庫檢索服務，例如家庭服務、旅行社服務系統、訂票系統、銀行服務等。

可以說，語音辨識技術與其他自然語言處理技術相結合，可以構建出很多複雜的應用。

然而，語音辨識的主要難點，就是對自然語言的辨識和理解。首先必須將連續的講話分解為詞、音素等單位，其次要建立一個理解語義的規則。由於語音資訊量大，語音模式不僅對不同的說話人不同，對不同場景的同一說話人，也是有差異的。

例如，一個人在隨意說話，和認真說話時的語音特徵是不同的。另外，說話者在講話時，不同的詞可能聽起來是相似的，這也是常見現象。

單個字母或詞、字的語音特性，受上下文的影響，以致改變了重音、音調、音量和發音速度等。最後，環境噪聲和干擾對語音辨識也有較大影響，致使辨識率低。

第二個技術難點是語義解析，這是智慧化的機器翻譯系統的核心部分。目前，機器翻譯系統可劃分為基於規則和基於語料庫兩大類。前者以詞典和語言知識規則庫為基礎；後者由經過劃分，並具有標注的語料庫構成知識源，以統計學的算法為主。

機譯系統是隨著語料庫語言學的興起，而發展起來的。目前，世界上絕大多數機譯系統，都採用以規則庫為基礎的策略，一般分為語法型、語義型、知識型和智慧型。

不同類型的機譯系統，由不同的成分構成。抽象地說，所有機譯系統的處理過程，都包括以下步驟：對源語言的分析或理解，在語言的語法、語義和語用等平面進行轉換，按目標語言結構規則生成目標語言。

當前，Google 的線上翻譯已經為人熟知，其第一代的技術，即為基於統計的機器翻譯方法，基本原理是透過收集大量的雙語網頁作為語料庫，然後由電腦自動選取，最為常見的詞與詞的對應關係，最後給出翻譯結果。

不過，採用該技術目前仍無法達到令人滿意的效果，經常鬧出各種翻譯笑話。因為，基於統計的方法，需要建立大規模的雙語語料庫，而翻譯模型、語言模型參數的準確性，直接依賴於語料的規模及品質，翻譯品質直接取決於模型的品質和語料庫的覆蓋面。

除了上述傳統的方式，2013年以來，隨著深度學習的研究取得較大進展，基於人工神經網路的機器翻譯逐漸興起。就當前而言，廣泛應用於機器翻譯的，是長短時記憶循環神經網路。

該模型擅長對自然語言建模，把任意長度的句子，轉化為特定維度的浮點數向量，同時「記住」句子中比較重要的單詞，讓「記憶」保存比較長的會話時間。該模型較好地解決了自然語言句子向量化的難題。

其技術核心是通過多層神經網路，自動從語料庫中學習知識。一種語言的句子被向量化之後，在網路中層層傳遞，經過多層複雜的傳導運算，生成譯文。這種翻譯方法最大的優勢，在於譯文流暢，更加符合語法規範。相比之前的翻譯技術，品質有較高的提升。

智慧同步翻譯離我們還有多遠？

需要說明的是，很多人對機器翻譯有誤解，認為機器翻譯偏差大。其實，機器翻譯運用語言學知識，自動辨識語法，模擬語義理解，進行對應翻譯，因語法、語義、語用的複雜性，出現錯誤是難免的。就已有的成果來看，全場景通用的機器翻譯，其翻譯品質離終極目標仍相差甚遠。

隨著全球化網路時代的到來，語言障礙已經成為二十一世紀社會發展的重要瓶頸，實現任意時間、任意地點、任意語言的無障礙自由溝通，是人類追求的一個夢想。

這僅是全球化背景下的一個小縮影。在社會快速發展的進程中，機器翻譯將扮演越來越重要的角色。

AKD 寰楚專業級全系列監控設備

按此回今日3S Market新聞首頁

3S MARKET

．人工智慧可以取代同步翻譯嗎？

Interpreter Breaks Down How Real-Time Translation Works

0 comments:

Recent Comments

Arsip Blog