公開/公告號(hào)CN101131691A
專利類型發(fā)明專利
公開/公告日2008-02-27
原文格式PDF
申請(qǐng)/專利權(quán)人 韓國(guó)電子通信研究院;
申請(qǐng)/專利號(hào)CN200710142439.8
發(fā)明設(shè)計(jì)人 金永吉;梁成一;金昌顯;徐英愛;洪文杓;崔承權(quán);李起榮;權(quán)五郁;盧玧亨;樸相奎;
申請(qǐng)日2007-08-27
分類號(hào)G06F17/28(20060101);G06F17/27(20060101);H04N5/278(20060101);
代理機(jī)構(gòu)11105 北京市柳沈律師事務(wù)所;
代理人胡琪;郭定輝
地址 韓國(guó)大田市
入庫(kù)時(shí)間 2023-12-17 19:45:36
法律狀態(tài)公告日
法律狀態(tài)信息
法律狀態(tài)
2019-08-16
未繳年費(fèi)專利權(quán)終止 IPC(主分類):G06F17/28 授權(quán)公告日:20121024 終止日期:20180827 申請(qǐng)日:20070827
專利權(quán)的終止
2012-10-24
授權(quán)
授權(quán)
2008-04-23
實(shí)質(zhì)審查的生效
實(shí)質(zhì)審查的生效
2008-02-27
公開
公開
相關(guān)申請(qǐng)的交叉引用
本發(fā)明要求2006年8月25日提交的韓國(guó)專利申請(qǐng)第2006-80921號(hào)的優(yōu)先權(quán)和利益,通過引用將該申請(qǐng)的全部?jī)?nèi)容合并于此。
技術(shù)領(lǐng)域
本發(fā)明涉及一種使用動(dòng)態(tài)翻譯資源用于隱藏式字幕(closed?caption)的領(lǐng)域自適應(yīng)便攜機(jī)器翻譯設(shè)備及其方法。更具體地,本發(fā)明涉及一種機(jī)器翻譯設(shè)備及其方法,其可以通過動(dòng)態(tài)地構(gòu)建適合于自動(dòng)識(shí)別的字幕語句的風(fēng)格和領(lǐng)域的特定的翻譯模塊和知識(shí),以及利用優(yōu)化的翻譯資源自動(dòng)地翻譯對(duì)應(yīng)的語句,來改進(jìn)在各個(gè)專門領(lǐng)域的翻譯性能。
背景技術(shù)
雖然已經(jīng)成功地將日語-韓語/韓語-日語機(jī)器翻譯系統(tǒng)商業(yè)化,但是用于在諸如韓語-英語/英語-韓語以及韓語-漢語/漢語-韓語翻譯等的完全不同的樣式(heterogeneous?pattern)的語言之間的翻譯的大多數(shù)機(jī)器翻譯系統(tǒng)只取得了很小的商業(yè)成功。其原因在于:雖然翻譯性能依賴于要翻譯的目標(biāo)語言和段落而變化,但當(dāng)在完全不同的樣式的語言之間翻譯時(shí),機(jī)器通常呈現(xiàn)出較差的性能。
近來,通過創(chuàng)建為在特定領(lǐng)域的應(yīng)用中的語句特性編程的專門的機(jī)器翻譯系統(tǒng),而做出嘗試以增強(qiáng)輸出質(zhì)量。作為這樣的努力的結(jié)果,已經(jīng)以不同程度的成功對(duì)用于諸如技術(shù)手冊(cè)領(lǐng)域、專利領(lǐng)域、圣經(jīng)翻譯領(lǐng)域等的部分專門的領(lǐng)域的翻譯系統(tǒng)實(shí)現(xiàn)了商業(yè)化。
具體地,通過衛(wèi)星TV的廣泛傳播的推動(dòng),存在對(duì)于用于隱藏式字幕的機(jī)器翻譯系統(tǒng)的不斷增長(zhǎng)的需求,其可通過自動(dòng)翻譯從廣播信號(hào)中提取的字幕信號(hào)而為觀眾提供選擇他/她們的語言的字幕。
這里,隱藏式字幕指從廣播站輸出的包含字幕信號(hào)的圖像信號(hào)。近來,許多廣播公司為聽力受損提供這樣的隱藏式字幕。1990年,美國(guó)要求13英尺或更大的電視機(jī)必須具有隱藏式字幕功能,本地電視廣播站和CATV公司也正在擴(kuò)展隱藏式字幕節(jié)目。同樣,預(yù)計(jì)繼續(xù)擴(kuò)展由CNN、NHK、AFKN提供的外語的隱藏式字幕的節(jié)目。
然而,在TV上的隱藏式字幕中,口語風(fēng)格和書面風(fēng)格在各種類型中混合,例如,戲劇、文化和時(shí)事、娛樂等等、以及新聞。特別地,在新聞中,幾乎使用來自所有領(lǐng)域的各種技術(shù)術(shù)語和表述,因此開發(fā)可提供商業(yè)規(guī)模的高質(zhì)量輸出的用于隱藏式字幕的機(jī)器翻譯系統(tǒng)存在技術(shù)上的困難。
為了克服此技術(shù)困難,韓國(guó)專利公開第1997-56985號(hào)(公開日:1997年7月31日)公開了具有用于翻譯隱藏式字幕的功能的TV。該TV將韓語和外語翻譯部分分開,從而以觀眾選擇的語言顯示字幕數(shù)據(jù),因此便利地滿足觀眾的需要。
然而,具有隱藏式字幕功能的TV執(zhí)行以下處理:從輸入廣播信號(hào)提取字幕數(shù)據(jù),將該字幕數(shù)據(jù)翻譯為所選擇的語言,接著在TV屏幕上顯示翻譯的結(jié)果。因此,其缺點(diǎn)在于:必須單獨(dú)購(gòu)買支持隱藏式字幕的TV,而且當(dāng)廣播信號(hào)是從另一媒體設(shè)備(例如,衛(wèi)星機(jī)頂盒、視頻播放器、DMB終端等)輸入時(shí),無法提供字幕功能。
此外,具有隱藏式字幕功能的TV只對(duì)字幕數(shù)據(jù)執(zhí)行翻譯,因此對(duì)于口語風(fēng)格、書面風(fēng)格的語句、以及在有字幕的節(jié)目中處理的各種技術(shù)領(lǐng)域中使用的語句,其不能提供高輸出質(zhì)量。
例如,在新聞中,通常將“die”用作意思為“停止生命”的動(dòng)詞,但在科學(xué)領(lǐng)域中,最經(jīng)常地將“die”用作意思為“模具”的名詞。因此,如果在科學(xué)領(lǐng)域字幕中將“die”誤翻譯為意思為“停止生命”的動(dòng)詞,這是因?yàn)榉g是在沒有考慮應(yīng)用領(lǐng)域的情況下執(zhí)行的。
也就是說,因?yàn)榫哂蟹g隱藏式字幕的功能的TV將相同的翻譯模塊和知識(shí)作為一個(gè)整體應(yīng)用于所有的領(lǐng)域,因此當(dāng)輸入各種風(fēng)格和技術(shù)的語句時(shí),顯然翻譯質(zhì)量將會(huì)降級(jí)。
因此,進(jìn)行了許多考慮技術(shù)領(lǐng)域而改進(jìn)翻譯質(zhì)量的嘗試。代表性的方法是用戶自適應(yīng)機(jī)器翻譯方法,其中校正翻譯的結(jié)果中的錯(cuò)誤,將校正的結(jié)果存儲(chǔ)為補(bǔ)充的翻譯知識(shí),并在下次自動(dòng)應(yīng)用該翻譯知識(shí),借此改進(jìn)相似輸入語句的翻譯質(zhì)量。
作為上述的用戶自適應(yīng)機(jī)器翻譯方法,通常使用基于翻譯存儲(chǔ)器的自適應(yīng)翻譯方法,其中用戶添加他/她自己的翻譯詞典,或手動(dòng)注冊(cè)基于樣式的翻譯集(corpus),并接著將結(jié)果應(yīng)用于語句翻譯。
韓國(guó)專利公開第2004-0111188號(hào)(公開日:2004年12月31日)公開了一種相關(guān)的、傳統(tǒng)的自適應(yīng)機(jī)器翻譯方法。在韓國(guó)專利公開第2004-0111188號(hào)中公開的自適應(yīng)機(jī)器翻譯方法通過防止重復(fù)錯(cuò)誤而改進(jìn)翻譯質(zhì)量。這通過機(jī)器翻譯系統(tǒng)的用戶直接校正錯(cuò)誤、將校正的結(jié)果轉(zhuǎn)換為系統(tǒng)的輸入知識(shí)格式、并接著將轉(zhuǎn)換的結(jié)果再次應(yīng)用于翻譯系統(tǒng)來完成。
然而在上面的方法中,用戶必須持續(xù)地校對(duì),校正大量的機(jī)器翻譯的文檔。小規(guī)模的校對(duì)對(duì)于改進(jìn)各種領(lǐng)域的文檔的機(jī)器翻譯性能是無效的。
同樣,自適應(yīng)機(jī)器翻譯方法使用數(shù)據(jù)驅(qū)動(dòng)的機(jī)器翻譯引擎,以避免翻譯數(shù)據(jù)或規(guī)則的沖突。在此情況下,由于存在對(duì)于添加逐詞翻譯校正知識(shí)以改進(jìn)翻譯性能的限制,需要從大量翻譯知識(shí)建立的單獨(dú)的統(tǒng)計(jì)數(shù)據(jù)庫(kù)。
因此,為了使用于隱藏式字幕的便攜機(jī)器翻譯系統(tǒng)商業(yè)化,需要通過自動(dòng)識(shí)別目標(biāo)領(lǐng)域和風(fēng)格以及構(gòu)建專門的翻譯環(huán)境來改進(jìn)翻譯性能,并且使得能夠與各種類型的媒體設(shè)備鏈接。
發(fā)明內(nèi)容
本發(fā)明針對(duì)提供一種用于隱藏式字幕的領(lǐng)域自適應(yīng)便攜機(jī)器翻譯設(shè)備及其方法,其能夠通過自動(dòng)識(shí)別字幕的風(fēng)格和領(lǐng)域,動(dòng)態(tài)地構(gòu)建專用翻譯模塊和知識(shí),并且利用優(yōu)化的翻譯資源自動(dòng)翻譯相應(yīng)的語句,來相對(duì)于各種專門領(lǐng)域改進(jìn)翻譯性能。
本發(fā)明還針對(duì)提供一種用于隱藏式字幕的領(lǐng)域自適應(yīng)便攜機(jī)器翻譯設(shè)備及其方法,其可以獨(dú)立于其它媒體設(shè)備(諸如連接到因特網(wǎng)的PC、衛(wèi)星TV的機(jī)頂盒、有線TV、視頻播放器、USB盤等等)工作,也可以通過輸入/輸出端子不受限制地與這樣的媒體設(shè)備鏈接。
本發(fā)明的一方面提供了一種用于隱藏式字幕的領(lǐng)域自適應(yīng)便攜機(jī)器翻譯設(shè)備,包括:關(guān)鍵詞提取部件,提取用于識(shí)別輸入廣播信號(hào)中的字幕語句的風(fēng)格和領(lǐng)域的關(guān)鍵詞;風(fēng)格和領(lǐng)域識(shí)別部件,基于提取的關(guān)鍵詞、預(yù)構(gòu)建的謂語結(jié)束/風(fēng)格統(tǒng)計(jì)詞典和預(yù)構(gòu)建的詞匯/領(lǐng)域統(tǒng)計(jì)詞典識(shí)別字幕語句的風(fēng)格和領(lǐng)域;動(dòng)態(tài)翻譯知識(shí)構(gòu)建部件,基于識(shí)別的風(fēng)格和領(lǐng)域動(dòng)態(tài)地構(gòu)建翻譯知識(shí),隨后將結(jié)果載入到主存儲(chǔ)器的動(dòng)態(tài)翻譯DB中;動(dòng)態(tài)翻譯模塊構(gòu)建部件,基于識(shí)別的風(fēng)格和領(lǐng)域動(dòng)態(tài)地構(gòu)建翻譯模塊;語素(morpheme)分析部件,在動(dòng)態(tài)翻譯模塊構(gòu)建部件的控制下分析字幕語句的語素;語句樣式應(yīng)用部件,通過在動(dòng)態(tài)翻譯模塊構(gòu)建部件的控制下將語句樣式應(yīng)用到字幕語句,來執(zhí)行逐句翻譯;語法分析部件,在動(dòng)態(tài)翻譯模塊構(gòu)建部件的控制下分析字幕語句的語法;以及基于樣式的翻譯生成部件,基于語法分析結(jié)果產(chǎn)生基于樣式的字幕語句的翻譯。
本發(fā)明的另一方面提供了一種用于隱藏式字幕的領(lǐng)域自適應(yīng)便攜機(jī)器翻譯設(shè)備的翻譯方法,包括以下步驟:(a)提取用于分析輸入廣播信號(hào)中的字幕語句的風(fēng)格和領(lǐng)域的關(guān)鍵詞;(b)基于提取的關(guān)鍵詞、預(yù)構(gòu)建的謂語結(jié)束/風(fēng)格統(tǒng)計(jì)詞典和預(yù)構(gòu)建的詞匯/領(lǐng)域統(tǒng)計(jì)詞典識(shí)別字幕語句的風(fēng)格和領(lǐng)域;(c)基于識(shí)別的風(fēng)格和領(lǐng)域動(dòng)態(tài)地構(gòu)建翻譯知識(shí),并將該知識(shí)載入到主存儲(chǔ)器的動(dòng)態(tài)翻譯DB中;(d)基于識(shí)別的風(fēng)格和領(lǐng)域動(dòng)態(tài)地構(gòu)建翻譯模塊;(e)基于識(shí)別的風(fēng)格和領(lǐng)域分析字幕語句的語素;(f)通過基于識(shí)別的風(fēng)格和領(lǐng)域?qū)⒄Z句樣式應(yīng)用到字幕語句,來執(zhí)行逐句翻譯;(g)基于識(shí)別的風(fēng)格和領(lǐng)域分析字幕語句的語法;以及(h)基于語法分析結(jié)果產(chǎn)生基于樣式的字幕語句的翻譯。
附圖說明
通過參照附圖詳細(xì)描述本發(fā)明的示例實(shí)施例,本發(fā)明的上面的和其他的目標(biāo)、特性和優(yōu)點(diǎn)對(duì)于本領(lǐng)域普通技術(shù)人員將變得更加顯而易見。附圖中:
圖1是根據(jù)本發(fā)明的用于隱藏式字幕的領(lǐng)域自適應(yīng)便攜機(jī)器翻譯設(shè)備的結(jié)構(gòu)的框圖;以及
圖2是圖示根據(jù)本發(fā)明的用于隱藏式字幕的領(lǐng)域自適應(yīng)便攜機(jī)器翻譯設(shè)備的翻譯方法的流程圖。
具體實(shí)施方式
從下面的、如在附圖中所示的本發(fā)明的示例實(shí)施例的更具體的描述,本發(fā)明的前述和其它目標(biāo)、特性和優(yōu)點(diǎn)將顯而易見。
圖1是根據(jù)本發(fā)明的用于隱藏式字幕的領(lǐng)域自適應(yīng)便攜機(jī)器翻譯設(shè)備的結(jié)構(gòu)的框圖。
如圖1所示,用于隱藏式字幕的領(lǐng)域自適應(yīng)便攜機(jī)器翻譯設(shè)備包括:輸入端子IN,用于輸入廣播信號(hào);語句提取部件101,從通過輸入端子IN的輸入廣播信號(hào)提取字幕語句;關(guān)鍵詞提取部件102,從由語句提取部件101提取的字幕語句中提取關(guān)鍵詞;風(fēng)格和領(lǐng)域識(shí)別部件103,基于提取的關(guān)鍵詞、預(yù)構(gòu)建的謂語結(jié)束/風(fēng)格統(tǒng)計(jì)詞典301和預(yù)構(gòu)建的詞匯/領(lǐng)域統(tǒng)計(jì)詞典302,識(shí)別字幕語句的風(fēng)格和領(lǐng)域;動(dòng)態(tài)翻譯知識(shí)構(gòu)建部件104,利用識(shí)別的風(fēng)格和領(lǐng)域動(dòng)態(tài)地構(gòu)建翻譯知識(shí),并將構(gòu)建的結(jié)果載入主存儲(chǔ)器的動(dòng)態(tài)翻譯DB206;動(dòng)態(tài)翻譯模塊構(gòu)建部件105,利用識(shí)別的風(fēng)格和領(lǐng)域動(dòng)態(tài)地重構(gòu)翻譯模塊;語素分析部件106,分析字幕語句的語素;語句樣式應(yīng)用部件107,將語句樣式應(yīng)用到字幕語句,從而執(zhí)行逐句翻譯;語法分析部件108,當(dāng)語句樣式應(yīng)用失敗時(shí)分析字幕語句的語法;基于樣式的翻譯生成部件109,產(chǎn)生字幕語句的基于樣式的翻譯;翻譯合并部件110,合并輸入廣播信號(hào)和翻譯;以及輸出端子OUT,輸出在翻譯合并部件110中合并的廣播信號(hào)。
輸入端子IN可提供用于輸入廣播信號(hào)的USB端口/視頻端子/音頻端子/同軸電纜端子,輸出端子OUT可包含用于輸出廣播信號(hào)的USB端口/視頻端子/音頻端子/同軸電纜端子。
語句提取部件101從通過輸入端子IN的輸入廣播信號(hào)提取字幕語句,并將提取的結(jié)果作為翻譯目標(biāo)語句輸出。
同樣,當(dāng)將USB盤連接到USB端口以更新翻譯知識(shí)并傳送控制信號(hào)時(shí),翻譯提取部件101通過分離USB盤中的控制文件和翻譯知識(shí)文件,從翻譯目標(biāo)文件中提取要翻譯的語句。
這里,控制文件包含稍后動(dòng)態(tài)地構(gòu)建翻譯模塊和翻譯知識(shí)所需的所有信息,例如用戶數(shù)據(jù)、領(lǐng)域數(shù)據(jù)等等,其中可由控制文件手動(dòng)地設(shè)置用戶和領(lǐng)域數(shù)據(jù)。
而且,在翻譯知識(shí)文件中,將翻譯知識(shí)以“補(bǔ)充的詞匯/翻譯的補(bǔ)充詞匯/處理類型(添加/刪除/修改)/用戶ID”的形式寫入,借此可將新的詞條(entry)添加到用戶詞典。
關(guān)鍵詞提取部件102參考在主存儲(chǔ)器中存儲(chǔ)的公用語素分析詞典201,分析從語句提取部件101中接收的字幕語句的語素,并從語素分析結(jié)果中提取對(duì)應(yīng)于名詞或格變化(declinable)的詞語的關(guān)鍵詞。
風(fēng)格和領(lǐng)域識(shí)別部件103基于從關(guān)鍵詞提取部件102中提取的關(guān)鍵詞、預(yù)構(gòu)建的謂語結(jié)束/風(fēng)格統(tǒng)計(jì)詞典301和詞匯/領(lǐng)域統(tǒng)計(jì)詞典302,識(shí)別字幕語句的風(fēng)格和領(lǐng)域。下面將更詳細(xì)地描述識(shí)別風(fēng)格和領(lǐng)域的方法。
首先,識(shí)別風(fēng)格的方法如下。風(fēng)格和領(lǐng)域識(shí)別部件103通過根據(jù)謂語結(jié)束/風(fēng)格統(tǒng)計(jì)詞典301、將字幕語句的最后一個(gè)詞語在書面風(fēng)格中出現(xiàn)的頻率與該字幕語句的最后一個(gè)詞語在口語風(fēng)格中出現(xiàn)的頻率進(jìn)行比較,來確定字幕語句符合書面風(fēng)格還是口語風(fēng)格。
也就是說,謂語結(jié)束/風(fēng)格統(tǒng)計(jì)詞典301從口語集和書面集的語素分析結(jié)果提取謂語結(jié)束和語氣的頻率統(tǒng)計(jì)數(shù)據(jù),并通過將它們分為{最后一個(gè)詞語/口語風(fēng)格頻率/書面風(fēng)格頻率},來存儲(chǔ)提取的結(jié)果。因此,通過將對(duì)應(yīng)的最后一個(gè)詞語在口語風(fēng)格中出現(xiàn)的頻率與該對(duì)應(yīng)的最后一個(gè)詞語在書面風(fēng)格中出現(xiàn)的頻率進(jìn)行比較,可確定字幕語句的最后一個(gè)詞語是書面風(fēng)格還是口語風(fēng)格。
在本發(fā)明的示例實(shí)施例中,風(fēng)格是口語風(fēng)格和書面風(fēng)格之一??谡Z風(fēng)格分為5個(gè)領(lǐng)域:戲劇、脫口秀、娛樂、訪談、以及其它,而書面風(fēng)格分為3個(gè)領(lǐng)域:新聞、教育、以及其它。而且,新聞?lì)I(lǐng)域再分為10個(gè)子領(lǐng)域:政治、經(jīng)濟(jì)、社會(huì)、生活和文化、國(guó)際、科學(xué)、娛樂、體育、天氣、以及其它。
其次,識(shí)別領(lǐng)域的方法如下。風(fēng)格和領(lǐng)域識(shí)別部件103通過基于預(yù)構(gòu)建的詞匯/領(lǐng)域統(tǒng)計(jì)詞典302,比較提取的關(guān)鍵詞在特定領(lǐng)域中的頻率,來確定字幕語句的領(lǐng)域。如下地實(shí)現(xiàn)用于確定領(lǐng)域的詞匯/領(lǐng)域統(tǒng)計(jì)詞典302。
首先,收集對(duì)應(yīng)于各自領(lǐng)域的培訓(xùn)集,并從其中提取諸如名詞和格變化的詞語之類的語素詞匯。將關(guān)于每個(gè)術(shù)語的領(lǐng)域的提取的數(shù)據(jù)構(gòu)建為{對(duì)應(yīng)術(shù)語/領(lǐng)域1、頻率1/領(lǐng)域2、頻率2/.../領(lǐng)域n,頻率n}的形式的數(shù)據(jù)并存儲(chǔ)在詞匯/領(lǐng)域統(tǒng)計(jì)詞典302中。
也就是說,由于將一個(gè)術(shù)語用于許多領(lǐng)域,可通過提取每個(gè)術(shù)語在每個(gè)領(lǐng)域中使用的頻率并將其與字幕語句中包含的關(guān)鍵詞在特定領(lǐng)域中出現(xiàn)的頻率進(jìn)行比較,來簡(jiǎn)單地確定字幕語句的領(lǐng)域。
當(dāng)確定字幕語句的風(fēng)格和領(lǐng)域時(shí),動(dòng)態(tài)翻譯知識(shí)構(gòu)建部件1?04在將語句以口語風(fēng)格寫入時(shí)將口語語素分析詞典303載入主存儲(chǔ)器的動(dòng)態(tài)翻譯DB206,或者在將語句以書面風(fēng)格寫入時(shí)將書面語素分析詞典304載入主存儲(chǔ)器的動(dòng)態(tài)翻譯DB?206。
而且,在動(dòng)態(tài)翻譯知識(shí)構(gòu)建部件104中,將特定用戶詞典306與在控制信號(hào)中包含的用戶數(shù)據(jù)一起載入動(dòng)態(tài)翻譯DB?206。將預(yù)分析的特定領(lǐng)域語境詞典305、特定領(lǐng)域技術(shù)術(shù)語翻譯詞典307和特定領(lǐng)域詞匯/意思同現(xiàn)詞典308與識(shí)別的領(lǐng)域數(shù)據(jù)一起載入動(dòng)態(tài)翻譯DB?206。
也就是說,識(shí)別輸入字幕語句的風(fēng)格和領(lǐng)域,接著動(dòng)態(tài)地構(gòu)建合適的翻譯知識(shí),并將其載入動(dòng)態(tài)翻譯DB?206中,其與使用公用翻譯知識(shí)的傳統(tǒng)系統(tǒng)相比較造成改進(jìn)的翻譯質(zhì)量。
接著,動(dòng)態(tài)翻譯模塊構(gòu)造部件105從風(fēng)格和領(lǐng)域識(shí)別部件103接收字幕語句的風(fēng)格和領(lǐng)域數(shù)據(jù),并借此控制語素分析部件106、語句樣式應(yīng)用部件107、語法分析部件108以及基于樣式的翻譯生成部件109以適合于所述風(fēng)格和領(lǐng)域。這就是動(dòng)態(tài)構(gòu)造翻譯模塊的意思,如下面將更詳細(xì)描述的。
語素分析部件106用于通過基于專用于每個(gè)風(fēng)格和領(lǐng)域的啟發(fā)式(heuristic)規(guī)則執(zhí)行自適應(yīng)語素分析,以語素為單位標(biāo)記(tokenize)輸入字幕語句。該啟發(fā)式規(guī)則由動(dòng)態(tài)翻譯模塊構(gòu)建部件105形成,可包括關(guān)于刪節(jié)的形式、謂語結(jié)束等的處理的規(guī)則,其適合每個(gè)風(fēng)格和領(lǐng)域。
這里,語素分析部件106基于主要載入到主存儲(chǔ)器的公用語素分析詞典201和預(yù)分析的語素統(tǒng)計(jì)詞典204、以及載入到主存儲(chǔ)器的動(dòng)態(tài)翻譯DB?206的口語語素分析詞典303、書面語素分析詞典304、預(yù)分析的特定領(lǐng)域語境詞典305、用戶詞典306、特定領(lǐng)域技術(shù)術(shù)語翻譯詞典307和特定領(lǐng)域詞匯/意思同現(xiàn)詞典308,執(zhí)行語素分析。
下面將討論語素分析部件106中使用的預(yù)分析的語素統(tǒng)計(jì)詞典204和預(yù)分析的特定領(lǐng)域語境詞典305的知識(shí)格式和例子。
【預(yù)分析的語素統(tǒng)計(jì)詞典】
知識(shí)格式::{對(duì)應(yīng)詞語頻率預(yù)分析1概率1頻率1預(yù)分析2概率2頻率2...預(yù)分析n概率n頻率n<領(lǐng)域1>...頻率預(yù)分析1概率1頻率1預(yù)分析2概率2頻率2...預(yù)分析n概率n頻率n<領(lǐng)域2>...頻率預(yù)分析1概率1頻率1預(yù)分析2概率2頻率2...預(yù)分析n概率n頻率n<領(lǐng)域n>}示例1){
【預(yù)分析的特定領(lǐng)域語境詞典】
知識(shí)格式::{對(duì)應(yīng)詞語_左語素詞匯1_左語素詞匯2_*_右語素詞匯預(yù)分析的頻率}
示例2{
示例3{
如上所述,基于適合輸入字冪語句的風(fēng)格和領(lǐng)域的預(yù)分析的語素統(tǒng)計(jì)詞典204和預(yù)分析的特定領(lǐng)域語境詞典305執(zhí)行自適應(yīng)語素分析。結(jié)果,改進(jìn)了翻譯性能。
接著,如果以語素為單位通過語素分析部件106標(biāo)記字幕語句,語句樣式應(yīng)用部件107基于語句樣式詞典203執(zhí)行逐句翻譯,所述語句樣式詞典203基于標(biāo)記序列(token?sequence)以語素為單位被載入主存儲(chǔ)器。
這里將每個(gè)風(fēng)格和領(lǐng)域中頻繁出現(xiàn)的公用翻譯樣式存儲(chǔ)在語句樣式詞典203中,因此可執(zhí)行技術(shù)手冊(cè)、專利文獻(xiàn)、廣播新聞、以及口語風(fēng)格的語句中頻繁出現(xiàn)的公用表述的高質(zhì)量翻譯。語句樣式詞典203的示例如下:
【語句樣式詞典】
示例4)NPl
示例5)
>現(xiàn)在,全國(guó)大多數(shù)地區(qū)晴,但大量的云正逐漸從我國(guó)的NP1前來。
示例6)
>你什么時(shí)候回到NP1?
下面,如果在語句樣式詞典203中不存在可以以語素為單位應(yīng)用到標(biāo)記序列的語句樣式,語法分析部件108基于格變化的詞語分析字幕語句的語法并產(chǎn)生分析樹。
這里,當(dāng)產(chǎn)生字幕語句的語法分析樹時(shí),語法分析部件108基于用于結(jié)構(gòu)分析的特定領(lǐng)域詞語同現(xiàn)詞典310確定每個(gè)語素節(jié)點(diǎn)和語法之間的依賴。
用于結(jié)構(gòu)分析的特定領(lǐng)域詞語同現(xiàn)詞典310的示例如下:
【用于結(jié)構(gòu)分析的特定領(lǐng)域詞語同現(xiàn)詞典】
知識(shí)格式::{前面的部分講話(POS)1_后面的POS2_最后一個(gè)詞語1前面的部分最后一個(gè)詞語2后面的部分頻率1<領(lǐng)域1>頻率2<領(lǐng)域2>...頻率n<領(lǐng)域n>}
示例7>{如果pvg_pvg_
示例8>{如果pvg_pvg_
示例9>{
基于樣式的翻譯生成部件109基于特定領(lǐng)域的謂語短語翻譯樣式詞典309和詞匯/意思語境詞典205,使用謂語短語的翻譯樣式,產(chǎn)生字幕語句的基于樣式的翻譯。特定領(lǐng)域的謂語短語翻譯樣式詞典309和詞匯/意思語境詞典205的示例如下:
【特定領(lǐng)域謂語短語翻譯樣式詞典】
示例10){
【詞匯/意思語境詞典】
示例11){
示例12){
接著,當(dāng)在基于樣式的翻譯生成部件109中產(chǎn)生字幕語句的翻譯時(shí),翻譯合并部件110合并輸入廣播信號(hào)和翻譯并通過輸入端子IN輸出。
這里,對(duì)于隱藏式字幕,合并視頻/音頻/字幕文本/翻譯的字幕文本,將通過USB端口輸入的文本文檔與翻譯的文本文檔一起輸出。
接著,將從翻譯合并部件110輸出的廣播信號(hào)輸出到通過輸出端子OUT連接的外部媒體設(shè)備。
如上所述,將本發(fā)明中的用于隱藏式字幕的領(lǐng)域自適應(yīng)便攜機(jī)器翻譯設(shè)備構(gòu)建為能夠獨(dú)立連接到任何媒體設(shè)備,并通過自動(dòng)識(shí)別字幕語句的風(fēng)格和領(lǐng)域以及構(gòu)建專門用于風(fēng)格和領(lǐng)域的翻譯知識(shí)和模塊,來提供最佳的翻譯環(huán)境。因此,根據(jù)這些動(dòng)態(tài)翻譯資源的應(yīng)用,對(duì)于諸如技術(shù)手冊(cè)、專利文獻(xiàn)、隱藏式字幕、一般文本等等的所有風(fēng)格和領(lǐng)域,可以執(zhí)行高質(zhì)量的專門翻譯。
現(xiàn)在將參照附圖詳細(xì)描述用于隱藏式字幕的領(lǐng)域自適應(yīng)便攜機(jī)器翻譯設(shè)備的翻譯方法。
圖2是圖示根據(jù)本發(fā)明的用于隱藏式字幕的領(lǐng)域自適應(yīng)便攜機(jī)器翻譯設(shè)備的翻譯方法的流程圖。
為求方便,將假定將用于隱藏式字幕的便攜機(jī)器翻譯設(shè)備連接到另一媒體設(shè)備(例如,通過輸入/輸出連接端子,將PC連接到因特網(wǎng)、衛(wèi)星TV的機(jī)頂盒、有線TV、視頻播放器、USB盤等等),來描述本方法。
首先,當(dāng)通過另一媒體設(shè)備將廣播信號(hào)輸入(S210)時(shí),從輸入廣播信號(hào)中提取字幕語句(S220)。
分析提取的字幕語句的語素,并從其中提取對(duì)應(yīng)于名詞或格變化的詞語的關(guān)鍵詞(S230)。
接著,基于提取的關(guān)鍵詞、預(yù)構(gòu)建的謂語結(jié)束/風(fēng)格統(tǒng)計(jì)詞典301和預(yù)構(gòu)建的詞匯/領(lǐng)域統(tǒng)計(jì)詞典302識(shí)別字幕語句的風(fēng)格和領(lǐng)域(步驟S240)。上面參照?qǐng)D1充分描述了識(shí)別語句的風(fēng)格和領(lǐng)域的方法,因此下面將簡(jiǎn)要描述。
通過根據(jù)謂語結(jié)束/風(fēng)格統(tǒng)計(jì)詞典301,將字幕語句的最后一個(gè)詞語在口語風(fēng)格出現(xiàn)的頻率與該字幕語句的最后一個(gè)詞語在書面風(fēng)格出現(xiàn)的頻率進(jìn)行比較,確定字幕語句是以口語風(fēng)格還是書面風(fēng)格寫的。接著,通過基于預(yù)構(gòu)建的詞匯/領(lǐng)域統(tǒng)計(jì)詞典302、比較每個(gè)領(lǐng)域的關(guān)鍵詞的頻率,確定字幕語句的領(lǐng)域。
在本發(fā)明的示例實(shí)施例中,風(fēng)格是口語或書面之一。將口語風(fēng)格分為5個(gè)領(lǐng)域(戲劇、脫口秀、娛樂、訪談、以及其它),將書面風(fēng)格分為3個(gè)領(lǐng)域(新聞、教育、以及其它)。將新聞?lì)I(lǐng)域再分為10個(gè)子領(lǐng)域(政治、經(jīng)濟(jì)、社會(huì)、生活/文化、國(guó)際、科學(xué)、娛樂、體育、天氣、以及其它)。
同時(shí),如果識(shí)別了字幕語句的風(fēng)格和領(lǐng)域,則基于識(shí)別的風(fēng)格和領(lǐng)域數(shù)據(jù)動(dòng)態(tài)地構(gòu)建翻譯知識(shí),并將構(gòu)建的知識(shí)載入動(dòng)態(tài)翻譯DB?206(S250)。下面將詳細(xì)描述翻譯知識(shí)的動(dòng)態(tài)構(gòu)造。
如果以口語風(fēng)格寫入字幕語句,則將口語風(fēng)格語素分析詞典303載入主存儲(chǔ)器的動(dòng)態(tài)翻譯DB?206。但是,如果以書面風(fēng)格寫入字幕語句,則將書面風(fēng)格語素分析詞典304載入動(dòng)態(tài)翻譯DB?206。
使用識(shí)別的領(lǐng)域數(shù)據(jù),將預(yù)分析的特定領(lǐng)域語境詞典305載入動(dòng)態(tài)翻譯DB?206。
使用用戶數(shù)據(jù),將特定用戶詞典306載入動(dòng)態(tài)翻譯DB?206。
因此,將翻譯知識(shí)動(dòng)態(tài)地構(gòu)建為適合于字幕語句的風(fēng)格和領(lǐng)域,然后載入動(dòng)態(tài)翻譯DB?206。
結(jié)果,與使用公用翻譯知識(shí)的傳統(tǒng)機(jī)器翻譯系統(tǒng)相比較,增強(qiáng)了翻譯質(zhì)量。
接著,基于識(shí)別的風(fēng)格和領(lǐng)域數(shù)據(jù)動(dòng)態(tài)地構(gòu)建翻譯模塊,然后進(jìn)行翻譯(S260),下面將更詳細(xì)地描述這點(diǎn)。
首先,基于專門用于識(shí)別的風(fēng)格和領(lǐng)域的啟發(fā)式規(guī)則執(zhí)行自適應(yīng)語素分析,借此以語素為單位標(biāo)記輸入字幕語句(S261)。
這里,在語素分析中,可基于主要載入到主存儲(chǔ)器的公用語素分析詞典201和預(yù)分析的語素統(tǒng)計(jì)詞典204、以及載入到主存儲(chǔ)器的動(dòng)態(tài)翻譯DB?206的書面風(fēng)格語素分析詞典304、預(yù)分析的特定領(lǐng)域語境詞典305、用戶詞典306、特定領(lǐng)域技術(shù)術(shù)語翻譯詞典307和特定領(lǐng)域詞匯/意思同現(xiàn)詞典308,進(jìn)行分析。啟發(fā)性規(guī)則可包括適合每個(gè)風(fēng)格和領(lǐng)域的規(guī)則,諸如刪節(jié)的形式的處理、謂語結(jié)束處理等等。
當(dāng)以語素為單位標(biāo)記字幕語句時(shí),基于載入主存儲(chǔ)器的語句樣式詞典203、通過相對(duì)于以語素為單位的標(biāo)記序列應(yīng)用語句樣式,執(zhí)行逐句翻譯(S263)。
這里,將在每個(gè)風(fēng)格和領(lǐng)域中頻繁出現(xiàn)的公用的翻譯樣式存儲(chǔ)于語句樣式詞典203中,借此可執(zhí)行在技術(shù)手冊(cè)、專利文獻(xiàn)、廣播新聞以及口語語句中頻繁出現(xiàn)的公用表述的高質(zhì)量翻譯。
如果在語句樣式詞典203中不存在適用于以語素為單位的標(biāo)記序列的語句樣式,則基于格變化詞語分析字幕語句的語法,并產(chǎn)生分析樹(S265)。
這里,在產(chǎn)生字幕語句的語法分析樹時(shí),可基于用于結(jié)構(gòu)分析的特定領(lǐng)域詞語同現(xiàn)詞典310確定語法和每個(gè)語素節(jié)點(diǎn)之間的依賴。
在產(chǎn)生了謂語短語的分析樹之后,基于特定領(lǐng)域的謂語短語翻譯樣式詞典309和詞匯/意思語境詞典205、使用謂語短語的翻譯樣式,將字幕語句翻譯為目標(biāo)語言(S267)。
在產(chǎn)生了字幕語句的翻譯之后,將翻譯和輸入廣播信號(hào)合并,隨后輸出到連接的外部媒體設(shè)備(S270)。
這里,對(duì)于隱藏式字幕,合并視頻/音頻/字幕文本/翻譯的字幕文本,將通過USB端口輸入的文本文檔和翻譯的文本文檔一起輸出。
如此,根據(jù)用于隱藏式字幕的領(lǐng)域自適應(yīng)便攜機(jī)器翻譯設(shè)備的翻譯方法,自動(dòng)識(shí)別隱藏式字幕的風(fēng)格和領(lǐng)域,動(dòng)態(tài)地構(gòu)建合適的專用翻譯模塊和知識(shí),借此使用適合于對(duì)應(yīng)的語句的最佳翻譯資源來執(zhí)行自動(dòng)翻譯。因此,可執(zhí)行各種專門領(lǐng)域中的高質(zhì)量翻譯。
同時(shí),可將上述示例實(shí)施例寫成存儲(chǔ)在計(jì)算機(jī)可讀介質(zhì)上的、由標(biāo)準(zhǔn)計(jì)算機(jī)執(zhí)行的計(jì)算機(jī)程序。
如上所述,自動(dòng)識(shí)別隱藏式字幕的風(fēng)格和領(lǐng)域,動(dòng)態(tài)地構(gòu)建合適的專用翻譯模塊和知識(shí),借此利用適合于對(duì)應(yīng)的語句的最佳翻譯資源來執(zhí)行自動(dòng)翻譯。因此,可執(zhí)行各種專門領(lǐng)域中的高質(zhì)量翻譯。
同樣,根據(jù)本發(fā)明,可獨(dú)立于連接到因特網(wǎng)、衛(wèi)星TV的機(jī)頂盒、有線TV、視頻播放機(jī)、USB盤等等的PC運(yùn)行該用于隱藏式字幕的領(lǐng)域自適應(yīng)便攜機(jī)器翻譯設(shè)備,也可以將其通過輸入/輸出端子自由地鏈接到這樣的媒體設(shè)備。
此外,根據(jù)本發(fā)明,將適合字幕語句的風(fēng)格和領(lǐng)域的翻譯詞典載入主存儲(chǔ)器以翻譯字幕語句。因此,減少了翻譯詞典存取時(shí)間,因此與傳統(tǒng)機(jī)器翻譯系統(tǒng)相比較,可執(zhí)行高速翻譯。
雖然已經(jīng)參照本發(fā)明的特定示例實(shí)施例示出和描述了本發(fā)明,本領(lǐng)域技術(shù)人員將理解:在不偏離由附加的權(quán)利要求所限定的本發(fā)明的精神和范圍的情況下,可在其中做出形式上和細(xì)節(jié)上的各種變化。
機(jī)譯: 利用動(dòng)態(tài)翻譯資源翻譯隱藏式字幕的領(lǐng)域自適應(yīng)便攜式機(jī)器翻譯設(shè)備及其方法
機(jī)譯: 使用動(dòng)態(tài)翻譯資源翻譯隱藏字幕的領(lǐng)域自適應(yīng)便攜式機(jī)器翻譯設(shè)備及其方法
機(jī)譯: 使用動(dòng)態(tài)翻譯資源翻譯封閉字幕的領(lǐng)域自適應(yīng)便攜式機(jī)器翻譯設(shè)備及其方法