第148章 你們能比我更懂機(jī)器翻譯(5k)
再者,如果你不好好記下來,到時候被開除只是教授一句話的事。
“好了剛才我們講了一些簡單的內(nèi)容,現(xiàn)在才是最難的。
因?yàn)閕bm的機(jī)器不是那么強(qiáng)大,我們只能引入一些比較簡單的統(tǒng)計學(xué)方法來提高我們翻譯的準(zhǔn)確度。
我把它叫做基于頻率的詞對齊。
這也是我們引入統(tǒng)計模型的核。
我們先要手動分析平行句子,標(biāo)注俄語詞或短語與英語翻譯的對應(yīng)關(guān)系。
俄語句子mыгoвopnmomnpe
英語翻譯:“wespeakaboutpeace
對齊結(jié)果:“mы”對應(yīng)“we”
“гoвopnm”對應(yīng)“speak”
“o”對應(yīng)“about”
“mnpe”對應(yīng)“peace”
然后我們需要對這種對齊的頻率進(jìn)行統(tǒng)計。
統(tǒng)計每個俄語詞或短語在英語中的對應(yīng)翻譯出現(xiàn)的頻率。
例如,在語料中,“гoвopnm”在80%的句子中翻譯為“speak”,20%翻譯為“talk”。
這樣對于我們就可以構(gòu)建概率表了。
將這些概率整理成表格,供機(jī)器進(jìn)行查詢。由于內(nèi)存空間有限,我們暫時只存儲高頻詞對,像出現(xiàn)次數(shù)前1000的詞對,忽略低頻情況。