重建巴别塔,机器翻译的前世今生丨语言学午餐

 

这究竟是“人工”的毁灭,还是“智能”的沦丧?!——机器翻译的前世今生...



机器翻译(Machine Translation)想必是大家最耳熟能详的人工智能应用之一了,它不仅是计算语言学(Computational Linguistics)的瑰宝,同时也是居家旅行的必需品。虽然机翻已可满足一些简单的应用情景,但是它有时犯起蠢来还真是让人哭笑不得。

这不,前段日子,小编的朋友圈里就刷起了“谷歌翻译眼中的大学排名”:

清华大学:我可能是个假 Tsinghua???
交大老学长:机器翻译还是 too young, too simple, sometimes naïve!


也许是因为谷歌不太了解中国的大学?然而,麻省理工也难逃谷歌翻译愚蠢的执念:
-
MIT:确认过眼神,是我的“不如”!
(以上截图均在2018年4月8号,此bug现已被修复了。)
实际上,在谷歌翻译的“排行”下,除了名校,各家科技公司也都遭到了不同程度的“不公对待”!

无独有偶,在前两周的博鳌亚洲论坛上,本想着靠“AI同传”(人工智能同声传译)大放异彩的某讯,却也闹出了不少乌龙:
“AI同传” 崩溃后的翻译效果


这,究竟是“人工”的毁灭,还是“智能”的沦丧?! 今天,午餐君就带你一起走进科学计算语言学,了解下机器翻译的前世今生!

下文约 2500 字,预计阅读时间为 5 分钟。

序曲(1930-1950)

机器翻译的雏形最早可以追溯到1933年,一位苏联科学家利用卡片、打字机和旧式胶片相机发明了一个简易的机械式翻译器。然而,这个发明并没有引起任何人的注意,也没有留下实物或照片。

1946年,第一台电子计算机 ENIAC 诞生之后,美国科学家 Warren Weaver 就开始思考如何更好地利用计算机“为人民服务”。图灵在二战期间利用机器破译密文的事迹给了他机器翻译的灵感:翻译也可以看成是一种编码和解码的过程!

当我看到俄文文章,我说「它就是以英语写成,只是被古怪符号加密而已。现在我要破解密码。」

—— Warren Weaver(1947)

恰逢冷战初期,翻译外文(尤其是俄文)的情报与文献是美国的一个刚性需求。在政治与科技的历史进程的双重推动之下,1949年,Warren 正式在《翻译备忘录》中提出机器翻译的思想。1954年,美国 Georgetown-IBM 实验室成功利用 IBM 701 计算机将60句俄文句子翻译成了英文。

某种程度上,这标志着人类重新开始了建造巴比塔之路。

巴别塔:《旧约·创世记》记载,当时人类联合起来兴建能通往天堂的高塔;为了阻止人类的计划,上帝迫使人类说不同的语言,使其不能互相沟通。建造高塔的计划因此失败,人类自此说着不同的语言,各散东西。这座没有完成的塔被叫做“巴别塔”,“巴别”意为“上帝之门”。

机器翻译的此后70年的发展,大体可分为四大阶段:基于规则的机器翻译(Rule-Based Machine  Translation,RBMT)、基于例句的机器翻译(Example-Based Machine Translation,EBMT)、统计机器翻译(Statitical Machine Translation,SMT)、神经机器翻译(Neural Machine Translation,NMT)。
前世 · RBMT (1950 ~ 1980)

最容易被大家想到的一种翻译方法就是先根据双语词典(Bilingual Dictionary),将原句逐词翻译,再根据目标语言的特性调整每个词的形态,最后通过各种规则来限制最后的翻译结果。没错! 这种以词为基本单位的翻译方法,被称为直译法(Direct Machine Translation)。
显然,这种直译方案有着诸多劣势:

1)一词多义时,无法选择更符合语境的含义;

2)需要人工来制定每个词相应的规则,这是一个浩大的工程;

3)没能充分利用两个语言的固定语法结构来进行翻译;

4)难以扩展到多语言(当你有n个语言需要互相翻译时,需要对多达 n*(n-1)/2个 语言对 分别制定规则)。

为了试图解决这些问题,科学家们先后又提出了以句法结构为着眼点的迁移式机器翻译Transfer Machine Translation) 和基于中间语的机器翻译Interlingua Machine Translation)。然而,这些尝试耗费了巨大的人力、物力去构建规则,却收效甚微。

依靠人来编写无穷无尽的语法规则去消解歧义,不仅耗费了时间和精力,当时的计算机能力也无法完成有效的搜索。因此,机器翻译的效果只能在天气预报这种非常专业化且格式化的文本上才有所价值,因为歧义较少。

1966年,美国科学院成立了自动语言处理咨询委员会 (Automatic Language Processing Advisory Committee),并发布了名为《语言与机器》的报告,彻底否定了机器翻译的研究价值,认为人类在有限的未来里不可能发明具有实际价值的机器翻译系统。机器翻译一度陷入泥沼,进入低潮期。

尽管被宣判了死刑,机器翻译的客观需求却仍然随着全球化的进程日益增长。信息技术的发展不断将整个世界变得越来越小,不同语言的人在网络上进行信息交互也越来越频繁。废弃的巴别塔下,人越来越多了!

工业界、政府又慢慢开始与大学合作,开发出了多款翻译软件,如 Weinder、EURPOTRAA、TAUM-METEO,重新带动了机器翻译的热潮。

前世 · EBMT (1980 ~ 1990)

技术方面的灵光乍现来自于日本京都大学。由于日语结构和英语差异非常显著,使得基于人工编写规则的方法在日英互译时困难重重。1984年,京都大学前校长 长尾真 另辟蹊径:为什么我们不充分利用已有的人工翻译好的双语例句呢? 当我们要翻译一个新句子的时候,在双语例句库里找到和它最像的一句,然后利用机器找出有差异的局部、翻译局部、填回结果,不就可以了吗?
利用第一行的例句进行对第二句英文的翻译


这种基于例句的思想,在实践中被证明是非常有效的!当例句库越大,翻译的效果自然也就越准确、越自然。这是因为翻译出来的句子的整体结构是来自于人类翻译的结果,机器翻译系统所做的只是修改局部以贴合新句子语义。

这一想法,直接启发了后来的一批学者,并顺利将机器翻译的研究过渡到了下一个时期,也是机器翻译最为辉煌的时期,SMT!

前世 · SMT (1990 ~ 2015)

基于短语的统计机器翻译(SMT)充分发扬了 长尾真 提出的EBMT的观点,它的核心逻辑是:如果我有两种翻译的选择,就选那种在双语语料库(也常称为平行语料库,parallel corpora)中出现可能性更大的那个,因为这意味着它更符合人类的语言习惯。

那么,如何衡量一种翻译在语料库中存在可能性呢?首先我们需要把“翻译”这个复杂的过程,分解成一系列的更简单的过程:

1) 把原句切分成一系列的小块 (chunk)
2) 然后找到每一块对应的候选翻译集合
3) 生成所有候选句子



(注意,此时可以考虑不同的顺序)



4) 算出每一句出现的概率,选择最大的。



基于短语的模型(n-gram)保证了局部翻译的一致性,也降低了平行语料库中“对齐”(alignment)的需求。我们也放弃了所有的语言学知识,一切的“规则” 都是从海量的平行语料中自动计算得来的。

相反,如果在SMT模型中,我们试图强行引入语法规则,常常会降低模型的效果。这也就是为什么 统计自然语言处理 (Statistical NLP) 先驱 Fred Jelinek 热衷于调侃语言学家了。

我每开除一名语言学家,我的模型准确率就提升一个百分点。

——  Fred Jelinek

2005年,Franz Och 领导的 Google 团队在美国国家标准与技术研究(NIST)举办的机器翻译大赛中获得了大满贯。这标志着SMT的绝对胜利,也让 Google 在机器翻译领域成为了新的带头羊,以领先的技术和免费的优势,占据了绝对的主导地位。

今生 · NMT (2015 ~ 现在)

从2013年开始,机器学习(Machine Learning)的学者圈子里有一些人开始将关注点转向人工神经网络(Artificial Neural Networks)、深度学习(Deep Learning)等。(关于机器学习,可以参考《你好,机器作诗了解一下》 。)

与此同时,词嵌入(Word Embedding)的词语表征方式也随着 word2vec 的发布,流行了起来。词嵌入技术使得很多自然语言处理的问题可以用神经网络来解决。机器翻译作为自然语言处理和计算语言学的瑰宝,自然也是备受关注!

2014年,Kyunghyun Cho 等人开始利用循环神经网络(Recurrent Neural Networks)加强SMT的效果 ,开启了神经机器翻译(NMT)的时代(三年多的时间他们的第一篇NMT论文已经有 2300+ 的引用量了)。

不久,序列到序列(seq-to-seq)模型成为了NMT的主要框架。敏锐的 Google 非常迅速地跟进了这个方向,提出了 GNMT (Google Neural Machine Translation),并融合进了其产品线。

一个有注意力机制的序列到序列模型
(Attentional Seq2Seq Model)


从图中可以看出来,NMT模型是迭代地产生翻译结果的:先将原句进行理解(编码,encode),然后根据相关的局部信息动态翻译(解码,decode)出对应的词汇。在整个过程中,没有直接出现统计学相关的计算,而是靠神经网络的结构来进行推理。

2017年,Facebook、 Google、Microsoft 在 NMT 这个领域都频繁提出自己的新模型,竞争非常激烈。最前沿的研究开始把目光放在如何降低对平行语料库的依赖,从而在没有平行语料库的情况下仍然能够训练 NMT 模型。

总结与展望

当然,任何一个成熟的机器翻译工业产品都不可能只靠一种模型,而应该是多种策略的组合。开头提到的谷歌翻译的关于“不如”的 bug,看起来像是 Google 的NMT 模型由于周围语境的影响导致的。但是,Google 能够迅速修补这个bug,就说明它的系统中应该也有类似基于规则的成分,所以才能根据需要如此灵活地调节模型。不过,具体为何产生这样的 bug,恐怕只有 Google 的相关工作人员才更清楚了。“解释性差”也正是人们最常批评 NMT 的原因之一了。

机器翻译相关的研究一直以来都是推动计算语言学发展的最主要的动力之一,这四个阶段的发展与计算语言学整体的走向也是一脉相承。尽管机器翻译有时的效果不尽如人意,但是忽视或否认它所带来的积极作用是不明智的。

在2013年的科幻电影《雪国列车》里,同传机器还被想象成是未来的高端科技,而2018年的今天,市面上就已经有多家可以满足旅游中常见需求的随身翻译机。
《雪国列车》中的同传机器

某随身翻译器的demo 
(为避免广告嫌疑,选用了某国外产品在日本的测评视频。
国内产品也有很多测评视频可以在视频网址上搜到。)
会场的演讲实时翻译、在屏幕上实时打出另一个语言的字幕也快成为了AI领域发布会的标配了。基于计算语言学现在的发展速度和上升空间,相信未来会有更出色、更稳定的应用。

重建巴别塔,似乎并不遥远。

参考资料:

Machine Learning is Fun Part 5: Language Translation with Deep Learning and the Magic of Sequences, Adam Geitgey 2016

Machine Translation. From the Cold War to Deep Learning, Ilya Pestov and Vasily Zubarev 2018

Neural Machine Translation and Sequence-to-sequence Models: A Tutorial, Graham Neubig 2017

Statistical machine translation, Philipp Koehn and Kevin Knight, 2009
往期精彩内容

人工智障  志玲姐姐  送命题  计算语言学  翻译腔  语言学期刊  郭敬明  语码转换  妇女  谁是卧底  《降临》  “在吗?”   倒装句  高翻毕业生  希拉里的笑  语言学老师  新概念英语  怪癖  怎样让大排不硬  外语口音


    关注 语言学午餐LingLunch


微信扫一扫关注公众号

0 个评论

要回复文章请先登录注册