AI翻译做事通过硬件、软件连接万万千万个运用处景,会冲破措辞不通的尴尬局势吗?会是人工翻译的闭幕者吗?
天下这么大,我想去看看!十一长假附近,梦想中的你背起行囊,自由行走在异国的大街小巷。然而现实的画风很有可能是这样的:走出国门没几天,你就创造期待已久的旅行,由于看不懂听不懂,而身在囧途。此时的你捶胸顿足地感慨道:天下上最迢遥的间隔,不是天涯海角,是你站在我面前,我却不知道你在说什么。
9月21日,百度智能翻译机在日本发布。名古屋有哪些好玩的景点?怎么乘车最便捷?翻译机流畅精准的中日互译令人惊叹不已。AI翻译做事通过硬件、软件连接万万千万个运用处景,将会冲破措辞不通的尴尬局势。乃至有人认为,AI翻译是人工翻译的闭幕者。现实真的如此吗?

现状:产品虽多,准确率有待提高
2017年可谓是AI大行其道的一年,作为当代科技的盛行趋势,不管是谷歌、苹果,还是百度、阿里,都在相继发布自己的人工智能产品,向智能行业进军。而AI翻译,险些是所有互联网巨子都想涉足的领域。
机器翻译已涌现了70年,但过去一年里呈现出的AI翻译软硬件产品,已超过最近30年的总和。
在国外,微软发布了翻译工具Microsoft Translator,可以实现9种措辞实时语音转为文本翻译。海内的互联网巨子也不甘示弱。百度技能委员会联席主席、自然措辞处理部技能卖力人吴华表示,百度翻译支持环球28种措辞互译、756个翻译方向,逐日相应过亿次的翻译要求。除百度外,科大讯飞也走在语音交互前列,推出了讯飞听见升级版产品,加入多语种翻译功能,五种措辞同步翻译成汉语,还发布了智能翻译产品“晓译翻译机”。就连网络游戏开拓大户腾讯公司,也悄然上线了一款实时语音翻译APP“翻译君”,这款以AI内核驱动的翻译产品,利用了语音识别+NMT(神经网络机器翻译)等技能,可以实现“同声传译”功能,对着屏幕说话时,边说边翻,就像身边带了一位私人翻译官。此外,电商大咖京东也开始涉足AI翻译,推出了一个可以进行多国措辞实时翻译的人工智能翻译机——准儿翻译机的众筹项目,目前已经有5008名支持者,轻松筹得320万元的项目基金。
只管AI翻译进步神速,却不被传统的翻译行业所看好。真切语联网络科技株式会社董事长何恩培表示:“无论是翻译机还是APP,中文翻译成英文或其他语种时准确率还可以,但外国人说英文或其他措辞时,翻译成中文的准确率就很低,在实际互换时险些没法用。”
今年2月,谷歌全新NMT系统在韩国世宗大学与人类译员进行的翻译对战便是一例佐证。在规定的50分钟内,人类和机器同时翻译两段随机文本。结果,人类以巨大上风降服了机器。赛后,评委表示,NMT系统翻译出的文本90%都有语法问题。
难点:数据有限,且措辞规则不规律
环球范围内,做事于各大跨国会议、发布会等的30多种翻译性能帮人们办理一些场景中措辞互换的问题,但目前的现状就如科大讯飞声明的那样:虽然机器翻译已经取得非常大的进步,但间隔高水平翻译所讲究的“信、达、雅”还存在很大差距。
以“千山鸟飞绝,万径人踪灭”这句人们耳熟能详的诗为例,国际翻译界最高奖项之一“北极光”精彩文学翻译奖得主许渊冲教授将其译为“from hill to hill no bird in flight,from path to path no man in sight.”这不仅符合近代著名翻译家严复提出的“信、达、雅”翻译原则,而且个中的意境与精髓只有认识汉语的人才能领会。
“文学艺术翻译要表示情绪、色彩、语调、温度、韵致、字里行间的意味等各类幽微之处。要传达出这些,译者的水准、敏感、境界和心灵力量尤为主要。”中国社会科学院外国文学研究所编审高兴说。
缘何能称霸棋坛的人工智能AlphaGo,却在翻译领域不尽完美?何恩培见告:“机器翻译一贯被公认为人工智能领域最难的课题之一。而且措辞和围棋不同,措辞背后的多元文化和繁芜社会属性,注定了措辞规则不可能规律化。”“文学作品,以及有引申含义或逻辑关系繁芜的句子,AI翻译很难搞定,由于翻译它们不仅是基于理解,而且要使某种意义上待翻译的措辞和目标措辞对齐。”华为诺亚方舟实验室资深研究员、自然措辞处理专家吕正东说。
此外,AI翻译要想达到“信、达、雅”的高度,还需战胜口语化的两大难题。一方面要听得清,能准确判断出指令发出者的语音、停顿,并在极短韶光内进行“语音断句”。另一方面要战胜口语交谈中的语法问题,以及句子不连贯、没有明确句子边界等问题。
机器靠什么办理上述问题?在清华大学打算机系副研究员刘洋看来,AI机器翻译的难点实在也是全体人工智能的难点——如何让机器真正像人一样有智能行为。他认为,机器翻译采取数据驱动的方法,其准确程度取决于给打算机供应哪些数据。目前供应最多的翻译数据来自于政府文档,比如联合国有多种官方措辞,基本每份文件都有多语种版本,但基本没有体育、娱乐等领域的数据。再加上各国的口语中都存在较多随意性口语或网络用语,生活化气息浓厚,多为非正式的语体材料,因此智能翻译须要弘大的根本词汇库支撑。“实在所有上述问题,理论上来说都可以靠更多的数据来填补,但是我们数据是有限的。” 吕正东说。
展望:前路漫漫,发展需数据推动
近两年,神经网络机器翻译(Neural Machine Translation, NMT)技能异军突起使翻译运用进一步改造。
NMT模拟人脑的神经思考模式,产出媲美人工翻译的高质量译文,并将偏差降落了55%—85%。目前,谷歌公司己将该技能运用于网页翻译与手机运用,译文质量明显提升。此外,腾讯、百度、阿里巴巴等海内互联网公司也将深度学习理念运用到机器翻译。同时,措辞处理、语音交互等技能的进步又加速了翻译产品的场景升级,匆匆使机器赞助翻译”(CAT,Computer Aided Translation)过渡到“人工智能交互翻译”(AI Interactive Translation)。
“措辞是形式,而不是本色。”当代措辞学理论奠基者费尔迪南·德·索绪尔说。同样,对各种花哨的技能观点抽丝剥茧,其核心仍旧是AI处理人类措辞的三种方法:即基于规则的机器翻译、基于实例的机器翻译和统计的翻译方法。目前谷歌、搜狗等公司基本采取的是末了一种方法。
伴随着翻译方法的完善,机器将完成未来大部分的大略翻译需求,而那些细腻、多元、充满人文特质的繁芜沟通以及专业化翻译,人工智能究竟能不能实现?还须要哪些改进呢?
清华大学打算机系教授孙茂松说:“天下措辞好几千种,几千种之间的互译,个中绝大多数措辞之间都没有足够语料。以是这方面的翻译还须要去做,包括一些模型的探索。”
“AI翻译是一个交叉学科,取决于数学、措辞学、打算机科学、神经认知科学等很多方向的进展,因此AI翻译该当和更多的‘知识’结合在一起,让数据推动机器翻译发展。”刘洋说。
此外,在吕正松看来,如何真正让打算机去理解语意中那些委婉的对应关系和不规范的表述,可能须要相称长的韶光才能实现。( 姜 靖)