今年8月,雷锋网(公众号:雷锋网)(搜索“雷锋网”公众号关注)将在深圳举办“全球人工智能与机器人创新大会”(GAIR),在本次大会上,我们将发布“人工智能与机器人Top25创新企业榜“,商鹊网是我们重点关注的公司之一。今天,我们邀请到了商鹊网CEO邹剑宇,以实战经验为我们解读,什么样的机器翻译比Google还要占优?雷锋网
嘉宾介绍: 邹剑宇。商鹊网创始人及首席执行官。中国第一代互联网记者。1997-2007服务《三联生活周刊》,任经济部负责人, 《南方周末》和FT中文网专栏作家,跟踪报道了中国互联网的前十年历程。2007年进入互联网,先后担任雅虎中国主编,猫扑网和中国移动微博总编辑。2012年担任元培翻译高级副总裁,创建其互联网翻译事业部。2013年创建商鹊网。
先介绍下我们的创业团队,跟我合伙创业的,是清华的本科和硕士毕业的自然语言大拿,叫魏勇鹏。以及中科院的博士胡日勒,原来在诺基亚负责机器翻译。
▌机器翻译的现状
正如大家所想,能吸引我们在翻译行业创业的前提,肯定是翻译行业遇到了一些问题。下图比较完整地概括了翻译行业遇到的问题。
其实这是个小行业,规模特别小,没有大公司。但是翻译需求,貌似没有谁没有遇到过,所以很多人会拍脑袋一想——“这是个大生意”!但实际情况会是这行确实需求挺多,但生意不大。我们创业的时候,这一点看得很清楚,如果不跟上机器翻译的趋势,翻译一定没得做。
先说说机器翻译的现状吧,这个BLEU值的评测结果,说明了现在机器翻译的现状。一般人的体会,是机器翻译有很多不尽如人意的地方。商业伙伴第一句话问的也是:你们机器翻译准确度是多少?这一PPT讲清楚了背后的事实:目前通用的机器翻译的准确度约50%弱一点
这个一般的准确度,说起来都是泪。客户说:那你们这个太差了;投资人也说:那你们这个太差了。我不是技术出身,创业初期也对这个准确度有很大期待,对伙伴有无限期待。一年下来发现期待总是落空,所以就反省:事情出问题了还是我出什么问题了? 所以就开始学习,四处打探事实。找到的事实,见下图
这个理论引用的是英国特别NB的物理学家,也是世界知名的认知学家讲的,如果咱们不知道创造是怎么回事,那就别想创造一个创造的能力了,这个家伙的理论高度,个人觉得高于《人类简史》那个以色列教授。如果说《人类简史》是历史概述,那这个教授的书则是开创性的认知启蒙,他的意思,是图灵测试,有点诡辩和连蒙带诈地制造了一个AI。
这个是咱们中国的理论物理学家、科学网红李淼教授总结的:物理逻辑运转的计算方法,得不出类似量子运转的创造思维结果。总结下来:理论不够,方法不对。理解人性思维的AI做得有点辛苦。
是我现场去听了张钹教授的课,这里主要是讲机器智慧,与类人的AI的区别,按他的理论,AI极其有可能有自己的意志,即按照自己的逻辑行动,并有可能伤害人类。但是机器直接来理解人,这一点目前看不到。我是做机器翻译的,被称为AI的皇冠,是用机器来理解人类的认知,难度非常大。目前比较成熟的AI应用,主要集中在感知层,诸如视觉、听觉的机器识别,总结下来,这三个人物所讲理论,给了我一颗定心丸:我再也不期待工程师给我一个完美的翻译引擎了,跟客户说机翻结果时再也不忐忑不安了:我们就是这样的!
把大家对机器翻译的期待,转化为翻译的期待,是比较合理和现实的,——机器不会万能,人来帮忙。
现在大家能用到的机器翻译,包括口语翻译软件,基本上准确度都是50%左右的引擎,不过看看使用量:很惊人;但在商业服务领域,情况不太一样。
也就是说:机器翻译没有直接的商业模式。有价值的是流量。有时候会让我们这个圈子的人这么感慨,“这么难的事,我都去做了,却赚不到钱(哭)”。当然我们也哭,不过还是会看清楚自己的价值。
▌Google PK 垂直引擎
这里要补充一下:实际上我们公司开发的不是和谷歌百度一样的通用引擎,我们在垂直领域做工作。目前商鹊网的翻译引擎,针对科研、专利领域,所以我们的准确度应该比通用引擎高一些,因为垂直领域的数据研发后会更精准,如果垂直的引擎还不如通用的引擎在该领域的效果,就混不下去了(掩面ing)。我们在一个客户的竞标中,的确是打败了谷歌和必应的引擎服务,拿到了一个专利内容的机器翻译的常年订单,每个月都在干活。我们提供的主要服务叫人机结合的译后编辑 PE(Post Editing)服务。
这是我们服务的技术架构,在这个技术架构上面,我们使用了大量的译员,这些译员需要参加PE生产的培训,因此,研发之外的BD和培训工作,是公司日常的大业务。
这是我们公司的培训矩阵。我们受译协委托,给中国300所外语院校培训翻译技能,就是我们研发的PE生产流程,这里发生了很有意思的事,这是我们培训的三个学员,他们跟机器的关系由浅入深,工作效率也由低到高。
里面的话,都是学员在答问卷的原话,非常真实的感受,所以,培训的逻辑,就是把半成品的机器翻译的结果,让译员最大程度的利用上,以减少译员自己的工作量和工作强度,提高效率,公司降低成本,这一点,培训中充分体现出来了,当然,也有一点点问题,不是所有译员对人机结合都感到舒适的。
这里涉及到了:“AI真的会取代人,减少工作机会”,这是一个重大的社会问题,从局部来看,是的。但是更大时间和范围来看,人还是有无数的事情要做。这里的一个技能是:人要学会和机器相处,让机器学会和人相处,就是咱们日常在做的AI研发,难度太大了。让人和机器相处,只需要学习和体验,就能做到。所以,让人屈尊配合机器,是眼前最现实的事情,虽然有不适,但应该不是大问题吧。Anyway,人机结合的不适,难道比时髦的VR大眼罩更不人性吗?
人屈尊去配合机器,意味着两件事:
第一、人可以给机器“更深度学习”的机会,对PE翻译来说,因为我们的译员,是最深度的用户,所以他们每一次对机器翻译结果的选择和修正,都是机器学习的最好样板。这种集中的人群应用,是谷歌等通用引擎梦寐以求,但是找不到的目标人群。(因为谷歌翻译不支持深度人机交互,只有一个选项:你觉得结果好还是不好)。
第二,人机结合的翻译,几乎只有在中国可以深度运转。不单是因为中国有最多的劳动力,还因为中国是世界上独一无二的全语种的体制课程教育体系。
也就是说教育部下属大学里,可以学到世界上所有实用的语言,在美国,人力很贵、译员更贵,不会有公司有成本动用这么多人力来做人机结合的服务。反过来,也没有这么多专业人士来反哺AI的成长。
这里顺便打个广告,嘿嘿。商鹊网5月21日,也就是上周六和猪八戒签署了一个战略合作协议,商鹊为猪八戒的翻译频道提供产品、系统、服务、招募和BD等一系列的运营支持服务。因此,商鹊网形成了一个翻译的闭环,从需求到生产,从研发到培训,生产和AI研发可以互相借力成长,猪八戒是“服务业的淘宝”,所以它有能力把分散的翻译需求集中到一个大平台上来。
▌众包 PK 垂直引擎之PE
这里要解释一下,PE和众包的关系
一般来说,像设计,法律、翻译等服务业,目前想到的互联网解决办法,就是众包,翻译类的众包有过很多平台,无一类外都含恨离去,我跟猪八戒的最资深外包服务的人探讨这个问题,最后都认为问题出在供应方。过去一般认为,有需求,把客户找上来,让服务商蜂涌上去,问题就解决了,实际上,一个服务的需求千奇百怪,匹配合适的供应商的成本,远高于服务本身的价值,所以我们的解决办法,是让供应商在服务的产品、流程和交付质量,以及服务商品牌上下功夫。
让最主要的需求有标准化的产品来服务,而翻译服务要做到这一点,IT技术和翻译技术是必须的,说了这么多,说一个实际案例。
商鹊网使用PE,为中国和日本的专利客户提供翻译服务。日本客户对信息管理、对质量苛求非常严格,我们从一个第五层的分包商成长为直接的翻译供应商,依靠的就是PE生产的高效、低成本,以及稳定的质量。资深翻译一定比我们的普通译员做得好,但是人总有累、病的时候,还有多个译员翻译习惯不同术语不统一等等,这些问题机器不怕。机器解决了术语准确和统一问题,人是辅助优化的。因此,我们刚毕业的本科学生,即胜任了工作5年以上的老译员,效率还更高。
▌PE说,它要飞得更高
那么,在专利领域是酱紫,我们做到了全世界(不含糊)最优的翻译成本,其他领域呢?
中国人不再把生活局限在出生的这个国家了,从上学、租房、买房、投资理财、养老保险、求医问药、学习移民等等,还有日常的跨境购物和旅游,生活空间出国了,但是俺们那嘎达的乡音难忘也难改,不懂英文咋办?
陪同翻译的服务不是我们要做的,但是有更大的需求:基本上大家认为超过60%的有价值的英文信息还是没有中文版的,现在大家能够看到大部分英文世界的NEWS的中文版,但是编辑好的information,以及更深度的Knowledge,咱们是看不到中文版的。或者看到的很晚、很不全,很贵。
譬如,魏泽西同学死于绝症,但是莆田人盈利导向的资讯,是让他遗恨的地方。中国人上网求医问药,一个字到网上,有1000个莆田人在等你。实际上欧美有很科学、真实的医、药、病的数据库,把这些数据库翻译成中文,是有价值的。还有就是投资,买美股。一般中国人除了中概股之外,能对4000家美国主要上市公司里的100家有所了解?还有更多的基金公司、基金产品,保险产品,能了解多少呢?
要想做一个国际人,即要有国际的资讯氛围。过去没有,是因为这里的翻译工程成本太高、效率太低了!
现在有机器翻译——针对浏览级的需求;人机结合的深度翻译——针对资料、精读级的需求,因此,现在翻译也变了。
翻译不再是一个不管内容的语言转换,是一个多语言转换和智能知识管理的综合工程。做到这一点,翻译很有意思了。我们在小规模的翻译服务里,发现生意可以反哺AI研究,不完全依靠VC输血。而另外呢,则对未来的AI智能应用前景充满期待。所以,很期待和同怀AI梦想的大家,一起走到那一天,我的唠叨先到此。
雷锋网原创文章,未经授权禁止转载。详情见转载须知。
原创文章,作者:ItWorker,如若转载,请注明出处:https://blog.ytso.com/60408.html