织梦CMS - 轻松建站从此开始!

宣城期货配资

当前位置: 宣城期货配资 > 互联网 > 揭秘谷歌翻译:如何借助多项新兴 AI 技术提高电影股票翻译质量

揭秘谷歌翻译:如何借助多项新兴 AI 技术提高电影股票翻译质量

时间:2020-06-09 00:09来源: 作者:admin 点击: 13 次
6月6日消息,据国外媒体报道,谷歌表示,它已在提高没有大量书面文本语料的语言的翻译质量上取得了进展。在一篇即将正式发表的博客文章中,该公司详细介绍了助力提升谷歌翻译(GoogleTranslate)所支持的108种语言翻译质量的新创新技术(特别是缺乏语料数据的约鲁巴语和马拉雅拉姆语)。谷歌翻译服务平

6 月 6 日动静,电影股票据海外媒体报道,谷歌暗示,它已在进步没有大量书面文本语料的说话的翻译质量上取得了指望。在一篇立即正式颁发的博客文章中,该公司具体先容了助力晋升谷歌翻译(Google Translate)所支撑的 108 种说话翻译质量的新立异技巧(出格是缺少语料数据的约鲁巴语和马拉雅拉姆语)。

谷歌翻译处事均匀天天翻译 1500 亿个单词。

自谷歌翻译初次表态以来的 13 年里,神经古板翻译、基于重写的范式和设备端处理赏罚等技巧的显现和改造,助力该平台的翻译准确性取得不小的飞跃。但直到连年,即即是开始辈的翻译支撑算法也一向降伍于人类的示意。谷歌以外的全力充实申明白这个题目的严重性——旨在使得非洲大陆的数千种说话可主动翻译的 Masakhane 项目,至今还没有走出数据网络和转录阶段。Mozilla 致力于成立一个开源的语音转录数据网络平台 Common Voice,自 2017 年 6 月推出以来也只检察了 40 种语音。

谷歌称,它在翻译范围所取得的打破并不是由单一技巧驱动的,而是针对低资本说话、高资本说话、总体质量、耽搁和团体推理速率的多项技巧配合浸染产生的。在 2019 年 5 月到 2020 年 5 月之间,依照人工评估和 BLEU(基于翻译体系翻译和人工参考翻译之间类似性的权衡尺度),谷歌翻译在全体说话中均匀进步了 5 分以上,在 50 种语料资本起码的说话中均匀进步了 7 分以上。

ピ模子和数据挖掘器

这些技巧中的第一个是转换模子架构——一种ピ架构,包罗一个 Transformer 编码器和一个用 Lingvo 实现的递归神经收集 (RNN)解码器,后者是一个用于序列建模的 TensorFlow 框架。

在古板翻译中,编码器凡是将单词和短语编码为内部暗示形式,然后由解码器天生方针说话的文本。基于 Transformer 的模子是谷歌钻研职员在 2017 年初次提出的,在这一点上它比 RNN 更实用,但谷歌暗示,它的钻研表白,新材料的股票翻译质量的进步重要来自 Transformer 的一个部件 : 编码器。这也许是由于当然 RNN 和 Transformer 都是为处理赏罚有序的数据序列而计划的,但后者并不请求按次序处理赏罚数据序列。换句话说,如果涉及的数据是天然说话,Transformer 没必要先处理赏罚好句子的开头才处理赏罚句子的最后。

然而,RNN 解码器在推理时刻上如故比 Transformer 中的解码器要 “快得多”。谷歌翻译团队熟识到这一点,于是在将 RNN 解码器与 Transformer 编码器耦合之前,对 RNN 解码器举办了优化,以建设低耽搁、质量及不变性均比此前所行使的 RNN 神经古板翻译模子更胜一筹的ピ模子。原先行使的 RNN 神经古板翻译模子已有 4 年汗青。

2006 年上线不久以来,谷歌翻译模子各类说话的 BLEU 得分晋升趋势

除了打造新鲜的ピ模子架构之外,谷歌还进级了一个有几十年汗青的爬虫措施。该措施用来从文章、书本、文档和收集搜刮功效等内容中的数百万条示例翻译中体例实习语料。该新数据挖掘器基于支撑 14 个说话对的嵌入模式,而非基于辞书模式,也就是说它是行使实数向量来暗示单词和短语 , 更多地聚焦于正确性 (检索数据中的相关数据部门),而非检索(现实检索的相关数据总量)。产出结果方面,谷歌说这使得该数据挖掘器提取到的句子数目均匀增进了 29%。

噪声数据和迁徙进修

翻译机能晋升的另一来历是一种建模要领,它能更好地处理赏罚实习数据中的噪声。据调查,噪声数据 (含有大量没法精确领会或者表明的信息的数据)会伤害语料数据富厚的说话的翻译质量。以是,谷歌翻译团队陈设体系来给行使噪声数据实习的模子的示例打分,进而筛选出 “纯净”的数据。现实上,这些模子一最先基于全体的数据举办实习,然后慢慢基于更小、更纯净的数据子集举办实习,这种要领在人工智能钻研范围被称为课程进修。

应付资本较少的说话,谷歌在谷歌翻译中回收了一个回译机制,来强化并行实习数据,即说话中的每个句子都与其译文相配对。(古板翻译传统上依赖于源说话和方针说话成对句子的语料库的统计。)在该机制中,实习数据与合成的并行数据主动对齐,方针文本为天然说话,而源文本则由神经翻译模子天生。功效是,谷歌翻译充实操作更富厚的单语文本数据来实习模子,谷歌称这对进步翻译流通性出格有辅佐。

谷歌舆图自带的翻译成果

谷歌翻译此刻还回收 M4 建模要领,即用一个单一的巨型模子——M4——来在多种说话和英语之间举办翻译。(M4 最初是在客岁的一篇论文中提出的,该论文证实,在基于来自 100 多种说话的 250 亿对句子举办实习后,M4 进步了 30 多种低资本说话的翻译质量。)M4 建模让谷歌翻译中的迁徙进修成为也许,因而,通过基于法语、德语、西班牙语等高资本说话 (它们稀有十亿条并行示例语料)的实习得到的看法,可以利用于低资本说话的翻译,如约鲁巴语、信德语和夏威夷语 (它们只稀有万条示例)。

瞻望未来

谷歌称,自 2010 年以来,凭证 BLEU 尺度(满分 100 分,谷歌翻译程度每年最少进步 1 分,但主动化古板翻译的题目并没有获得办理。谷歌认可,纵然是它的加强模子,也会显现各类过错,如归并一种说话的差异方言,产生明明的字面翻译,以及在特定主题内容和非正式说话或者口语上示意糟糕等等。

这家科技巨头正想方想法来办理这一挑衅,包罗借助它的谷歌翻译社区。该游戏化项目招募自愿者来翻译单词和短语可能搜查翻译是否精确,借助他们来提坎坷资本说话的翻译质量。就在本年 2 月,团结新兴的古板进修技巧,该项目为谷歌翻译增进了对统共 7500 万人行使的五种说话的支撑,包罗基尼亚卢旺达语、奥里雅语、鞑靼语、土库曼语和维吾尔语。

谷歌并不是独逐一家找求真正通用的翻译器材的公司。2018 年 8 月,Facebook 发布了一种人工智能模子,该模子团结行使逐字翻译、说话模子和回译来逾越说话配对体系。近来,麻省理工学院计较机科学和人工智能尝试室的钻研职员也提出了一种无监视进修模子——一种从没有明晰标志或者分类的测试数据中进修的模子——它可以在没有直接的双语翻译数据的环境下在两种说话的文本之间举办翻译。

谷歌在一份声明中暗示,它 “很是感激”学术界和财宝界在古板翻译范围的钻研成绩,个中一些钻研为谷歌自身的项目带来了开导。 “通过团结操作和拓展近期的各类技巧前进,我们完成了谷歌翻译近来的改造。”  该公司说,“颠末此次进级,我们很孤高可以兴许提供相对连贯的主动翻译,哪怕是所支撑的 108 种说话中语料资本起码的一种说话。”

(责任编辑:)
------分隔线----------------------------
发表评论
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
评价:
表情:
用户名: 验证码:点击我更换图片
发布者资料
查看详细资料 发送留言 加为好友 用户等级: 注册时间:2020-07-10 05:07 最后登录:2020-07-10 05:07