燕乐存大神点评 | 卫报记者使用Torch-RNN自动生成文本——普通人也能玩深度学习

人工智能领域大神燕乐存点评卫报记者使用Torch-RNN自动生成文本

燕乐存大神点评 | 卫报记者使用Torch-RNN自动生成文本——普通人也能玩深度学习

如果深度学习变得和网络一样大,那就是时候进一步关注它了。

燕乐存大神点评 | 卫报记者使用Torch-RNN自动生成文本——普通人也能玩深度学习

Google DeepMind人工智能项目,AlphaGo,使用机器学习击败了它的人类对手,但这仅仅是个开端。图片:Ahn Young-joon/AP

世界在被机器学习重塑

世界正在慢慢的被机器学习重塑。我们不需要再教电脑如何去执行复杂的任务,如图像识别和文章翻译:相反,我们建立了一个让它们学会自主学习的系统。

“这不是魔术”Google一位资深的调研科学家Greg Corrado说道。“它只是一个工具,但它非常重要”

如今机器学习最有效的应用,被称为“深度学习(deep learning)”,在大量数据的基础上,建立一个称之为神经网络的复杂的数学结构。它的设计类似于人类大脑的工作方式,1930年时,第一次描绘它自己的神经网络。但只在最近的3,4年中,电脑才变得足够强大,去有效的使用它。

Corrado说他认为这是技术的一大改革,如因特网一样。“在因特网技术问世之前,如果你在计算机科学方面工作的话,网络是一群奇怪的人做的奇怪的事,现在呢,无论是工程师,软件开发员,产品设计员,还是CEO,他们都知到互联网连接如何塑造他们的产品,塑造市场,以及他们可能会建立的东西”

他说同样的转变正在机器学习中进行。“最终它会成为每个人都可以做一点的事情。他们不需要做细节方面的事,但需要了解"如果有这方面的数据可以学习的话,或许我们可以做到。”

Google自己在该想法的成就,是一个叫TensorFLow开源软件,它构建于可用的基础上,该公司的研究人员试图了解他们创造的强大模型,那些已经拥有它的工程师,将它瓶装起来,并用于图像分类或让人们通过声音进行搜索。

机器学习仍然是一个复杂的“野兽”,远离简化场合,除非有着强大的编程背景,不然你自己在神经网络方面能做的东西很少。但我想把Conrado的观点放入测试中:如果未来机器学习会变成了“每个人都可以做点什么”的事情,离这天还有多远?

Google领头分享研究成果,为了让机器学习走的更远

想法和研究的分享非常开放,是现在机器学习领域的一个好现象。Google开放TensorFlow给每个人使用时,写到:“通过分享我们认为世界上最好的机器学习工具箱,是希望创造一个开放的标准,以便交流研究想法并将机器学习应用于产品中。”它并不是孤立的:每一个主要的成就都可免费使用和建模,这意味着有可能通过一个笔记本和网络连接,建立一个简单的机器智能。这也正是我所做的。

跟随技术专家Robin Sloan的脚步,我在119mb的卫报负责人队列中训练了一个简单的神经网络。这并不容易,尽管有详细的说明书,我仍然发了数个小时将建立计算机到这个点,一个可以从文本语料库中开始学习的点。一旦到达这个点,我意识到我严重低估了机器学习所需要的时间。在运行该训练软件30分钟,进行到整个过程的1%时,我意识到我需要一个更快的计算机。所以我又发了几个小时在Amazon的云端学习配置服务器。一个小时需要发费$.70,这意味着整个进程需要在8个小时内完成。

我并不是唯一研究该技术的人,早在几年前,Google本身就经历了一次变型。从图片搜索到声音识别,大量的搜索击垮了其中一些最大服务,并且从根本上让它重生。现在,它想让剩下的世界跟上脚步。

6月16号,Google宣布在它的Zurich工程办公室新建了一个专门的机器学习团队,Zurich工程办公室是Google开发商在US最大的聚集地,为了在三方面领导研究:机器智能,神经语言处理,机器感知,Google建立了一个能够思考,倾听,和看见的系统。

但计算机科学家充分了解,如何争论神经网络,将其用于区分演讲或产生迷幻的图像时,他们没有意识到,所有的一切都是为了解它是如何实际工作的。Google DeepMind的部分工作,是研究一个非常著名的算法,它为什么,或者怎么变得如此优秀,该算法在古代亚洲围棋游戏中战胜了一个世界冠军。并且,新的机器学习团队跨着研究和产品发展的边线,试图建立一个可以应对前所未有挑战的新算法。

对于机器学习我也努力尝试,虽然效果不佳

我自己在这方面尝试的效果不理想,结果是不完美的。Google的机器学习解决了两年前我们称之为“几乎不可能”的问题时,我几乎都还不能将一个句子连在一起。

跟随Sloan的例子,我把模型设置成自动完成发动机。我能够写出理论卫报社论前面一半的句子,系统开始作为一个输入回馈它,并且问道下面它会怎么想。不喜欢这个?那就问它要其它的回答。

我尽量让它从平行宇宙阅读卫报编辑社论。使用“星期四在欧盟停留的重大投票是”作为出发点,并且尽量让系统去想象接下来的句子会是什么:

·星期四在欧盟停留的重大投票更黑暗在1970s

·星期四在欧盟停留的重大投票是一个合法反对的人在2015

·星期四在欧盟停留的重大投票是歧视和失败者的第一种方式,宣布政府不是一个单一的宪法保守政策。

·星期四在欧盟停留的重大投票是在宣言的承诺。

这太糟糕了,当然这也糟糕:如果我能训练机器写出一个令人说服的卫报社论,或者是从卫报中提取一个令人说服的句子,在两天中,复制说明书,摆弄复杂的软件—甚至在我成功之后仍然无法理解。然后,我工作的安全性会比它要小得多,每个人的工作都会比他们更不安全。

我并不是第一个摔倒在该障碍的人:在六月之前,Atlantic’s Adrienne LaFrance尝试了一个更小的实验,同样使用Sloan的配套原件,但由于她的语料库的大小而受到了阻碍。五千万的单词,是她从Atlabtic中写出的总数量,这不能完全满足机器学习,但在卫报中20m的设置写出了更好的社论。(我在每个实现的故事中运行系统,如果有一个一致的音调和风格——领导列,都写在纸的声音上,它学习的效果会更好)。
在同一时间,表面上的结果并不起眼,但,它是一种惊人的东西。我使用的包裹叫做Torch-rnn,它被设计用来训练特征级别的神经网络。也就是说,在训练之前,它甚至都不知道世界的概念,让它自己有一个具体的词汇或者理解英语语法。

现在,我有一个知道所有的这些事情模型。并且它会教自己大量的卫报社论。

它仍然无法真正的创造意义。这是有道理的:卫报社论对现实世界有意义 ,而不是作为在它自己权利内现有词汇的集合。所以为了适当的训练神经网络写出一篇卫报社论,你也要告诉它世界的信息,然后你会有更少的周末项目和更多的启动场地。

所以看到涉及“深度学习”启动场地的数量扶摇直上并不奇怪。过去的几年里,每一天我的收件箱中,都能看到一个或者两个,从“在线个人风格服务”,使用深度学习来给人们匹配服装,到“知识发现引擎”致力于在自己的游戏中击败Google。

2008的原型始于“x but on a phone”,2014的原型是“uber but for x”,今年是“doing x with machine learning”。Google似乎很乐意领路,不仅通过它们的产品,还通过制作剩余生态系统依靠的工具。

计算机的快速发展,将带动机器学习发展

但为什么是现在?Corrado有个答案。“在1980s和1990s就做了深度学习的数学研究,但直到现在,计算机运行仍然太慢了,我们不知道数学效果怎么样”

“计算机正变得更快更便宜的事实,是实现机器学习的因素这一”现在,你自己进行机器学习,就像是尝试通过手动编码的TCP/IP协议来上网。

但是这正在改变。它会变得更快,更简单,更有效,并且逐渐从只有工程师知道的东西,变成整个发展团队都知道的东西,然后整体技术产业化,最终到每个人。进行该过程时,它会改变很多其它的东西。

·AlphaGo 教会自己如何去赢,但是没有人类它将过时。

via:Google says machine learning is the future. So I tried it myself

雷锋网原创文章,未经授权禁止转载。详情见转载须知


燕乐存大神点评 | 卫报记者使用Torch-RNN自动生成文本——普通人也能玩深度学习

原创文章,作者:ItWorker,如若转载,请注明出处:https://blog.ytso.com/60426.html

(0)
上一篇 2021年8月10日 16:24
下一篇 2021年8月10日 16:25

相关推荐

发表回复

登录后才能评论