燕乐存大神点评 | 卫报记者使用Torch-RNN自动生成文本——普通人也能玩深度学习

人工智能领域大神燕乐存点评卫报记者使用Torch-RNN自动生成文本

如果深度学习变得和网络一样大，那就是时候进一步关注它了。

Google DeepMind人工智能项目，AlphaGo，使用机器学习击败了它的人类对手，但这仅仅是个开端。图片：Ahn Young-joon/AP

世界在被机器学习重塑

世界正在慢慢的被机器学习重塑。我们不需要再教电脑如何去执行复杂的任务，如图像识别和文章翻译：相反，我们建立了一个让它们学会自主学习的系统。

“这不是魔术”Google一位资深的调研科学家Greg Corrado说道。“它只是一个工具，但它非常重要”

如今机器学习最有效的应用,被称为“深度学习（deep learning)”，在大量数据的基础上，建立一个称之为神经网络的复杂的数学结构。它的设计类似于人类大脑的工作方式，1930年时，第一次描绘它自己的神经网络。但只在最近的3，4年中，电脑才变得足够强大，去有效的使用它。

Corrado说他认为这是技术的一大改革,如因特网一样。“在因特网技术问世之前，如果你在计算机科学方面工作的话，网络是一群奇怪的人做的奇怪的事，现在呢，无论是工程师，软件开发员，产品设计员，还是CEO，他们都知到互联网连接如何塑造他们的产品，塑造市场，以及他们可能会建立的东西”

他说同样的转变正在机器学习中进行。“最终它会成为每个人都可以做一点的事情。他们不需要做细节方面的事，但需要了解"如果有这方面的数据可以学习的话，或许我们可以做到。”

Google自己在该想法的成就，是一个叫TensorFLow开源软件，它构建于可用的基础上，该公司的研究人员试图了解他们创造的强大模型，那些已经拥有它的工程师，将它瓶装起来，并用于图像分类或让人们通过声音进行搜索。

机器学习仍然是一个复杂的“野兽”，远离简化场合，除非有着强大的编程背景，不然你自己在神经网络方面能做的东西很少。但我想把Conrado的观点放入测试中：如果未来机器学习会变成了“每个人都可以做点什么”的事情，离这天还有多远？

Google领头分享研究成果，为了让机器学习走的更远

想法和研究的分享非常开放，是现在机器学习领域的一个好现象。Google开放TensorFlow给每个人使用时，写到：“通过分享我们认为世界上最好的机器学习工具箱，是希望创造一个开放的标准，以便交流研究想法并将机器学习应用于产品中。”它并不是孤立的：每一个主要的成就都可免费使用和建模，这意味着有可能通过一个笔记本和网络连接，建立一个简单的机器智能。这也正是我所做的。

跟随技术专家Robin Sloan的脚步，我在119mb的卫报负责人队列中训练了一个简单的神经网络。这并不容易，尽管有详细的说明书，我仍然发了数个小时将建立计算机到这个点，一个可以从文本语料库中开始学习的点。一旦到达这个点，我意识到我严重低估了机器学习所需要的时间。在运行该训练软件30分钟，进行到整个过程的1%时，我意识到我需要一个更快的计算机。所以我又发了几个小时在Amazon的云端学习配置服务器。一个小时需要发费＄.70，这意味着整个进程需要在8个小时内完成。

我并不是唯一研究该技术的人，早在几年前，Google本身就经历了一次变型。从图片搜索到声音识别，大量的搜索击垮了其中一些最大服务，并且从根本上让它重生。现在，它想让剩下的世界跟上脚步。

6月16号，Google宣布在它的Zurich工程办公室新建了一个专门的机器学习团队，Zurich工程办公室是Google开发商在US最大的聚集地，为了在三方面领导研究：机器智能，神经语言处理，机器感知，Google建立了一个能够思考，倾听，和看见的系统。

但计算机科学家充分了解，如何争论神经网络，将其用于区分演讲或产生迷幻的图像时，他们没有意识到，所有的一切都是为了解它是如何实际工作的。Google DeepMind的部分工作，是研究一个非常著名的算法，它为什么，或者怎么变得如此优秀，该算法在古代亚洲围棋游戏中战胜了一个世界冠军。并且，新的机器学习团队跨着研究和产品发展的边线，试图建立一个可以应对前所未有挑战的新算法。

对于机器学习我也努力尝试，虽然效果不佳

我自己在这方面尝试的效果不理想，结果是不完美的。Google的机器学习解决了两年前我们称之为“几乎不可能”的问题时，我几乎都还不能将一个句子连在一起。

跟随Sloan的例子，我把模型设置成自动完成发动机。我能够写出理论卫报社论前面一半的句子，系统开始作为一个输入回馈它，并且问道下面它会怎么想。不喜欢这个？那就问它要其它的回答。

我尽量让它从平行宇宙阅读卫报编辑社论。使用“星期四在欧盟停留的重大投票是”作为出发点，并且尽量让系统去想象接下来的句子会是什么：

·星期四在欧盟停留的重大投票更黑暗在1970s

·星期四在欧盟停留的重大投票是一个合法反对的人在2015

·星期四在欧盟停留的重大投票是歧视和失败者的第一种方式，宣布政府不是一个单一的宪法保守政策。

·星期四在欧盟停留的重大投票是在宣言的承诺。

这太糟糕了，当然这也糟糕：如果我能训练机器写出一个令人说服的卫报社论，或者是从卫报中提取一个令人说服的句子，在两天中，复制说明书，摆弄复杂的软件—甚至在我成功之后仍然无法理解。然后，我工作的安全性会比它要小得多，每个人的工作都会比他们更不安全。

我并不是第一个摔倒在该障碍的人：在六月之前，Atlantic’s Adrienne LaFrance尝试了一个更小的实验，同样使用Sloan的配套原件，但由于她的语料库的大小而受到了阻碍。五千万的单词，是她从Atlabtic中写出的总数量，这不能完全满足机器学习，但在卫报中20m的设置写出了更好的社论。（我在每个实现的故事中运行系统，如果有一个一致的音调和风格——领导列，都写在纸的声音上，它学习的效果会更好）。
在同一时间，表面上的结果并不起眼，但，它是一种惊人的东西。我使用的包裹叫做Torch-rnn，它被设计用来训练特征级别的神经网络。也就是说，在训练之前，它甚至都不知道世界的概念，让它自己有一个具体的词汇或者理解英语语法。

现在，我有一个知道所有的这些事情模型。并且它会教自己大量的卫报社论。

它仍然无法真正的创造意义。这是有道理的：卫报社论对现实世界有意义，而不是作为在它自己权利内现有词汇的集合。所以为了适当的训练神经网络写出一篇卫报社论，你也要告诉它世界的信息，然后你会有更少的周末项目和更多的启动场地。

所以看到涉及“深度学习”启动场地的数量扶摇直上并不奇怪。过去的几年里，每一天我的收件箱中，都能看到一个或者两个，从“在线个人风格服务”，使用深度学习来给人们匹配服装，到“知识发现引擎”致力于在自己的游戏中击败Google。

2008的原型始于“x but on a phone”，2014的原型是“uber but for x”，今年是“doing x with machine learning”。Google似乎很乐意领路，不仅通过它们的产品，还通过制作剩余生态系统依靠的工具。

计算机的快速发展，将带动机器学习发展

但为什么是现在？Corrado有个答案。“在1980s和1990s就做了深度学习的数学研究，但直到现在，计算机运行仍然太慢了，我们不知道数学效果怎么样”

“计算机正变得更快更便宜的事实，是实现机器学习的因素这一”现在，你自己进行机器学习，就像是尝试通过手动编码的TCP/IP协议来上网。

但是这正在改变。它会变得更快，更简单，更有效，并且逐渐从只有工程师知道的东西，变成整个发展团队都知道的东西，然后整体技术产业化，最终到每个人。进行该过程时，它会改变很多其它的东西。

·AlphaGo 教会自己如何去赢，但是没有人类它将过时。

via：Google says machine learning is the future. So I tried it myself

雷锋网原创文章，未经授权禁止转载。详情见转载须知。

原创文章，作者：ItWorker，如若转载，请注明出处：https://blog.ytso.com/60426.html

燕乐存大神点评 | 卫报记者使用Torch-RNN自动生成文本——普通人也能玩深度学习

世界在被机器学习重塑

Google领头分享研究成果，为了让机器学习走的更远

对于机器学习我也努力尝试，虽然效果不佳

计算机的快速发展，将带动机器学习发展

相关推荐

发表回复