提起Jeremy Howard,人工智能和大数据领域的从业者们可谓无人不知无人不晓。
他是Enlitic、FastMail、Optimal Decisions Group三家科技公司的创始人兼CEO,是大数据竞赛平台Kaggle的前主席和首席科学家,是美国奇点大学(Singularity University)最年轻的教职工,是在2014达沃斯论坛上发表主题演讲的全球青年领袖,他在 TED 上的演讲《The wonderful and terrifying implications of computers that can learn》收获了近200万的点击…
显然,他是一个闲不住的人。为了让深度学习技术被更多的人理解和使用,Jeremy Howard近期又创立了一个名为 fast.ai 的技术分享平台。该平台不但免费提供关于深度学习技术的系列视频教程(例如由Jeremy Howard本人讲授的“Practical Deep Learning For Coders”),同时也可以直接帮助从业者和用户开发简单快捷的软件产品。近日,Jeremy Howard在采访中就 fast.ai、深度学习、Kaggle 和大数据等话题发表了自己的看法,以下为采访原文,由雷锋网编译。
问题1:能否为大家介绍一下您最近创立的fast.ai平台及其未来规划?还有就是“Practical Deep Learning For Coders”系列教程和一般的深度学习教程究竟有何不同?
网上有许多深度学习的课程,但我认为其中没有一个能满足我们目前最重要的需求。我们想向人们展示如何选择和使用最有效的深度学习技术来解决他们的特定问题。我们想让课程尽可能地容易接受,深入浅出,而不是把简单问题复杂化。
此前的教学方式要么需要深厚的数学积累(如牛津的课程),要么就跳过了基础性的讲解,试图直接用深度学习技术来解决高阶的问题(如Udacity的课程),这两种类型的教程显然都不是最好的。
从团队成员自身的科研经历中我们发现,虽然深度学习技术的确可以提供许多高水平的运算结果,但获得这些结果的过程其实是需要大量的细节处理的。通常情况下,处理这些细节问题的关键点并不会出现在相关的论文、书籍或者在线教程中,而是直接在从业人员之间通过口头交流和讨论的方式分享。同时我们还发现了一些这种讨论的局限性,例如很少见到从业者们讨论诸如:“如何在最合理的时间内训练模型”、“如何最合理地规划科研经费的使用”,这类非常现实的问题。
实际上,通过一些科研经历和项目,我们发现目前最需要教授的内容其实是迁移学习。即如何基于已经在大数据集上训练完成的现有模型,找到一个最有利的分析起始点。如何利用迁移学习提高训练的效率,提供更精准的模型,以及减少数据的使用量。
我们的思路是:教授实用的东西。在fast.ai的平台上,我们将通过系列课程为大家分享那些我们在工程实践中真正使用过,并证明有效的东西,而不仅仅是那些理论上的定义和公式。据许多开发者反映,通过学习fast.ai提供的深度学习慕课,他们已经大大提高了模型的准确性和训练效率,这似乎能证明我们的思路是正确的。
问题2:在fast.ai之前,2014年您还创办过一家名为Enlitic的科技公司,主要的研究方向是利用深度学习的技术帮助放射科的医生更快更准确地进行医学诊断。我想问一下这方面Enlitic取得了怎样的成绩?和受过专业训练的放射科医生相比,Enlitic的技术究竟表现如何?
我并不知道最近的情况,因为已经好几个月没去过Enlitic了。但通过此前在Enlitic的研发经历,我认为深度学习技术在未来医疗领域的发展潜力是很大的。而且最重要的是,这方面的研究可以挽救病人的生命,降低发展中国家的医疗成本,这需要我们投入巨大的努力。
雷锋网注:据悉尼先驱晨报的报道,Enlitic凭借深度学习技术超越了4位顶级的放射科医生,包括诊断出了人类医生无法诊断出的7%的癌症,以及在人类医生高达66%的癌症误诊率的情况下,Enlitic的误诊率只有47%。
问题3:将Enlitic和其他一些类似的自动化诊断技术应用在医疗保健领域的具体障碍都有哪些?
最大的障碍之一是缺乏完整的数据集,即大量病人在一段时间内进行各种医学测试、医学干预,以及医疗效果的综合性的数据集。只有基于这样的大规模的完整的数据集,我们才可以建立精准的深度学习模型,提供基于实际医疗效果的诊断和治疗建议,而不是简单的初级的诊断猜测。
另一个障碍是缺乏在这一领域工作的数据科学家。让我感到惊讶的是,目前有大量的杰出科学家投身于相对影响力较低的领域,比如广告技术、产品建议和社交网络。同时,目前有大量的深度学习研究人员都聚焦于如何“构建大脑”,而不是利用技术解决当前人类面对的实际问题。
另一个出人意料的障碍是,医学领域太细分太专业了,这造成我们的科研成果或许能适用于某一科室,但却很难在更一般的医疗问题上提供有效的建议。因此,传统医学的细分和专业化也是障碍之一。
问题4:作为前冠军选手和专家,您在Kaggle的最大收获是什么?另外,对于Kaggle的参赛选手您有哪些想说的?
我在比赛中的经历就是最大的收获,实际上,我在比赛过程中学到的那些机器学习的相关知识加起来比此前20年学到的都多。而且,在过去的几个月中,为了准备fast.ai的相关课程,我又深入研究了几个Kaggle的数据集,在这个过程中我也收获了很多快乐。此外,在Kaggle的比赛中看到一些团队凭借深度学习领域的最新研究成果获得好成绩,也是一件令人快慰的事。
对于那些希望在Kaggle比赛中提高排名的参赛者,和其他一些希望提高他们专业技能的机器学习从业者,我的建议很简单:每天向竞赛组委会提交作品。
在理想情况下,请每天至少花费30分钟在你要提交的作品上,值得强调的是:即使只花5分钟时间调整一些参数,也比什么也不做要好。因为如果你坚持每天都提交作品,每天都在思考和实践,那么在比赛结束时一定比其他人收获更多,另外,及时将收获以博客的形式分享出来也是一个值得提倡的好习惯。因为在实际的工作环境中,其实很少有机会处理这些严格定义的数据集,当然,跟世界顶级的数据科学家们一起做基准测试的机会也就更少了。
问题5:随着数据科学不断向着自动化分析的方向发展,您认为在未来5年中,数据科学家们应该关注哪些技能,才不至于被某种高级算法替代?
实际上,我希望在未来几年中,数据科学家的作用将越来越小,同时看到数据科学被纳入其他更多的职业之中,例如医疗专家、律师和物流经理等。因此,我认为数据科学家们应该了解一个行业是如何创造价值的,不同的行业是如何协同工作的,以及一个行业的内部组织架构师怎样的。最重要的是,数据科学家们应该找到某种方法来严格测试自己在相关领域的工作影响力,并与这一领域的专家合作,通过各种手段来增加自己的影响力。
其实,我也无法确定当前的哪些核心技术在5年后依然重要,但我认为,最关键的能力其实在于如何适应和学习。
问题6:您觉得深度学习技术在未来5年能达到怎样的高度?深度学习会在每个领域都超越人类么?还是在某些领域人类将永远保持领先?
我认为目前还很难找到深度学习的极限,我们也不知道深度学习需要多长时间才能超越人类。但从目前的发展来看,每次我看到有人试图用深度学习技术来改善他们面对的特定问题时,似乎都能获得成功。例如,有一位医学博士候选人告诉我,通过在项目中应用5个小时深度学习技术取得的科研成果,已经大大超过了他此前5年的研究成果!
在艺术和创造性的领域,人类将永远保持领先,因为人类更专注于观察他人的表现。
问题7:您是奇点大学(Singularity University)最年轻的教职工,请问您在那里的具体岗位是什么?还有,您对所谓的人工智能发展的奇点(singularity)怎么看?
其实,我不认为我现在是年龄最小的了。我在奇点大学教授数据科学相关的课程。每年我最重要的工作之一就是在“全球解决方案计划”(Global Solutions Program)中教书。80位全球最聪明和最富有热情的科学家们每年都会聚在一起,探讨如何解决人类目前面对的最迫切的问题,我很幸运的有机会指导他们如何将数据科学的技术融入其中。
其实奇点大学不是一所传统意义上的大学,更与所谓的人工智能的奇点无关。实际上,我并不知道是否会有技术发展上的奇点,也不知道什么人可以声称他们看到了奇点的发生。
问题8:如果可以的话,您能否就离开Kaggle和Enlitic这一问题发表一些看法?
离开Kaggle并非一个艰难的决定,因为我从来都没打算真正入职Kaggle,而只是想做一名志愿者去帮忙。但令人意想不到的是Kaggle后来融到了很多钱,因此我只好以全职员工的身份加入。后来,Kaggle决定将100%的精力集中在石油天然气的数据分析业务上,我并不认同他们的做法,因此就离开了。由于我此前主要的研究方向是如何利用深度学习技术解决一些实际的社会问题,所以后来就进入了医疗信息领域。
离开Enlitic则要艰难的多。最初是由于家人健康的原因,我离开了Enlitic一年。一年后当我重返公司时,我发现这时的Enlitic已经不是我当前创立的样子了,Enlitic变成了一家营业额高于科技研发的公司。其实在创办Enlitic之前,我就曾思考过一个问题:改变医疗行业的最佳途径到底是什么?是通过进入学术界进行前沿的学术研究,还是创办一家成功的医疗科技公司?我当时的思考结果是创办公司。但从Enlitic的经历我认识到,面对需要消耗大量经费和基础性研究的领域,创办以外部融资为主要生存手段的创业公司并非一个明智的选择。因为来自投资者和公司员工的压力太大,他们都迫切地希望公司的股价一路高涨。
话虽如此,但我仍然不确定进入学术界是否是一个更好的选择,但我仍觉得值得一试。这也是为什么我和好朋友Rachel Thomas一起创办了不靠外部融资生存的学术分享平台fast.ai。
问题9:您业余时间都喜欢做什么?有推荐的书目么?
我最喜欢业余时间和女儿一起玩,喜欢她对所有事物都充满了好奇和兴趣。阅读方面,我花了非常多的时间来阅读深度学习相关的论文和参考文献,因此没有时间阅读其他的东西,而且除了深度学习,我也很难找到其他什么东西能引起我的阅读兴趣。话虽如此,我有时候也会在晚上听一些轻松的有声读物,最近在听PG Wodehouse。
来源:kdnuggets,雷锋网(公众号:雷锋网)编译
雷锋网版权文章,未经授权禁止转载。详情见。
原创文章,作者:奋斗,如若转载,请注明出处:https://blog.ytso.com/67024.html