人工智能颠覆下的科学与科学家

作者：王大顺 / 艾伯特-拉斯洛・巴拉巴西

“刚才发生了什么”

2018 年 12 月 2 日，CASP 会场上弥漫着一种困惑的气氛。CASP 是结构预测关键评价（Critical Assessment of Structure Prediction）的缩写，它是一项两年一度旨在预测蛋白质 3D 结构的竞赛。预测蛋白质的形状可以让我们更好地理解它在细胞中的作用，以及诊断和治疗由于蛋白质错误折叠引发的阿尔茨海默病、帕金森病、亨廷顿病和囊肿性纤维化等疾病。但是，蛋白质如何把其很长的氨基酸链折叠为紧致的 3D 形状依然是生物学中最重要的未解问题之一。

CASP 成立于 1994 年，被称作蛋白质折叠领域的肯塔基德比马赛。每隔两年，这个领域的顶尖研究小组就会参加这一“赛马”盛会，比较各自的最佳方法，为整个领域建立新的基准。然后，研究人员就回到各自的实验室，研究他人的方法，改进和发展自己的方法，以期在两年后赛出好成绩。

在 2018 年的会议上发生了两件非同寻常的事情。首先，正如组织者所言，“计算方法在预测蛋白质结构的能力上取得了无与伦比的进步”。客观来说，这场竞赛取得的进步大体相当于通常需要两次竞赛才能取得的进步。其次，这一巨大飞跃并非是由该领域的科学家完成的。获胜的团队对于大家而言是完全陌生的。

过去几年，人工智能在许多领域内都系统性地超越了人类专家，2018 年的 CASP 竞赛结果只是其中一个例子。这些进展已经促成一种共识：正在发生的人工智能革命将会改变几乎每一个行业，创造巨大的社会和经济机会以及同样多的挑战。整个社会都将要面对人工智能时代的到来，它们也许会超越甚至取代人类医生、司机、士兵和银行业者。我们需要问的是：人工智能将会如何影响科学？这些改变对科学家又意味着什么？

这波人工智能浪潮有什么不同

当前人工智能革命的核心技术是深度学习，更为专业的叫法是深度神经网络。尽管人工智能专家对于许多事情都还没有形成共识，包括这一领域究竟是应该被称作“人工智能”还是“机器学习”，但是学术圈内外都意识到这确实是“下一个大事件”。

深度学习确实有效，这一点应该说已经得到了验证。2012 年以来，深度学习已经在多到让我们难以记录的领域内击败原有的机器学习方法。这些进展无疑已经改变了图像与语音识别、问答系统和机器翻译等典型的计算机科学领域。深度神经网络也在其他更广泛的领域突破了原有的记录，这些领域包括药物活性预测、粒子加速器数据分析、大脑回路重构以及基因突变和表达的预测。

最为重要的是，这并非渐进式的改善，而是性能上的跳跃性提升。2012 年，深度学习在 ImageNet 挑战赛首次惊艳亮相，这一赛事是图像目标识别领域的旗舰性年度竞赛。与当时最好的其他方法相比，深度学习方法的误差率几乎减小了一半。此后，深度学习算法的性能快速逼近人类水平。在围棋和日本将旗等策略游戏、强调合作的多人电子游戏和经常要虚张声势的得州扑克游戏等场景中，深度学习的表现甚至已经超越了人类专家。深度学习在 2018 年的 CASP 会议上的表现为它又赢得了一枚超越人类表现的奖章：它在预测蛋白质的 3D 结构方面打败了所有的科学家。

简而言之，人工智能帮助我们发现数据中那些隐含的、不确定的模式和结构。这些模式对于人类而言是易于发现的（例如，在一幅图像中，猫的位置），但是对于计算机而言一直是很困难的。更为精确的表述是，人们通常难以把这类任务转换为计算机任务，而人工智能让机器可以用一种奇特的方式自己来做这种转换。

尽管人工智能浪潮席卷全球，近期的主要进展其实都有赖于一个方法：监督学习。该方法要求只给算法提供两组信息：大量的输入，也被称作“训练数据”以及为了给输入分类所用到的清晰的指令（“标记”）。例如，如果目标是识别垃圾邮件，那么就给算法提供数百万的邮件并告知其中每个邮件是否是垃圾邮件。然后算法就会仔细检查数据以确定垃圾邮件的特征。在这一学习任务完成后，如果给算法输入一封新邮件，算法就会告诉你该邮件是否看上去是垃圾邮件。

深度学习的魔力在于它无须人工输入就能找出数据的最佳表示方式，这是因为它包含许多中间层，并且其中的每一层都会根据标记给出数据的一种表示和转换方式。只要层数足够多，深度神经网络就有可能很好地揭示隐藏在数据中的极为错综复杂的结构或模式。更值得注意的是，深度神经网络完全是靠自己发现这些模式的。我们可以把深度神经网络具有不同层想象为它拥有了能够调节数百万旋钮的灵活性。只要给系统提供指引清晰且足够多的数据，它就能够自动调节所有的旋钮以找出表示数据的最佳方式。

当前的人工智能与以往有什么不同？毕竟 20 多年前 IBM 的国际象棋程序深蓝（Deep Blue）就击败了当时的世界冠军卡斯帕罗夫（Garry Kasparov）。过去的人工智能依赖的是缺乏智能的精细计算。深蓝击败卡斯帕罗夫是因为它每秒可以估测 2 亿个位置，从而预判哪一步最有可能获胜。这种人工智能在面对围棋和蛋白质折叠这类更为复杂的游戏时就无能为力了，因为它无法处理所有的可能性。

然而，深度学习却在这些领域取得了巨大的成功。2016 年，DeepMind 研究团队设计的 AlphaGo 在 5 轮比赛中击败了围棋世界冠军李世石。它取得胜利并非靠评估每一种可能的走法，而是靠研究人类棋手完成的棋局以学习何种走法有可能获胜或失败。

但是，既然机器系统已经能够向自身学习，那么为什么还要向人类学习呢？这也正是深度学习真正有趣的地方。仅仅在 AlphaGo 战胜人类棋手一年之后，DeepMind 就研发出了 AlphaZero，其厉害之处在于它只知道围棋规则而没有任何先验知识和数据输入。换句话说，它是真正从零开始，通过不停地与自己对弈而自学成才。AlphaZero 既是围棋大师，也是国际象棋和日本将棋大师，它击败了所有的人类棋手和计算机程序。

最为重要的是，由于 AlphaZero 没有学习人类棋手的对局，它的下法也与人类棋手不同。它更像一个外星人，展示了一种人类大师以前从未见过的直觉和见解。围棋世界冠军柯洁甚至感叹人工智能就像“上帝”一样在下棋。确实，它的那些复杂而又优美的下法都没有依靠人类知识。而且 AlphaZero 是以超人类的速度习得这一技艺的：只需 4 小时的国际象棋训练和 8 小时的围棋训练，它的能力就能超过已有的最好程序。

再想想那些数字。我们把变化最多也是研究最多的人类游戏的规则告知人工智能算法，算法自己只是基于规则和棋盘就学会了下棋的策略。像所有的初学者一样，它在一开始也会犯各种愚蠢的错误。但是当你回过神来再去看的时候，它已经是史上最佳棋手了。

如果深度学习能够在人类自己的棋盘游戏上击败人类，对于复杂问题找到先前想象不到的答案，那么它将会如何影响致力于促进创新的科学呢？

更智能的人工智能，更多的创造性创新

人工智能可通过两种主要的途径影响我们从事科学的方式。一种方式类似于谷歌对互联网的影响：人工智能将会极大地改进信息的获取，优化科学的各个方面，包括从信息获取到科学家目前所从事的许多过程的自动化。这是一种理想的情形，因为大多数科学家都期望能够实现日常工作的自动化，从而可以聚焦于创造性的活动。另一种途径更像 AlphaGo 对围棋的影响：人工智能系统能够对于复杂问题快速给出创造性的答案。人工智能也许有一天会在反乌托邦式的世界里取代我们这些科学家，以一种我们今天难以想象的速度和精度推动科学进步。

组织信息

人工智能已经推动了现代社会的许多方面。每次你在谷歌搜索中输入一个搜索查询，人工智能就会在万维网上查找并猜测你的真实需求。当你打开脸书应用的时候，人工智能会决定把哪个朋友的更新首先呈现给你。当你在亚马逊上购物时，人工智能会给你推荐一些你可能会喜欢的商品，尽管这些商品在你的购物车中从未出现过。我们周边的设备中也出现越来越多的人工智能。当你拿着智能手机拍照时，人工智能会自动圈住面部并调整焦距以获得最佳效果。当你对 Siri、Alexa 和 Cortana 这样的“个人助理”说话时，需要人工智能把你说的话转换为文字。

科学的哪些方面能够由这类人工智能加以扩展？首先，我们应该都清楚，现在发表的文献的数量已经多到无法全部追踪。人工智能能否给出个性化的论文阅读推荐？人工智能能否连贯地总结这些文章的内容摘要，提取与我们相关的关键发现，生成该领域关键进展的快报风格的文摘？人工智能这些新的能力将帮助研究人员扩展他们获得知识的深度和质量，并帮助他们发现新的研究可能性。

对于科学领域的决策者而言，人工智能能够提供更为全面的“天际线扫描”能力，提出战略投资的领域，识别出有可能带来科学变革的想法，甚至组建变革性的科研团队。出版商也可以使用深度学习找到论文的审稿人，或者自动识别论文中的错误和矛盾，从而减少人工评审的负担。

其中的一些应用看上去遥不可及，特别是如果我们想要达到科学家和决策者所期望的精度和可靠性的话。但是，真实情况是，尽管技术已经在过去 20 年极大地重塑了人类社会，但可以促进科学过程的技术却未有实质性进展。如果你对此表示怀疑的话，你可以看看“美国国家自然科学基金会”的项目提交页面，或者是 ScholarOne 论文投审稿系统，它们看上去还像是当初互联网发展初期的那些早已过时的网站。

求解科学问题

人工智能有一天能否帮助我们提出和求解基本的科学问题？通过以单个科学家根本无法实现的方式整合各种信息，人工智能系统能否帮助科学家更快地得到更具创造性的、更好的解答？它是否也能提出新的假设，甚至新的研究领域？

我们已经在这方面看到了一些令人鼓舞的早期进展。例如，研究人员已经把深度学习用于医学诊断，开发出各种视网膜病变的分类算法，其精度已经与人类专家相当。另一个例子是，一个经过训练的人工智能算法对良性和恶性皮肤病的分类精度，已经达到经专业认证的皮肤病医生的水准。在急诊室里，深度学习现在可以帮助我们判定一个病人的 CT 扫描是否显示他有中风的迹象。新的人工智能算法不仅使识别这些信号的精度可以媲美医学专家，更为重要的是，它的速度是人类的 150 倍！

当然，还有让 CASP 与会人员充满敬畏的 AlphaFold 深度学习系统。在 CASP 竞赛中，每个参赛队伍拿到的是 90 个蛋白质的氨基酸的线性序列，这些蛋白质的 3D 形状已知但是没有公开发表。参赛队伍要计算出蛋白质是如何折叠的。通过筛选过去已知的蛋白质折叠模式，AlphaFold 的平均预测精度超过了所有其他 97 支参赛队伍。

这些人工智能技术的成功运用都具备了深度学习的两个基本要素：大量的训练数据和清晰的分类方式。例如，为了检测皮肤癌，研究人员给算法输入数百万的皮肤病变的图像，并告知算法每一幅图像对应的是良性还是恶性病变。由于算法与皮肤病专家所受的训练是不一样的，算法也许看不到皮肤病专家所看到的一些模式，但这也意味着，人工智能系统也可能看到一些皮肤病专家所看不到的模式。

哪些科学领域能从这些进展中收益最多呢？我们还是再看看深度学习的两个基本要素：大量的数据以及可用于标记数据的清晰边界。这意味着那些最能从人工智能技术直接受益的科学领域需要足够的窄，从而能够有清晰的数据标记策略。这些领域还要足够的深，使得人工智能系统以科学家无法做到的方式看到所有的数据以发现新的结果。

最为重要的是，尽管机器正在快速改进精度和效率，但科学最为激动人心的未来既不属于人类也不属于机器，而是有赖于两者之间的战略伙伴关系。

人工智能与人类智能

我们再来看一下 AlphaFold。通过采用新技术，科学家在没有专门知识和专业领域训练的情况下，就能够超越该领域基于传统技术的所有专家。这个例子提出了一个重要的问题：如果把最新的技术与研究人员的专业技能结合起来会如何？

未来科学学研究的一个关键领域就涉及人工智能的集成，从而使得机器和人脑能够协同工作。我们期盼人工智能能够以一种人类合作者无法达到的能力扩展科学家的认知，而这将会给科学带来深远的影响。

我们想到了一个近期的例子。为了应对科学目前所面对的“可重复性危机”的挑战，研究人员使用深度学习来揭示科学论文表述中，表征强科学发现和弱科学发现的模式。2015 年，“可重复性项目：心理学”（RPP）分析了顶尖心理学期刊上的 100 篇论文，使用与论文原始研究一样的方法人工检测了其可重复性，结果发现其中有 61 篇未能通过可重复性检测。此后，在心理学、经济学、金融学和医学等领域的研究也得到了类似的结果。

为此，研究人员把人工智能与人类智能相结合以估算可重复性。研究人员使用经过严格的人工可重复性检测的 96 项研究，用它们来训练神经网络去估测一篇论文的可重复性的概率，并使用 249 项其他研究来检测训练后的模型的泛化能力。结果是激动人心的：该模型的平均曲线下面积（AUC）达到 0.72，表明其预测精度显著高于完全随机的推断。为了把这一结果与专业评审人所提供的预测信息进行比较，研究人员用同样的数据和训练过程来训练一个新的人工智能模型，但是只使用评审人的评价指标，发现这一基于评审人指标的模型的 AUC 只有 0.68，表明其预测精度显著低于基于内容表述的模型。这些研究表明人工智能依赖于专业评审人未掌握的特征信息。事实上，尽管人们通常基于论文中的统计报告评价其价值，人工智能则更为精确地表明，论文中的表述文本事实上具有更多人们以前没有挖掘的解释能力。极为重要的是，把从表述模型和评审人指标模型所得到的信息相结合，也就是说，把机器和人类见解相结合，就可以得到具有最高精度的新的人工智能模型（AUC=0.74）。

对模型预测能力背后的机制进行分析，我们发现那些显而易见的因素，诸如单词或短语的出现频率、写作风格、学科、期刊、作者身份或主题等，并不能解释结果。而人工智能系统是基于复杂的语义关系网络来预测可重复性的。尽管科学论文中的文字要比其汇报的统计信息多出几个数量级，论文的文本在科学学研究中至今还几乎没有被发掘。算法现在可以利用论文的全文来检测人类专家可能忽视的一些新模式以及证据不那么强的科学发现。

这个例子凸显了一种新型的，并且也许是可怕的人机伙伴关系。尽管机器比人更善于阅读并消化更多的信息，当前的人工智能应用还是属于“弱人工智能”，它们只能处理特定的问题。从这点来看，目前的人工智能系统很像洗衣机。它们可以洗涤你扔进去的任何衣服，却完全不知如何清洗碗碟。你需要用洗碗机完成后一任务。类似的，我们能够建造特别擅长预测蛋白质折叠的人工智能系统，但该系统却不能做任何别的事情。相反地，人类具有学习、推理以及机器没有的创造性思维能力。

诺贝尔物理学奖得主弗兰克・维尔泽克（Frank Wilczek）有一个著名的预测，100 年后最好的物理学家将会是机器。类似于 AlphaFold 这样的进展给这一预测带来一丝曙光。但是这一预测也过于简化了：科学不仅只是求解明确定义的问题。最令人尊敬的科学家往往是那些提出新问题和开辟新的研究领域的人，那些意识到工具和知识的累积已经足以使突破性的发现应运而生的人。这让大众意识到进入这些新领域并迎接所带来的挑战的时机已经成熟。因此，科学不仅是关于问题求解，它也是关于直觉、发现新前沿的能力，前往前沿的勇气以及领导力。

人工智能在求解人类提出的问题方面已经取得巨大进展。它甚至还有可能在现有知识和范式的框架内形成新的假说。人工智能有一天是否会发展到这种地步：它感受到了创造一个新理论的必要，比如进化论或量子力学，然后孜孜不倦地为之奋斗？目前而言，还看不出人工智能具有这种能力，许多人工智能专家甚至怀疑人工智能是否存在这种可能。因此，我们现在还难以宣称机器会在未来掌握科学的主导权。未来最为激动人心的发现需要人机之间的战略合作。的确，如果我们基于各自的能力分配任务，科学家与机器的协同工作有可能极大推动科学进步，减少人类的盲点，并在此过程中革新科学的实践。

但是，我们需要意识到，当前人工智能的一个主要缺陷在于它是个黑箱。它确实表现很好，但是没有人知道原因 —— 这可能是一个大问题，特别是在科学中。考虑一下亚马逊采用人工智能挑选雇员这个案例。亚马逊从 2014 年开始采用计算机算法来评审应聘者的简历。这一实验性的人工智能工具用 1 星到 5 星给应聘者打分，很像消费者给亚马逊上的商品做星级评价。乍看起来，这像是人力资源部门的福音。你给它 100 份简历，它立刻告诉你排在前 5 位的应聘者。但是，公司很快就意识到这个新算法对女性应聘者的歧视。这个算法是用公司 10 年间所收到的简历来训练的，而那些简历绝大部分来自男性。因此，算法很快就学习到要向男性应聘者倾斜，而对包含“女性”一词的简历扣分，并降低了两所女子学院毕业生的等级。

这一案例并非意味着人工智能不能正确处理事情，毕竟，人工智能系统严格执行了它受训来完成的工作。我们让它查看数百万份以前的简历，其中包括了拒掉的和录用的人，并使用这一信息以发现未来的雇员。亚马逊的失败其实表明，随着我们的工具的精度和复杂性的增加，它们会放大并进一步固化人类已有的偏差。这意味着随着科学学的进展，人们需要更好地理解我们所建立的工具和计量指标中的偏差以及因果关系。

—— 本文节选自《给科学家的科学思维》，王大顺 / 艾伯特-拉斯洛・巴拉巴西著；2021 年 12 月，湛庐文化出品

原创文章，作者：506227337，如若转载，请注明出处：https://blog.ytso.com/216230.html