玛格丽特·米切尔 (Margaret Mitchell) 于 4 月在华盛顿州西雅图市
摄影师:Chona Kasinger/彭博社
雷锋网8月25日消息,谷歌Ethical AI人工智能伦理研究小组前负责人玛格丽特·米切尔(Margaret Mitchell)将加入人工智能创业公司Hugging Face,帮助企业开发确保其算法公平的工具。她因与他人合著的一篇重要论文引起争议而在今年2月被谷歌解雇。
Hugging Face有何吸引力?
Hugging Face 是一家总部位于纽约的聊天机器人初创服务商,专注于NLP技术,拥有大型的开源社区。尤其是在github上开源的自然语言处理,预训练模型库 Transformers,已被下载超过一百万次,github上超过24000个star。Transformers 提供了NLP领域大量state-of-art的预训练语言模型结构的模型和调用框架。
Transformers最早的名字叫做pytorch-pretrained-bert,推出于google BERT之后。顾名思义,它是基于pytorch对BERT的一种实现。pytorch框架上手简单,BERT模型性能卓越,集合了两者优点的pytorch-pretrained-bert吸引了大批的追随者和贡献者。
其后,在社区的努力下,GPT、GPT-2、Transformer-XL、XLNET、XLM等一批模型也被相继引入,整个家族愈发壮大,这个库更名为pytorch-transformers。
2019年6月Tensorflow2的beta版发布,Huggingface实现了TensorFlow 2.0和PyTorch模型之间的深层互操作性,可以在TF2.0/PyTorch框架之间随意迁移模型。之后也发布2.0版本,并更名为 transformers 。到目前为止,transformers 提供了超过100+种语言的,32种预训练语言模型。
Hugging Face维护着一个存储库,人们可以在储存库中共享AI模型并进行合作。这是一个开放源代码平台,目前已经有5000多家机构使用,其中包括谷歌、Facebook、和微软。米切尔计划在10月份启动,并将首先开发一套工具,以确保用于训练人工智能算法的数据集不存在偏见。目前用于“教导”模型如何进行预测或确定的数据集,通常因为原始数据的不完整会导致AI软件在女性、少数群体成员还有老年人中表现不佳。
米切尔和Hugging Face已经建立了关系,因为为了确保模型的公平性,Hugging Face建议工程师和科学家在发布项目时使用米切尔在谷歌开发的名为“Model Cards”的工具来评估人工智能系统,以揭示优缺点。Hugging Face首席执行官兼联合创始人克莱门特·德兰吉(Clement Delangue)表示,放在Hugging Face上的20000个项目中,约有四分之一使用了Model Cards工具。
Hugging Face 在其 50 人的员工中还有几位人工智能伦理专家,但 CEO 德兰格(Delangue )计划让所有员工对这项工作负责并努力。
德兰格表示:“我们不想建立一个辅助的人工智能伦理团队,而是真正让它成为公司的核心,并确保它真正融入每个人的工作。米切尔不会建立一个由少数人组成,只是偶尔提供咨询的团队。”
米切尔在一次采访中表示,在用软件评估人工智能系统方面,"要用非常严肃和积极的态度去工作。“这对我来说是一个非常好的机会,可以帮助模型构建者更好地理解他们正在构建的模型的危害和风险。”
米切尔在从谷歌离职后表示,她希望在一家规模较小的公司工作,这样可以从一开始就将人工智能伦理纳入在考虑内。她说,在Hugging Face中,“已经有很多基本的道德价值观”。“很明显,我不必强行插手或改进伦理流程。”
米切尔究竟为何被解雇?
米切尔的解雇源于谷歌人工智能伦理研究团队的动荡。去年,谷歌公司就解雇了该团队的另一位联合负责人蒂姆尼特·格布鲁(Timnit Gebru),原因是她拒绝撤回与米切尔等人共同撰写的一篇论文,这篇文章涉及到对谷歌技术的批评。Gebru离职后,作为团队剩余负责人的米切尔公开强烈批评谷歌及其管理层,指责谷歌未能认真对待对其人工智能产品的问题,以及解雇Gebru的做法,因为Gebru是人工智能研究领域为数不多的杰出黑人女性之一。谷歌则表示, Gebru 已辞职,Mitchell 违反了谷歌的行为准则和安全政策。
谷歌的员工对其处理此事的方式表示愤慨,今年早些时候,对十多名现任和前任员工以及人工智能学术研究人员的采访表明,在两年多的时间里谷歌的人工智能的工作,在处理骚扰、种族主义和性别歧视指控方式上一直陷于争议之中。
提到这篇论文,大致集中攻击了大规模语言模型(如BERT)的消极影响,而BERT模型是谷歌的王牌AI产品之一。
这篇论文名为《On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?》。
据了解,这篇论文基于其他研究人员的工作,参考了128篇学术文献,展示了自然语言处理的发展历史与大型语言模型的四大危害,呼吁对语言模型进行更深入的研究。
这四大危害包括:
1、训练大型AI模型会消耗大量能源;(训练一个BERT模型大约会产生1,438磅二氧化碳,相当于在纽约与旧金山之间的一次往返航班所产生的碳排放量。)
2、大型语言模型是基于大量文本进行训练,无法避免偏见的存在,包括那些涉及种族歧视的、具有性别歧视色彩的与其他虐待性的语言;
3、大型语言模型无法理解语言,但公司由于利益关系会加大这方面的投入,从而带来机会成本;
4、由于大型语言模型非常擅长模仿真实的人类语言,所以很容易被用来欺骗人类。
谷歌在许多基础研究上遥遥领先,这带来了大型语言模型的最新爆炸式增长。如果真的如论文所说大规模语言模型“危害大于利益”,而谷歌解雇一系列人员,那对这件事的态度也就不言而喻了。或许从这个角度就能理解米切尔加入Hugging Face的原因了。
(公众号:雷锋网(公众号:雷锋网))雷锋网
参考资料
https://www.bloomberg.com/news/articles/2021-08-24/fired-at-google-after-critical-work-ai-researcher-mitchell-to-join-hugging-face
。
原创文章,作者:ItWorker,如若转载,请注明出处:https://blog.ytso.com/139188.html