雷锋网 AI 科技评论按:从一个旁观者的角度看来,陈溪的履历无疑令人艳羡:从西安交通大学少年班一路至计算机系毕业,随后到卡耐基梅隆大学(CMU)商学院攻读硕士学位,一年后转到了 CMU 的机器学习系;五年博士毕业后,陈溪跟随人工智能泰斗、UC 伯克利教授 Michael I. Jordan 进行博士后研究;在这之后,他从西海岸横跨北美洲,于纽约大学任商学院助理教授。
机器学习专业出身的陈溪,美国研究生涯始于商学院的运筹学和统计学,在经历六年的机器学习研究后,如今又重回商学院。运筹学与机器学习之间,能产生怎样奇妙的化学反应?陈溪又是如何在这两门学科中寻求交叉平衡与科研创新的?雷锋网 AI 科技评论与陈溪博士进行了一次交流,了解了他在运筹学与机器学习之间的十年研究心得。
陈溪博士目前是纽约大学商学院助理教授,CMU 机器学习系博士,也曾跟随 Michael I. Jordan 做了为期一年多的博士后研究。同时,陈溪博士拿过 Google Faculty Research Award,Adobe Data Science Research Award, Alibaba Innovation Award,在 2017 年还获得了福布斯杂志全美 30 under 30 最有影响力的青年科学家提名。陈溪博士的主要研究领域为:机器学习、高维统计和运筹学。
图灵奖唯一华人得主姚期智院士曾如是强调学科交叉的重要性:「多学科交叉融合是信息技术发展的关键:当不同的学科、理论相互交叉结合,同时一种新技术达到成熟的时候,往往就会出现理论上的突破和技术上的创新。」
尤其在今天大数据的环境下,学科的交叉与融合愈发明显。作为一位在运筹学与机器学习领域都有过长期涉猎和学习的老师,陈溪博士对于这一观点具有极强的发言权。
陈溪的硕士第一年是在商学院度过的,现在看来,说是无心插柳也不为过。即使在进入机器学习系之后,陈溪博士仍然与运筹系的老师有着密切的合作;而在商学院任教后,他也能够迅速地融入商学院的文化。此外,这一年的学习也给陈溪博士带来了更多意想不到的收获。「我在 CMU 运筹系的第一年学习了非常多优化方面的知识,而这些算法后来成为了研究机器学习中非常重要的工具,用于进一步解决机器学习的问题。」
因为具备了不同学科的丰富背景,陈溪博士可以将很多机器学习中比较前沿的技术引入到商学院中,并用机器学习、大数据等新技术解决商学院的传统问题。
机器学习发展至今,研究者所解决或攻克的问题相对比较集中,即围绕视觉(检测、识别、分割)、语音(识别、合成)、自然语言处理(翻译、文本分析)等领域展开,而且有很多国内的创业公司也在研究上述问题。
但在陈溪博士看来,一些企业级服务,甚至可以说是商学院中的一些服务,如供应链、动态定价与推荐,在机器学习研究者中关注得还比较少。目前整个行业还缺乏同时具备这两个领域知识的人,即有机器学习的背景,又能了解商学院的核心问题,把机器学习的方法和技术引入商学院的传统领域中,并解决相应问题。
斯坦福前任商学院的院长 Garth Saloner 在 2016 年曾说过,「如果你是一个斯坦福 MBA 的学生,请赶快去工程学院,尽可能地学习 AI、深度学习和自动化的知识。就是现在。」在这些学生进入公司管理层后,他们需要更多地理解大数据知识和相应算法,才能对企业决策产生正面的影响。在陈溪博士看来,五年以前,整个商学院几乎没有计算机科学家的存在,MBA 的学生也缺乏相关的知识与背景。但近年来,一些美国高校开始招募一些机器学习人才进入商学院,用合适的术语和技术包装,用适于商学院学生理解的方式传递给他们。
在课程中,陈溪博士会融入一些机器学习的新案例,让商学院的同学们了解更多技术层面的知识。虽然在他看来,同学们虽然对计算机知识相对陌生,也缺乏相关的训练,但在当下背景下,意识到计算机学科重要性的学生们也拥有极强的求知欲。
在职业生涯的规划中,陈溪博士非常感谢他在博士后期间的导师 UC 伯克利教授 Michael I. Jordan。「和 Jordan 教授做研究,能充分地感受到他真的是一位大师。」首先,Jordan 教授给予了学生极大的研究自由度。在每周的交流中,Jordan 教授极少规定学生手上要做的项目,而是通过沟通热点及问题,启发学生主动思考;此外,Jordan 教授对于学生的职业发展寄予高度的关注和帮助,会花大量的时间帮助每一个博士后准备自己的 job talk,并且提供了诸如团队建设、项目基金申请等宝贵的经验。整个团队的氛围也非常融洽,每个人都具有充分的合作精神。在一年多的博士后经历中,陈溪博士不仅在众包分配研究中取得了相关进展,也懂得了为师之道,并且身体力行地应用到自己的教学过程中。在这个过程中,陈溪博士也明确了自己未来的研究方向。
陈溪博士目前的一个研究核心是从理论和实践两个角度,针对基于大规模在线数据的学习与决策展开研究。
在理论层面,陈溪博士主要研究的高维数据在统计推断与计算方面的内容,并把统计推断和随机优化做了有机的结合。
目前传统统计学中的数据基本上是静态的,而且是事先给定的,但这与实际的应用场景相去甚远。与传统统计学家相比不同的是,陈溪博士的研究更关心各种场景下海量高维数据的处理。「如果我们已经拥有一个用户很多的历史购买数据,那么它的 profile 已经是非常高维的;此外大量的数据在实际场景下都是动态产生的。」
这一场景会面临两个问题。一个是,如何在这种动态大规模高维数据场景下做统计推断;另一个是,当数据达到一定量级,在分布式场景下,如何在机器间的交互代价(communication cost)与推断效率中进行平衡,并考虑现实计算的各种规范(constraint)。
与机器学习科学家相比不同的是,机器学习更关心高维数据的估计和预测,而从陈溪博士的研究角度来看,他更关心的是推断(inference),即规划结果的「uncertainty」程度。
在实践层面,陈溪博士更多地考虑到了动态定价、动态推荐及众包分配方面的应用问题。「比如每个用户发起一个检索(search),那么数据会上传到服务器中,因为每天都会有无数的人在做检索操作,那么这便成为了一个大规模的用户数据,如何通过这些数据更好的服务于用户,比如进行精准的推荐。」
而杉数科技的成立,也正是机器学习与运筹学结合应用的一个产物。见证杉数科技成长的陈溪博士,从公司成立以来一直与几位创始人保持密切联系,一同探讨如何用机器学习服务国内更多的物流公司、电商公司。一方面,陈溪博士希望企业能将大家的知识转化成生产力;另一方面,企业产生的数据也会促进很多新的研究问题。
从一个学者的角度出发,陈溪博士仍对学术研究抱有一颗沉静之心。学术界有不少教授投身产业界,在更大的技术舞台上发挥才智,但整个大环境还是需要另一些老师静下心来理解算法的本质,才能创造出更多新的有价值的模型与方法。「比如神经网络调参,我们大家都知道,其实它需要大量的经验,有人说它就像一门艺术,而不是一门科学。那么如果我们能真正去理解它,可能以后我们不需要花这么多的时间去调参,而是可以用理论指导算法的设计,甚至对一些传统问题提出全新的想法。」相信在未来,我们能在运筹学与机器学习的交叉融合上,更多地看到全新的成果。
更多资讯敬请关注雷锋网(公众号:雷锋网) AI 科技评论。
。
原创文章,作者:ItWorker,如若转载,请注明出处:https://blog.ytso.com/134341.html