当学生遇到iPIN数据科学家 | 在线问答

大数据这个词我们听得太多了，可是很少有人意识到，随着互联网的发展，今时今日的这些“大”字究竟已经意味着一种什么样的量级。除去少数哗众取宠的使用这个词的公司外，那些真正拥有大数据的企业，经手和处理的都是一些普通人可能穷极一生也接触不到的数字：微信朋友圈每天会上传10亿张图片，支付宝日交易额峰值超过200亿元人民币，京东每天上传几百万张新的商品信息图……

这些数字对于急需数据训练的人工智能算法来说是莫大的好消息。也意味着数据对于人工智能的重要性正在随着计算能力、算法的发展而呈直线上升。但是怎么在浩如烟海的数据中筛选出对我们真正有用的那些？又如何通过分析这些数据做出对自身有利的决策？这就是数据科学家们做的事了。

本期硬创公开课，我们邀请到了iPIN的首席科学家潘嵘，他于2004年底获得中山大学理学博士学位后，分别于2005年2月~2007年8月在香港科技大学，以及2007年8月~2009年9月在美国惠普实验室，进行数据挖掘、人工智能等方面的研究。2009年10月通过百人计划进入中山大学，任职于计算机系。2014年起任iPIN首席科学家。

以下是AI科技评论君为大家整理的学生问答环节。

学生小十六：数据挖掘目前不是一个定义清晰的学科，如果选了这个方向，应该必修什么课程？选修什么课程？

潘嵘：必修：（前置课程有程序设计、数据结构与算法、组成原理、计算机网络等）数据库、概率与统计、机器学习与模式识别。

选修：GPU/并行计算、数据仓库、数据可视化、深度学习、商业智能（BI）、群体智能（CI），一些面向不同应用领域的课程，例如：信息检索、NLP、语音、图像方面。

学生jason：潘老师，我是会计在读博士，到研究方向有点偏金融和机器学习的应用。不知道老师您觉得未来的应用场景有哪些吗？

潘嵘：推荐系统是一个应用性极强的问题，我建议你最好先有足够多的数据再开始，最好是有合作的企业，这应该是一个未来很有前景的方向。

学生小十六：想请问潘老师，如果想学习做一个简单但是结构完整的推荐（功能）系统，应该如何一步步进行？主要需要考虑哪些变量因素，采集哪些数据，运用什么算法手段，如何建模和可视化？

潘嵘：不同的推荐问题，数据、建模可能都很不一样。

学生椰咯斯大O.O：老师，如果个人爱好者想学数据挖掘，个人PC机的性能够用吗？如何解决训练数据来源的问题呢？

潘嵘：对于入门来说，个人PC基本是够的，除非你要研究深度学习。

学生YM：你们有没有遇到模型在source domain表现很好，在跟source domain相似的target domain表现不好的情况？有没有什么unsupervised或者semi-supervised的方式针对target domain进行模型调整的方法推荐？

潘嵘：这是经常会发生的情况，可以参考杨强老师在迁移学习方面的工作。

学生Adam.K：潘老师，请问你对最近很火的对抗式生成网络怎么看，这在NLP领域有什么启发吗？

潘嵘：我是蛮感兴趣的，GAN说得挺神奇的，我们目前还有把他应用在NLP领域，但是也非常期待我觉得GAN还是有些东西没有突破，应该是有机会的。

雷锋网原创文章，未经授权禁止转载。详情见转载须知。

原创文章，作者：ItWorker，如若转载，请注明出处：https://blog.ytso.com/60804.html

当学生遇到iPIN数据科学家 | 在线问答

以下是AI科技评论君为大家整理的学生问答环节。

相关推荐

发表回复