字幕组双语原文:2020数据分析岗位报告:数据分析师需要哪些能力?
英语原文:Know What Employers are expecting for a Data Scientist Role in-2020
翻译:雷锋字幕组(Magiccodes)
在本文中,我们将试图找到几个重要问题的答案,这些问题是每个数据科学求职者都会想到的。
-
公司最需要的技能是什么?
-
在这个行业中最需要的经验水平是什么?
-
哪些公司在积极提供这个领域的工作?
-
哪些地方有更多的空缺职位?
注意:你可以在结论部分找到完整代码的链接。
1.网页抓取
我从印度的顶级招聘门户网站Naukri.com收集了所有相关的工作信息,如今几乎每个求职者和招聘人员都使用这个网站。我使用selenium-python进行网页抓取,因为传统的BeautifulSoap方法在这个站点上不太好用。
来自Naukri.com的示例工作列表(免责声明:网页抓取纯粹用于教育目的。)
我们将为每个工作抓取出五个要素:角色、公司名称、工作经验、工作地点和关键技能。
抓取代码:
2.预处理
在我们深入之前先简单做一些预处理。
2.1处理缺失值
进行基本清理,查找丢失值并删除它们。
2.2处理重复数据
在处理重复数据时,我们需要非常小心,因为一个公司可能会多次发布相同的要求,因为该职位仍在招聘中,或者另一方面,该公司可能正在寻找具有相同要求的全新职位。为了简单起见,我没有丢弃任何数据。
2.3标记化工作地点和关键技能栏
将所有字符串转换为小写,以避免冗余,并对location和skills列进行标记,因为这些列中有多个值。
这是预处理后的样子。
分析
现在我们已经准备就绪。
3.1. 哪个工作地点提供更多的空缺岗位?
注:如果你不是来自印度,请随意跳过这部分。
-
如果我们观察上面的图,几乎38%的工作都在 Bengaluru。
-
排名前4位的城市 Bengaluru, Mumbai, Hyderabad and Pune 占据了印度数据科学工作岗位的72%。
-
因此,如果你来自这些城市中的任何一个,你得到一份数据科学家的工作的机会可能比其他城市要多。
3.1. 哪些公司在积极招聘?
-
分析公司Vidhya educon以近21%的职位排名榜首。
-
名单上还有许多咨询公司。这些咨询公司通常为他们的客户进行招聘。
-
一般来说,求职门户的竞争会非常激烈。大多数时候,你的个人资料甚至可能不会被招聘人员看到,因为他们收到了大量的申请。有些情况下,即使只有一个职位空缺,你也得和几百个申请人竞争。最好了解那些积极招聘的公司,这样我们就可以直接通过他们的官方网站进行申请,增加获得面试机会的几率。
3.3. 什么是最被需要的工作经验?
不同经验水平的工作机会。
-
我们可以看到,公司显然在寻找有经验的候选人。有5-10年工作经验的候选人似乎有更多的空缺。这是有道理的,因为数据科学家的工作涉及关键的决策技能,而这些技能是随着经验而来的。
-
2年以上工作经验的候选人将有相当好的机会。
-
这并不意味着新生不能进入,只是有经验的候选人比新生有更多的空缺。公司通常不会从这些招聘网站上招聘新人,而是直接从校园招聘中招聘。新生总是可以选择为初创公司工作,以获得必要的经验。
3.4. 有哪些角色被需要
这是需要研究的一个重要步骤,因为在前几个结果之后,招聘门户通常会开始显示一些与我们正在搜索的工作无关的其他工作。为了确保我们看到的是正确的角色,让我们看看前10个经常提到的角色。
-
如果我们在上一节中观察到,有更多的职位空缺需要有更多经验的人,这就给我们留下了一个基于角色的空缺职位问题。
-
大多数空缺职位仍被称为数据科学家。其次是资深数据科学家和首席数据科学家,以上都需要良好的经验。
3.5. 公司需要的技能
最后,终于到了你读这篇文章的重点。
-
看起来很复杂对吧,不用担心,我将在后面的部分分解它。我之所以在以上部分中包含许多技能,是因为数据科学涉及的领域非常广泛。
-
尽管我们能够在上面的部分中描述一些顶级技能,但它仍然不能满足本文分析的目的。
让我们深入了解一下这个趋势。
3.5.1. 必备技能?
-
机器学习是数据科学家最重要的技能,这一点也不奇怪。
-
数据挖掘和数据分析是每个数据科学家都必须经历的关键活动。
-
要成为一名更好的数据科学家,需要强大的统计建模。
-
各公司都希望对深度学习有很好的了解,因为它提供了最先进的技术来解决一些有趣的实时问题,如NLP和计算机视觉领域。
-
由于每天记录的数据量大幅增加,雇主希望应聘者具备大数据技术方面的知识。在实时情况下,我们可能会在巨大的数据集上工作,这些技能肯定会派上用场。
3.5.2. 需要编程语言吗?
-
如果您刚开始学习数据科学,在一开始,您肯定会发现很难选择正确的编程语言。尽管有许多语言,竞争总是在Python和R本身之间。让我们看看数据告诉了我们什么。
-
业界仍然支持Python,因为它有丰富的库和R语言。
-
SQL是每个数据科学家的必修课。尽管它不适合作为编程语言来对待,但我还是冒险把它包括在这里:)。
-
在python和R之后,似乎对SAS和c++语言有较好对需求。
3.5.3. 选择深度学习框架?
-
由于深度学习的突然兴起,许多深度学习框架从谷歌、Facebook等巨头进入市场。
-
业界更喜欢Tensorflow而不是PyTorch。
-
Keras在市场上占有很好的份额,人们喜欢它是因为它的简单易用。
-
虽然有许多其他框架像Caffe,Maxnet,但似乎没有很多相关但空缺岗位。即使全球市场不是,至少在印度是这样的。
3.5.4. 哪一种大数据技术更有优势?
-
Spark 排位最高,可以使用python版本的spark – Pyspark。
-
Hadoop与spark几乎有相同的求职机会,只是略有不同。
-
Hive也有相当多的空缺岗位。
3.5.5. 哪个云提供商需要ML?
-
训练这些模型需要大量的计算,这些计算很容易变得非常昂贵。公司正在寻找更便宜的方式来完成工作,这就是云平台的作用。
-
AWS位居榜首,其次是Azure。
-
各公司正迅速转向云计算。在未来的日子里,这些技术将更有可能在数据科学中发挥重要作用。
3.5.6. 需要数据可视化工具吗?
-
雇主对数据可视化的Tableau表现出了更多的兴趣。.
-
而微软的Power BI仍然落后。
结论:
你真的必须要具备这篇文章中提到的所有技能才能得到这份工作吗?
其实也不是,如果你的基础很扎实的话,这个列表中有一些工具是在工作中很容易学会的。话虽如此,如果你只是在找工作,那么在简历上写上这些技能可能会帮助你获得面试机会。
如果你擅长所有提到的数据科学家的必备技能,那么最好的方法应该是从参加面试开始,与此同时试图填补你理解上和学习工具/技术的空缺,这些将会让你胜过其他候选人。
雷锋字幕组是由AI爱好者组成的志愿者翻译团队;团队成员有大数据专家、算法工程师、图像处理工程师、产品经理、产品运营、IT咨询人、在校师生;志愿者们来自IBM、AVL、Adobe、阿里、百度等知名企业,北大、清华、港大、中科院、南卡罗莱纳大学、早稻田大学等海内外高校研究所。
了解字幕组请联系微信:tlacttlact
转载请联系字幕组微信并注明出处:雷锋字幕组
雷锋网(公众号:雷锋网)雷锋网
雷锋网版权文章,未经授权禁止转载。详情见。
原创文章,作者:ItWorker,如若转载,请注明出处:https://blog.ytso.com/138325.html