今年百度發(fā)布了他們?cè)诖髷?shù)據(jù)方面的人才需求,今年百度招聘1500名應(yīng)屆大學(xué)畢業(yè)生,明年預(yù)計(jì)擴(kuò)招至2000名;未來(lái)還將通過(guò)提供新型崗位、加大培訓(xùn)力度等,培養(yǎng)500萬(wàn)名AI人才,讓更多百姓的“飯碗”端得更穩(wěn)、更安心。
分析是使用網(wǎng)絡(luò)抓取從1000多個(gè)最近的大數(shù)據(jù)分析師工作中完成的,這些工作是從工作門(mén)戶中提取的。
最近,有很多同學(xué)積極地開(kāi)始尋找大數(shù)據(jù)分析領(lǐng)域的工作變動(dòng),你如果沒(méi)有像碩士或博士學(xué)位這樣的正規(guī)教育和AI /機(jī)器學(xué)習(xí)的背景。他們完全出于自己的興趣開(kāi)始學(xué)習(xí)大數(shù)據(jù)分析。這是選擇加入富挑戰(zhàn)性的途徑之一,尤其是在同時(shí)開(kāi)發(fā)其他技術(shù)的情況下。有的人通過(guò)參加許多培訓(xùn)課程開(kāi)始了自己的數(shù)據(jù)分析職業(yè)生涯,并開(kāi)始閱讀書(shū)籍和業(yè)內(nèi)網(wǎng)站。
打開(kāi)各種招聘網(wǎng)站的需求,你可以清楚的看到公司企業(yè)提到傳統(tǒng)數(shù)據(jù)分析,機(jī)器學(xué)習(xí),深度學(xué)習(xí),一些ETL工具和多種大數(shù)據(jù)技術(shù)是必需技能。我認(rèn)為這沒(méi)關(guān)系,因?yàn)樽罱考夜径加凶约簩?duì)大數(shù)據(jù)分析師的定義,并開(kāi)了另一份工作。這次出現(xiàn)了對(duì)某些其他技術(shù)的需求。
請(qǐng)記住,所有這些開(kāi)口僅在大數(shù)據(jù)分析師下標(biāo)記。所有這些開(kāi)口都有共同的要求,例如機(jī)器學(xué)習(xí)算法,統(tǒng)計(jì),數(shù)據(jù)分析,數(shù)據(jù)清理和深度學(xué)習(xí)技術(shù)。除了這些技能外,一些公司還希望候選人能在云(AWS,Azure或GCP)和Tableau,Power BI等數(shù)據(jù)可視化工具以及SSIS等ETL工具方面擁有知識(shí)。通常,這些技術(shù)更多地與數(shù)據(jù)分析師/數(shù)據(jù)工程師角色有關(guān),但大數(shù)據(jù)分析師角色仍在不斷發(fā)展,并且尚未真正堅(jiān)持特定的技能。
作為從事多年的就業(yè)指導(dǎo)老師確實(shí)了解這樣一個(gè)事實(shí),即公司正在尋找適合其職位空缺并且在所需技術(shù)方面具有技能的申請(qǐng)人。這肯定會(huì)為公司節(jié)省時(shí)間和金錢(qián),而無(wú)需再次提供培訓(xùn)。
因此,在這里,我有一個(gè)有趣的想法,可以理解IT行業(yè)真正期望大數(shù)據(jù)分析師實(shí)時(shí)扮演的角色,而不是通常在MOOC中講授的角色。
目標(biāo): 我們將嘗試找出當(dāng)前行業(yè)中最需要的技能和趨勢(shì)。為此,我們將從工作門(mén)戶中抓取數(shù)據(jù)。
注意:整個(gè)分析是針對(duì)大數(shù)據(jù)分析師在中國(guó)市場(chǎng)中的作用而進(jìn)行的。
在公司企業(yè)需要什么樣的數(shù)據(jù)分析人才中,我們將嘗試找到一些重要問(wèn)題的答案,每個(gè)大數(shù)據(jù)分析求職者都將想到這些問(wèn)題。
1)公司正在尋找的頂級(jí)技能是什么?
2)業(yè)界最需要的經(jīng)驗(yàn)水平是什么?
3)在該領(lǐng)域積極提供工作的公司有哪些?
4)什么地方有更多空缺?
一、網(wǎng)頁(yè)抓取
我已經(jīng)從中國(guó)頂級(jí)職位門(mén)戶網(wǎng)站收集了所有相關(guān)的職位信息, 這些日子幾乎幾乎每個(gè)求職者和招聘人員都在使用。由于傳統(tǒng)的BeautifulSoap方法在該站點(diǎn)上無(wú)法正常工作,因此我一直使用selenium-python進(jìn)行網(wǎng)絡(luò)抓取。
免責(zé)聲明:網(wǎng)絡(luò)爬網(wǎng)純粹是出于教育目的。
對(duì)于每項(xiàng)工作,我們將抓取這五個(gè)要素:角色,公司名稱,經(jīng)驗(yàn),位置和關(guān)鍵技能。
抓取代碼:
二、預(yù)處理
在開(kāi)始之前,我們先做一些基本的預(yù)處理。
2.1、處理缺失值:
執(zhí)行基本清理,找到丟失的值并將其刪除。
2.2、處理重復(fù)數(shù)據(jù):
在處理重復(fù)數(shù)據(jù)時(shí),我們必須非常小心,因?yàn)楣究赡軙?huì)多次發(fā)布相同的要求,因?yàn)樵摴ぷ魅蕴幱陂_(kāi)放狀態(tài),或者另一方面,公司可能正在尋找具有相同要求的全新職位 。為簡(jiǎn)單起見(jiàn),我沒(méi)有刪除任何數(shù)據(jù)。
2.3、標(biāo)記位置和技能列
將所有字符串轉(zhuǎn)換為小寫(xiě)只是為了避免冗余,并標(biāo)記了位置和技能列,因?yàn)檫@些列中有多個(gè)值。
這就是預(yù)處理后的樣子。
三、分析
現(xiàn)在,我們擁有一切開(kāi)始。
3.1、哪個(gè)位置提供更多空缺?
注意:如果您不是來(lái)自中國(guó),請(qǐng)隨時(shí)跳過(guò)此位置部分。
1)如果我們觀察以上情節(jié),幾乎有 38% 的工作位于 班加羅爾。
2)班加羅爾,孟買(mǎi),海得拉巴 和 浦那排名前四的城市幾乎占該國(guó)大數(shù)據(jù)分析工作總數(shù)的72 % 。
3)因此,如果您來(lái)自這些城市中的任何一個(gè),則獲得大數(shù)據(jù)分析師工作的機(jī)會(huì)可能比其他城市多。
3.2、哪些公司正在積極招聘?
1)Analytics Vidhya educon 排名第一,幾乎 占總職位清單的21%。
2)列表上也有很多 顧問(wèn)。這些顧問(wèn)通常為他們的客戶進(jìn)行招聘。
3)通常,工作門(mén)戶中的競(jìng)爭(zhēng)會(huì)非常激烈。大多數(shù)時(shí)候,由于收到大量申請(qǐng),招聘人員甚至可能不會(huì)查看您的個(gè)人資料。在某些情況下,即使是一個(gè)空缺,您也必須與其他數(shù)百名申請(qǐng)人競(jìng)爭(zhēng)。最好了解正在積極招聘的公司,以便我們可以直接通過(guò)其官方網(wǎng)站進(jìn)行申請(qǐng),這增加了進(jìn)行面試的可能性。
3.3、最想要的體驗(yàn)是什么?
各種經(jīng)驗(yàn)水平的工作機(jī)會(huì)。
1)我們可以看到,公司顯然正在尋找有 經(jīng)驗(yàn)的候選人。具有 5至10年經(jīng)驗(yàn)的候選人似乎還有更多空缺。 這是有道理的,因?yàn)榇髷?shù)據(jù)分析師的工作涉及經(jīng)驗(yàn)帶來(lái)的關(guān)鍵決策技能。
2)具有至少2年 經(jīng)驗(yàn)的候選人 有相當(dāng)好的機(jī)會(huì)。
3)這并不意味著新生不可以進(jìn)入,而只是經(jīng)驗(yàn)豐富的候選人比新生更多的空缺。公司通常不從這些工作門(mén)戶網(wǎng)站招聘應(yīng)屆畢業(yè)生,而是直接從校園招聘中招聘新生。新生可以隨時(shí)選擇為初創(chuàng)公司工作以獲得必要的經(jīng)驗(yàn)。
3.4、需求角色是什么
這是要研究的重要步驟,因?yàn)樵讷@得一些結(jié)果之后,工作門(mén)戶通常會(huì)開(kāi)始顯示與我們正在尋找的工作無(wú)關(guān)的其他一些工作。為了確保我們正在尋找合適的角色,讓我們檢查一下經(jīng)常提到的前10個(gè)角色。
1)如果我們?cè)谏弦还?jié)中觀察到,有更多經(jīng)驗(yàn)的人有更多空缺,這使我們有一個(gè)基于角色的空缺問(wèn)題。
2)大多數(shù)職位空缺仍被稱為大數(shù)據(jù)分析師。其次是高級(jí)大數(shù)據(jù)分析師和首席大數(shù)據(jù)分析師,他們當(dāng)然需要良好的先前經(jīng)驗(yàn)。
3.5、公司正在尋找的技能
最后,我們到了。您可能正在閱讀此書(shū)的主要原因。
1)看起來(lái)非常正確,不要擔(dān)心,我將在后面部分對(duì)其進(jìn)行分解。我之所以包含許多技能的原因是由于大數(shù)據(jù)分析涉及的領(lǐng)域廣泛。
2)盡管我們能夠在上面的圖表中描述一些頂級(jí)技能,但它仍然不能滿足此分析的目的。
讓我們深入了解更清楚的趨勢(shì)。
3.5.1)必須具備的技能?
1)機(jī)器學(xué)習(xí)作為大數(shù)據(jù)分析師擁有的最重要技能,這不足為奇。
2)數(shù)據(jù)挖掘 和 數(shù)據(jù)分析 是每個(gè)大數(shù)據(jù)分析師必須經(jīng)歷的關(guān)鍵活動(dòng)。
3)要成為更好的大數(shù)據(jù)分析師,就需要強(qiáng)大的統(tǒng)計(jì)模型。
4)公司期望深度學(xué)習(xí)方面有豐富的知識(shí), 因?yàn)樗峁┝私鉀Q諸如NLP 和 Computer Vision等領(lǐng)域中一些有趣的實(shí)時(shí)問(wèn)題的最新技術(shù)。
5)由于每天記錄的數(shù)據(jù)量大量增加,用人單位希望候選人對(duì)大數(shù)據(jù)技術(shù)有所了解。實(shí)時(shí)地,我們可能正在研究龐大的數(shù)據(jù)集,這些技能肯定會(huì)派上用場(chǎng)。
3.5.2)需要編程語(yǔ)言嗎?
1)如果您剛開(kāi)始學(xué)習(xí)大數(shù)據(jù)分析,那么一開(kāi)始,您肯定會(huì)發(fā)現(xiàn)選擇正確的編程語(yǔ)言非常困難。盡管有許多語(yǔ)言,但是競(jìng)爭(zhēng)一直是Python和R本身之間的競(jìng)爭(zhēng)。讓我們看看什么數(shù)據(jù)在告訴我們。
2)由于其豐富的庫(kù)以及 R 語(yǔ)言,該行業(yè)仍然支持 Python。
3)對(duì)于每個(gè)大數(shù)據(jù)分析師來(lái)說(shuō),SQL都是必須的。盡管不適合被視為編程語(yǔ)言,但我還是趁機(jī)將其包括在這里:)。
4)在python和R之后,似乎對(duì)SAS 和 C ++ 語(yǔ)言有很好的需求。
3.5.3)選擇的深度學(xué)習(xí)框架?
1)由于深度學(xué)習(xí)的突然興起,許多深度學(xué)習(xí)框架都由Google和Facebook等巨頭進(jìn)入市場(chǎng)。
2)與PyTorch相比, 該行業(yè)贊成 Tensorflow。
3)Keras 在市場(chǎng)上占有很好的份額,由于其簡(jiǎn)單易用的特性,人們喜歡它。
4)盡管還有許多其他框架,例如Caffe,Maxnet,但似乎沒(méi)有多少空缺。如果不是全世界,至少在中國(guó)。
3.5.4)哪種大數(shù)據(jù)技術(shù)具有優(yōu)勢(shì)?
1)Spark 排名第一??梢允褂胹park -Pyspark的python版本。
2)Hadoop 的機(jī)會(huì)幾乎與Spark相同,只是差別很小。
3)Hive 也有很多空缺 。
3.5.5)哪個(gè)云提供商需要ML?
1)訓(xùn)練模型涉及大量計(jì)算,而這些計(jì)算很容易變得非常昂貴。公司正在尋找更便宜的方式來(lái)完成工作,這就是這些云平臺(tái)出現(xiàn)的地方。
2)AWS 排名第一,其次是 Azure。
3)公司正在迅速向云選項(xiàng)發(fā)展。這些技術(shù)在未來(lái)的大數(shù)據(jù)分析中將有更多的機(jī)會(huì)發(fā)揮重要作用。
3.5.6)需要數(shù)據(jù)可視化工具嗎?
1)雇主對(duì)于Tableau 的數(shù)據(jù)可視化表現(xiàn)出更多的興趣 。
2)盡管Microsoft的 Power BI 仍然落后。
結(jié)論:
如果您具備大數(shù)據(jù)分析師提到的所有必備技能,那么最好的方法應(yīng)該是開(kāi)始參加面試,同時(shí)嘗試填補(bǔ)自己的理解空白,并學(xué)習(xí)可以為您帶來(lái)優(yōu)勢(shì)的工具/技術(shù)。超過(guò)其他候選人。
填寫(xiě)下面表單即可預(yù)約申請(qǐng)免費(fèi)試聽(tīng)!怕錢(qián)不夠?可先就業(yè)掙錢(qián)后再付學(xué)費(fèi)! 怕學(xué)不會(huì)?助教全程陪讀,隨時(shí)解惑!擔(dān)心就業(yè)?一地學(xué)習(xí),可推薦就業(yè)!
?2007-2022/ www.5wd995.cn 北京漫動(dòng)者數(shù)字科技有限公司 備案號(hào): 京ICP備12034770號(hào) 監(jiān)督電話:010-53672995 郵箱:bjaaa@aaaedu.cc