序言:這是一個用數據說話的時代
在CDA(註冊數據分析師)Level I 級教材付諸印刷之際,關於數據分析這個職業及其價值的報導就有很多,比如,下面兩條報導就充分體現了在大數據時代下,數據分析的價值。這在以前是從來沒有過的。
LinkedIn 的最新投票結果顯示,“統計分析和數據挖掘”是2014 年最大的求職法寶。 LinkedIn對全球超過3.3 億用戶的工作經歷和技能進行分析,公佈2014 年最受雇主喜歡、最炙手可熱的25項技能,其中位列榜首的是統計分析和數據挖掘。
麥肯錫公司的一份研究預測稱,到2018 年,在“具有深入分析能力的人才”方面,美國可能面臨著14 萬到19 萬人的缺口,而“可以利用大數據分析來做出有效決策的經理和分析師”缺口則會達到150 萬人。
早在2010 年2 月,肯尼斯?庫克爾在《經濟學人》上發表了一份關於管理信息的特別報告——《數據,無所不在的數據》,文中寫道:“世界上有著無法想像的巨量數字信息,並以極快的速度增長……從經濟界到科學界,從政府部門到藝術領域,很多地方都已感受到了這種巨量信息的影響。”
2011 年,麥肯錫發布了《大數據:下一個具有創新力、競爭力與生產力的前沿領域》,使人們在這篇文章裡認識到了數據的力量,於是,一夜之間,面向數據分析市場的新產品、新技術、新服務、新業態正在不斷湧現。從個人、企業到國家層面,都把數據作為一種重要的戰略資產,逐漸認識到了數據的價值,不同程度地滲透到每個行業領域和部門,大大提升了企業的經營利潤,推動了經濟的發展。
這是一個用數據說話的時代,也是一個依靠數據競爭的時代。目前世界500 強企業中,有90%以上都建立了數據分析部門。 IBM、微軟、Google 等知名公司都積極投資數據業務,建立數據部門,培養數據分析團隊。各國政府和越來越多的企業意識到數據和信息已經成為企業的智力資產和資源,數據的分析和處理能力正在成為日益倚重的技術手段。
作為一個數學和統計學的強國,數據分析、數據挖掘和大數據價值挖掘行業在我國仍屬於朝陽行業,數據分析人才仍然比較稀缺。各行各業在平常工作中積累的各種各樣的數據分析問題仍然沒有得到及時有效地解決,有些問題,還是關乎本行業發展的至關重要的問題。數據積累越來越多,期待解決分析的數據問題也越來越多,人們逐漸習慣的使用數據作為決策的重要參考依據。據艾瑞的研究報告,未來與數據分析相關的就業崗位會在1000 萬左右,而目前來說國內合格的數據分析師不足5 萬左右,建立一個科學有效的數據分析師培訓體系迫在眉睫。
在這樣一個用數據說話的時代,積累了豐富的數據分析培訓經驗的人大經濟論壇承擔起使命,幾番調查研究,幾番反复推演論證,在2013 年,這個大數據的“元年”,CDA註冊數據分析師應運而生!
2003 年,人大經濟論壇依託中國人民大學成立,在金融、管理、統計領域已積澱11 個年頭,在國內享有良好聲譽。
2006 年,人大經濟論壇數據分析培訓中心設立,至今經歷8 個春秋,建立了大陸、台灣一線師資團隊,培養人才已達3 萬餘人。
2013 年,“中國數據挖掘與數據分析俱樂部CDMC”在人大經濟論壇旗下成立,2014 年改名為“中國數據分析師俱樂部CDA”。來自政府、金融、電信、零售、電商、互聯網、教育等行業人士加入會員,成功舉辦了數十場行業聚會。緊接著,積累了數據分析培訓豐富經驗的人大經濟論壇在國內展開CDA 數據分析師系統培訓和認證考試,成功見證了1000 餘名數據分析師的成長。
2015 年,人大經濟論壇將提供高水平、多層次的數據分析培訓服務,以在行業積累多年的影響力,吸引更好更多的優秀師資,瞄準行業內重要的數據分析問題和難點,攻堅突破,建立更加規範的行業培訓體系,引領數據分析培訓行業向規範化、有效化和前瞻化方向發展,為數據分析培訓做出應有的貢獻。
其實,數學(含統計)和英語一樣重要,都是人們不可或缺的重要技能。既然英語全民這麼重視,數學及其數據分析的技能更加需求於方方面面,更應被做大做強。讓我們共同期待人大經濟論壇辦成另一個數據的“新東方”!
覃智勇
2015 年1 月1 日
前 言
本書第1 版自2015 年2 月出版後,在市場上獲得了強烈的反響,當月在噹噹網的新書熱賣榜中排名第二,半年內銷售近萬冊,至2016 年1 月已經印刷了5 次,共發行近兩萬冊,圖書被收錄進百度百科。
如此巨大的市場銷量和好評,引起筆者的深思,除本書構思巧妙、內容翔實、文法流暢等主觀因素外,宏觀的市場環境也是不容忽視的。 2015 年,中國經濟由原來的爆發式增長進入到略顯低迷的新常態,無論是企業還是商家都感受到了壓力,錢不再像以前那樣好賺了。如何實現經濟增長,如何讓企業存活下去,這就需要深挖企業內部的痛點和洞察外部客戶的特點。深挖和洞察的過程就是數據分析的過程,數據分析時代在中國悄然到來了。
隨著數據分析師的價值凸顯,有越來越多先知先覺的人們紛紛轉行加入到數據分析師的大軍中。而統計學是數據分析師們必修的課程之一,“從零進階!數據分析的統計基礎”的本意就是讓更多的人能從零基礎快速進階到數據分析領域,並且重點講述數據分析師們必須具備的概率和統計的關鍵知識點。而經管之家(原人大經濟論壇)適時地推出本書,使其得到了很好的市場回饋。正所謂天時地利人和,造就了一本好書。
為了和市場的發展緊密結合,以及更好地適應讀者的需求,本書進行了改版。本次改版繼續堅持從零進階,強化數據分析基礎理論,和市場接軌等核心理念,繼續使用“三國武將”這個大家都耳熟能詳的業務背景知識。根據學員的需求和市場的實際情況,作者還對本書內容進行瞭如下調整。
(1)進一步精練數據分析的理論基礎,去除了一些不必要的數學公式。由於數據分析涉及概率論、微積分、數理統計的很多內容,但有些內容又不用全部學會,這讓初學者很難找出哪些是需要學習的內容,哪些是不需要學習的內容。因此在編寫本書第1 版時,將很多數據分析師不需要知道的知識點都省略了,比如省略了統計量服從某個分佈的證明過程,省略了抽樣平均誤差的證明過程。
這樣做的目的是為了讓數據分析師們能更快地進入這個領域,更好地洞察數據。在編寫本書的第2版時,繼續沿用此思想,去掉了一些數據分析師不必要知道的公式,增加了更多的數據分析思想的內容。
(2)將原來的第3 章抽樣估計分解成數理統計基礎和抽樣估計兩章,這樣做的目的是考慮到原來的第3 章涉及的理論內容太多,並且比較枯燥,將其分成兩部分,一來可以在每一部分增加更多的公式解讀內容,也可以補充更多的案例進來;二來降低了閱讀難度,使讀者能在學習知識的同時,獲得更多的成就感,從而更加有興趣學習。
(3)對試驗數據進行了更多的數據分析,增加了對讀者數據分析思維的培養。尤其是第2 章的描述性數據分析過程,進行了更深入的數據分析過程剖析,主要宗旨在於讓讀者更快地進入到數據分析行業的隊伍中來。當然,這也使得第2 版中的三國武將數據和第1 版中的數據存在一些差異。
當然,僅就本書而言,讀者並不會學到數據分析師所需要的全部知識,這需要幾年的循序漸進學習,但我希望讀者看過本書後,能快速具有數據分析師所需要的最基本的統計學知識,能快速地進入到數據分析的行業,從而具備一個數據分析師應具備的最起碼的知識,在工作中能說內行話,而不是說行外話。
在本書改版之際,作者衷心感謝經管之家(原人大經濟論壇)和CDA 課程研發團隊多年來始終不渝的關心與鼎力支持,感謝關繼傑,感謝廣大讀者給予我的理解與感受,感謝電子工業出版社多年來的密切合作與支持。沒有這一切,本書不可能取得這麼好的成果,我永遠感謝曾經幫助和支持過我的相識的和不相識的同志和朋友。由於作者水平有限,本書肯定會有不少缺點和不足,熱切期望得到專家和讀者的批評指正。
曹正鳳
2016 年3 月於北京