2011年11月1日 星期二

Are You a Data Scientist?

剛剛看到兩篇講「Data Scientists」的文章,認為深得我心,所以藉此一角跟大家分享。

第一篇文章開頭就說Data Scientists的特質是好奇心和樂於探索大量資料(underscored by the harder-to-teach characteristics of curiosity and a willingness to explore large amounts of data),我自認同時具備這兩種特質,但是吸引我目光的是harder-to-teach這個形容詞。自從Data Mining開始被國內的大企業採用後,有些學校也開辦了Data Mining的課程。雖然學生可以在這些課程中學習到相關的理論、技巧、軟體操作,「特質」卻是很難學習而來的,而我個人認為特質才是決勝的關鍵因素。

因為特質會驅動一個Data Scientist不斷變換看資料的角度,不自覺的利用時間越挖越深,而且樂此不疲。我從工作中得到的最大樂趣,通常不是完成了什麼模型的建置,而是從資料發現了特殊的pattern或是異常的現象。一個懂得理論、技巧、操作的資料工作者,絕對有能力建構出完美的模型、調出無暇的參數,準時完成資料採礦的專案;但如果他還多了對資料好奇的特質,往往還可以挖到藏在資料角落裡的寶藏,而這些新發現的價值多半高過原來的專案。

這篇文章也引述了Facebook、Foursquare、Intuit、Groupon等知名公司招募Data Scientist人才公告的用語。前三家比較偏向技能和功能的敘述,所以我個人比較喜歡Groupon的說法:Are you excited about analyzing vast amounts of data, finding patterns in it and applying the insights to create business value?如果Groupon也在台灣找這樣的人,我馬上就去應徵了!

另一篇文章訪問了舊金山灣區一家作分析的公司的創辦人,他認為所謂的Data Scientists具備了下列三種技能:
  • Data munging(坦白說,我是頭一次看到這個名詞,所以我Google了一下:運用、轉換、變化資料的能力)
  • Data modeling
  • Data visualization
前兩項技能也是學校的Data Mining課程可以學到的,但是課堂上會不會教Data visualization,我就不太確定了。簡言之,這就是用資料來看圖說故事的能力。不管我們的工作叫做Data Science、Data Mining或是Customer Analytics,最後一定要想辦法影響具有決策實權的人,才能發揮最大的效果。但是對他們放映一大張滿是數字的表格,或是講Lift、Statistical Significance這些名詞,效果和效率都不如一張抓到精神的圖。只可惜Data visualization似乎沒辦法用學術的方法來教,除了有些簡報技巧的書可能會提到一些,我認為最好的方法還是多參考那些值得借鏡的圖表,並在實際工作中嚐試與修正。如果在座者一臉茫然,就表示有問題;但若是大家眼睛一亮、拼命點頭,那就對了。

所以你也是個Data Scientist嗎?你的企業裡有Data Scientists嗎?

2 則留言:

Wei-Bin Chang 張維斌 提到...

剛剛看到一篇非常值得一讀的文章:
Building data science teams.

Mark 提到...

wei-bin你好, 

 我現在正修讀ANALYTICS研究碩士, 自己也有跟一些新公司爭取實習機會。 我自己對VISUALIZATION 非常感興趣, 在統計分析方面, 我認為R 能畫出很好的圖, 比起SPSS 快很多, 比EXCEL 準確很多, SAS沒意見。

近來有使用新的VISUALIZE 軟件, 例如GEPHI, 在VISUALIZE DATA方面實在是傳統統計軟件無可媲美, 在這裡分享一下。:)

Mark