顯示具有 巨量資料 標籤的文章。 顯示所有文章
顯示具有 巨量資料 標籤的文章。 顯示所有文章

2013年3月30日 星期六

笨蛋,問題在問題! Part 2

我自己親身經歷過幾個案例,讓我歸納出所謂「不知道問題是什麼」其實可以從想做分析的企業(Client)和提供分析服務的廠商(Vendor)這兩種角度來看。企業會想要請外面的廠商提供Analytics的服務,通常就是因為本身對Analytics不是非常了解或是內部沒有專精這方面的人才,也往往因為不了解,所以誤以為Analytics服務跟套裝軟體一樣,只要買進來就可以直接套用。尤其是在台灣提供分析服務的廠商大部分本身也是資訊軟體廠商,更可能讓企業加深了這樣的誤解。

也由於台灣的分析服務廠商多半是資訊業者,旗下的顧問不見得每個都在Client的產業待過,雖然具有高深的統計分析能力,卻不一定了解這些產業在行銷或業務上的實際問題。所以Client的運氣有點重要,如果遇到缺乏產業經驗的顧問,往往就只是提供制式的模型建議,沒有辦法引導Client提出問題,當然就很難針對這些問題提出量身訂製的解決方式。

2013年3月24日 星期日

笨蛋,問題在問題! Part 1

先澄清:我無意罵誰笨蛋,只是套用美國前總統柯林頓當年的競選口號「The economy, stupid!」。這個口號後來被他的競選策士James Carville改為「It's the economy, stupid!」,翻譯後就變成「笨蛋,問題在經濟!」

用英文來說,我這一篇的標題應該叫「It's the business problem, stupid!」。我要說的重點是,不管你把資料分析工作稱作Data Mining、還是最近比較流行的Business Analytics或Customer Analytics,第一個步驟永遠是去了解公司藉此想要解決的業務問題是什麼,而不是先討論建什麼模型!

2013年1月12日 星期六

遠見乎?短視乎?

《天下雜誌》在去年4月中出刊的495期做了一個Big Data的特別企劃,性質相似的《遠見雜誌》也在今年開年的319期推出了同樣主題的特別企劃。比起《天下雜誌》來,《遠見》這次的份量更多,內容也略勝一籌。

儘管我認為Big Data現在仍處在hype的階段,我還是非常樂見國內的雜誌願意用這麼多篇幅介紹這個2012年突然變夯的名詞(畢竟這可能關係到我未來的飯碗啊!)。由於這次《遠見》刊出的內容很多,我也還沒全都看完,所以在此我只提出一點點看法。

特別企劃的第一篇文章就提到趨勢科技董事長張明正先生,而且引用他的話說「先有了雲端,才有大數據」。雲端這個名詞確實比大數據(Big Data)這個名詞早出現,但大數據這個東西其實早就有了,兩者也沒有因果關係。不過我們不是在研究Big Data的歷史,就尊重張董事長的意見。我真正有意見的,是他的以下看法:

2012年12月28日 星期五

分析領域的2012年度代表名詞:Big Data

最近幾年到了年尾的時候,電視上都會出現年度代表字的新聞。以Analytics這個領域而言,2012的代表名詞顯然非「Big Data」莫屬。這個名詞雖然不是在2012年第一次出現,卻在這一年一下子就變得大紅大紫。上圖是Google Trends提供的搜尋趨勢,可以看到網路上搜尋 "Big Data" 的熱門度在2012年就有明顯的三級跳(這不單是個慣用語而已,是真的有三級),所以今年的最後一則也就用這個時髦名詞做ending。

由於失業率連年攀升,而我的年紀也越來越大,所以我持續關注著Big Data的發展,希望它可以變成我未來的長期飯票。到目前為止,我個人認為Big Data仍然停留在資訊大廠和顧問公司的炒作(也就是英文的"hype"這個字)階段,然而我也很怕我的判斷失準。況且我對常常聽到的相關技術名詞Hadoop、MapReduce都是「只聞其名,不知其詳」,工作上也一直沒有機會接觸到實際的Big Data與應用,因此難免會擔心自己是否跟不上這一股潮流。

老東家Teradata的Bill Franks寫了一本名為《Taming the Big Data Tidal Wave: Finding Opportunities in Huge Data Streams with Advanced Analytics》的書,成為Wiley and SAS商業系列書籍的2012新作之一,我在11月買到了這本書。儘管Teradata和SAS都是推動Big Data的資訊大廠,這本書對Big Data的看法卻相當務實,讓我有些意外,不過也驗證了我的看法。

2012年12月19日 星期三

Analytic Blog Posts

上一篇提到《Taming The Big Data Tidal Wave》作者Bill Franks指出資料分析工作人應該具備「創意」這項特質,而我認為看看別人如何運用資料分析是個激發更多創意的好方法。可惜國內很少有這樣的發表,所以只好多看看國外(尤其是美國)的案例了。以下是最近國外部落格上的相關文章:
  • 大家應該都知道歐巴馬打贏這次的總統大選,但是知道他的選舉戰法也應用Big Data的人就不多了吧。"Big Data" Lessons from Obama's Playbook告訴大家歐巴馬的選舉團隊是如何運用Big Data的。
  • 加州大學柏克萊分校這學期開了一門課叫做Analyzing Big Data with Twitter,請到Twitter的高階主管和工程師來課堂上分享,這也只有在美國(或許得更明確的說,在美國的加州)才有辦法做到。Twitter Takes Big Data To School做了相關的報導,更酷的是還提供了課堂錄影的連結。
今天就提供以上這兩篇。

2012年12月16日 星期日

不要把「人」忘了(二)

我在前一篇的最末段,提到了《Taming The Big Data Tidal Wave: Finding Opportunities in Huge Data Streams with Advanced Analytics》這本書,作者Bill Franks目前任職於Teradata,並負責Teradata與SAS合作成立的Business Analytic Innovation Center。Teradata和SAS都是我的老東家,但我保證這篇文章沒有廣告的嫌疑,請各位放心繼續讀下去!

雖然這本書的書名用了Big Data這個很夯的名詞,作者在談論資料分析人才的第8章「What Makes a Great Analytic Professional?」,卻沒有應景的以Data Scientist這個時髦的名詞來稱呼從事資料分析工作的專業人士,而是用比較平鋪直敘的Analytic Professional。而且作者一開始就點出,最常見的兩項徵才條件:「數理、統計、資訊科系碩士以上學位」、「程式設計經驗」,其實沒有抓到重點,如果人資部門在選才時都在技術能力和學歷上打轉,恐怕會見樹不見林。作者以他自己的經驗指出,假如以企業在徵求資料分析人才時常用的條件作為標準,他認識的優秀人才幾乎都有一兩項不合格。

2012年11月21日 星期三

Hype or Hope?

今年 6月號的《Cheers快樂工作人》 第141期有一段訪問我的文字:
頂著美國電機博士頭銜,目前在某專業分析軟體公司專研資料探勘(data mining)的張維斌,當年就是看了這本書,改變生涯的路徑。雖然念電機,他卻只對機率、數學有興趣,透過這本書,張維斌確認了分析資料、歸納趨勢類的工作,遠比整天對著電路板更適合自已。浸淫10多年下來,他果然樂在其中,也打響名號。「對我最大的好處,就是工作再也不用自己找,」張維斌笑著說。
其實當初我要表達的意思是最近這幾年做的幾個工作都不是自己主動投履歷找的,卻不知透過記者的筆竟然變成有點「臭屁」的感覺,真怕以後因此找工作會被新雇主刁難。

不過如果今年10月號《Harvard Business Review》所說的沒錯,我應該就不用擔心才對。這本期刊不僅當期有大量關於Big Data的篇幅,其中還有一篇文章的篇名叫做「Data Scientist: The Sexiest Job of the 21st Century」(那我不就是Sexiest Men之一了?)。從事這一行的我,當然希望這類工作越夯越好,只是我仍無法放下心中的疑問:為什麼台灣的就業市場還看不到這種現象?是因為台灣起步較晚,還是經濟規模太小?還是這股熱潮其實根本是資訊廠商炒作的結果(也就是英文所謂的hype)?

2012年6月6日 星期三

從Big Data看天下

結束了為期五個月的assignment,該是回來這裡「溫故知新」的時候了。

「Big Data」這個名詞從去年下半年開始成為全球的顯學,國內的雜誌在今年也出現了相關的專題報導,知名的《天下雜誌》在4月中出刊的495期「特別企劃」就是以Big Data作為主題。當時我滿懷希望的翻開這一期閱讀,然而卻對內容相當失望!

第一篇「政府、企業的下一場戰爭」寫得還好,基本上它只是在說明什麼是Big Data。通常在描述Big Data時會談到它的三種特性:Volume(資料量)、Velocity(資料產生的速度)、Variety(資料的種類),本文雖然也有提到,但是文字分散,如果能直接點出來,讀者會更容易了解Big Data為什麼特別。文末引用麥肯錫去年出的報告說,美國到2018年會出現14萬到19萬個深度分析專才的需求,藉此說明Big Data之熱門。我要補充的是,同一份報告其實還指出,美國在同一個時期內也需要150萬個懂得運用Big Data(但不見得會自己作深入分析)的經理人,對大多數人而言,這才是機會。

第二篇文章名為「一次搞懂Big data」,其實是訪問三家國內資訊服務廠商的總經理或副總。不過我認為這篇短文並沒有達到它宣稱的目的(如果連我都無法藉著這篇文章一次搞懂Big data,更何況是一般讀者),我認為這跟提問很有關係,因為這些問題無系統可言。此外,我個人也認為,與其訪問大型資訊服務廠商的高階主管,不如請他們旗下真正負責資料分析專案的顧問來說明,相信會更能切中要點。

第三篇是標題「用big data 打擊犯罪的鐵漢」的侯友宜專訪,這是「特別企劃」裡篇幅最長的文章,然而把它也放在介紹Big Data的主題專欄,就真的是不知所云!