2013年5月30日 星期四

一切都是區隔

也許您已經發現,我很少在這個部落格談到技術面的事。一般講資料分析或Data Mining的書不是都用許多篇幅介紹Data Transformation、Clustering、Decision Tree、Regression、Association這些技術嗎?為什麼我幾乎不曾在這裡提到Lift、Odds Ratio、Confidence、R-square這些資料分析常見的名詞呢?其實這只是我為這個部落格作區隔(Segmentation)的結果,希望它跟其他以技術為主的部落格可以有所差異,訴求的讀者對象也不同。而Segmentation也是這一篇的主軸(包括旁邊這張照片,看得出來嗎?)。

首先介紹Konstantinos Tsiptsis和Antonios Chorianopoulos兩位所寫的Data Mining Techniques in CRM: Inside Customer Segmentation (Wiley 2010)。其實這本書有許多章節是在講技術(Techniques),跟我的部落格走向不太一樣。但是它提供了不少Segmentation專案的案例,包括銀行、電信、零售三種產業,而且它在講每個案例的一開始都會說明這個專案所要解決或達到的業務問題或目的是什麼,甚至還包括後續應用的構想(嚴格說起來,這是目的的一部分),這是這本書跟其他以技術為主的Data Mining書籍最不一樣的地方(換句話說,它成功的把自己跟其他Data Mining書籍區隔開來)。在我看過的Data Mining技術性書籍中,業務問題或目的不是完全被忽略,就是簡單一兩句話帶過。影響所及,是以模型作為思考的起點,或是為了建置模型而建,結果就是模型完成之後難以應用。

隨著科技的進步,資料分析專案中屬於技術的部分會有越來越高的比例是由電腦來自動化執行。但是如何把一個業務上的問題轉化成為資料分析可以解決的模式,以及如何把分析技術產生的結果賦予具有業務意義的解讀,卻是電腦難以勝任的。雖然Data Scientist現在是時髦的新行業,我認為在找這類工作時還是要注意一下扮演的角色是什麼,因為純技術的角色是比較容易被取代。而且現在國內Data Scientist的養成訓練幾乎都偏重於技術和工具,企業在徵求技術性Data Scientist的時候也會有較多的選擇,所以有志於Data Scientist的年輕朋友還是得塑造自己在職場上的區隔。

那麼要如何著手呢?One-to-one Marketing(記得每一個人都是一個獨特的區隔)的祖師爺Don Peppers最近在LinkedIn部落格上發表的"Class of 2013: You Can’t Make a Living Just by Solving Problems"這篇文章,很值得拿來做參考。Peppers指出,只要是能用技術來解決的問題,最終都會由電腦來負責解決(if you can state something as a technical problem that has a solution – a task to be completed – then eventually this problem can and will be solved by computer)。

Peppers認為,要在這股潮流中脫穎而出,只有兩條路可走:其一是在處理人際關係的問題上下功夫,其二是專注於發現問題,而非解決問題。對我這個部落格的讀者而言,會在這兩個選項中選擇後者的應該比較多吧。Peppers也指出,其實所謂的發現新問題,就是我們常說的創意(Creatitvity)。

Data Mining中的區隔(Segmentation)在相關書籍中都被列為非監督式學習(Unsupervised Learning)的方法之一,或被認為是一種探索(Exploratory)的手法。探索的目的就在於發現,所以創意是做出一個好的Segmentation的重要因素。

我並不是說技術無用,事實上在我們的有生之年,資料分析應該脫離不了技術。但技術只是必要條件之一,我們走這一行的人必須很清楚重點的方向在哪裡,這才是把自己跟其他人區隔開來的主要變數。

沒有留言: