我所知道的一丁點Data Mining

一兩年前趙民德做了一個『我所知道的一點點Data Mining』的演講,一丁點應該比一點點還少吧?anyway, 如果說我不是在做一般人眼中的data mining 工作那我就太過謙虛了,但如果說我在mining,那我到底在mine 什麼東西呢?

電信業的資料是非常多的,但是多也不見得代表豐富,豐富指的是有很多information,也就是說資料裡面隱含著很多的factors,以這樣的角度來說,其實電信業的資料其實也算是豐富的,難的地方在哪裡?學過factor analysis 的人都知道,我們感興趣的latent variable 是分散在observed variable 裡面,如果你對factor 沒有一點點概念,那你是無法從觀察到的data 換到factor 的,如果你知道facotr,但卻不知道一點點這些factor 和observe variable 的關係,那你也做不了太多的事情,更有甚者,不論我們做些什麼事,這noise 是越小越好,我們說

observe=signal+noise

也許我對人性的了解太有限,目前我所面對的noise 遠比我心中以為的還要大得多,也就是說其實我對未來可能有的observation 的預測實在信心非常的不足。 好啦,既然那麼困難,那我不如先來講一講簡單的好了,clustering 不管在統計上或是data mining 上,都算是蠻有份量的,但是我今天要來凸clustering 的槽。

先來看看clustering 的目的好了,我們假設有很多的objects, 從這些objects 裡面我們可以定義一個similarity,然後把similar 的歸為一類,這應該就是clustering 了吧?好了,那我的問題是世界上有一個最好的cluster 的解嗎?我認為,唯一的解是每個identity就是一個cluster,除此之外把任兩個object 歸為一個cluster 都是失之偏頗的,怎麼說?夫妻算是一個命運共同體吧?性別是最明顯的cluster 指標吧?既然clustering 的目的是分類,把相似的歸在一體,那一個很直接的一個問題就是如何去定義所謂的相似呢?政黨傾向的相似?身材的相似?智慧的相似?美感的相似?可以用來分類的東東,實在是太多了,沒有一個target 怎麼會存在一個適當的分類呢?沒有一個target 這分類的好壞就只剩下距離的意義了,反過來說,如果有一個target 那麼就可以用classification 或是regression 的方式來解決問題了,那又何須clustering 呢?

很多廠商來我們這裡介紹他們的solution 時都會提到他們如何在客戶那邊建立一個cluster 的模型,但是這cluster 除了是一個標籤之外,我真的不知道他有什麼樣的好處,反正沒有一個target,誰也無法也無從去驗證這是不是一個好的cluster,反正這不過是一種分類方式罷了。就如同我們用性別、星座、收入、省籍...來給人貼標籤給分類一樣,老實說,那意義真的是不大。