1分鐘愛上管理學:為什么尿布和啤酒放在一起賣?

2012/05/02 06:17      姚余梁

知識點·數(shù)據挖掘 (Data Mining)

我們正處在一個信息大爆炸的年代,主要表現(xiàn)在大量信息的產生并以數(shù)字化的方式被記錄下來。之所以會有信息大爆炸,一個主要的原因是信息技術的成本大幅下降并且迅速廣泛普及。10年前,一臺個人電腦的硬盤大概也就是1GB大小,今天硬盤的大小都用幾百GB甚至TB(1TB=1024GB)來衡量了,而價錢基本上沒有變化。正是信息技術的普及造就了信息大爆炸的年代。信息多了,是好事兒,也是壞事兒。好事兒呢,是因為信息可以幫助人們更好地決策;壞事兒呢,是因為信息太多了,如何找到有用的信息又變成了一件難題。

大海撈針,出自明代戲曲作家王錂的《春蕪記·定計》:“覓利如大海撈針,攪禍似干柴引火。”你想想,大海有多大、多深、多廣闊,而一根針又是多么細微和渺小,要想在廣闊的大海里找到一根針,是一件不可能完成的任務。在今天的信息大爆炸年代,代表信息的數(shù)據就好像大海,廣闊無邊,而要在這廣闊的大海里找到想要的某一條信息,也確實是一件很難的事情。所以說,大海撈針的“撈”其實很形象地刻畫了數(shù)據挖掘的過程。

簡而言之,數(shù)據挖掘就是從存放在數(shù)據庫中的大量數(shù)據中獲取有效的、新穎的、潛在有用的、最終可理解的模式的過程。這個定義說出了數(shù)據挖掘的四個基本特征:一是有效;二是新穎;三是有用;四是可理解。這四個基本特征缺少一個就不是嚴格意義上的數(shù)據挖掘。“有效”是指數(shù)據挖掘過程所使用的方法是正確的,無論用統(tǒng)計抽樣、假設檢驗,還是人工智能、模式識別和機器學習等方法,都要是正確地使用。“新穎”是指數(shù)據挖掘結果是意想不到的、事先不知道的,如果是已經知道的,還費那么大的力氣去挖掘什么呢。“有用”是指數(shù)據挖掘結果可以用來指導公司決策,否則,費了九牛二虎之力挖掘出來的東西豈不都是垃圾。“可理解”是指數(shù)據挖掘結果能夠用常識或理論解釋,如果解釋不了,那么這個結果很可能是碰巧得來的。這次碰巧得到了,不知道下次還能不能碰上,這樣的結果使用價值也不大。

數(shù)據挖掘的應用之一就是關聯(lián)規(guī)則,通過對大量數(shù)據的分析,找到兩個或幾個總是同時發(fā)生的事件。對于關聯(lián)規(guī)則,有一個關于沃爾瑪?shù)膫髡f,之所以說是傳說,是因為這個故事在商學院MBA課堂上廣泛流傳,誰也不知道源頭在哪里,到底是不是真的。有一個學期,我有幾個學生非常較真,做了大量的搜索工作,最后也無法確定這個故事的源頭和真相,這故事后來就成了一個謎,反倒更增加了它的吸引力。沃爾瑪擁有世界上最大的數(shù)據倉庫系統(tǒng),為了能夠準確了解顧客在其門店的購買習慣,沃爾瑪對其顧客的歷史購物行為進行購物籃分析,想知道顧客經常一起購買的商品有哪些。沃爾瑪數(shù)據倉庫集中了其各門店的詳細原始交易數(shù)據,在這些原始交易數(shù)據的基礎上,沃爾瑪利用數(shù)據挖掘方法對這些數(shù)據進行分析和挖掘,發(fā)現(xiàn)了一個很有意思的現(xiàn)象:嬰兒尿布和啤酒有很高的相關度,即跟尿布一起購買最多的商品竟然是啤酒!

不要忘記我們前面說的四個基本特征。有效?沒問題,沃爾瑪?shù)臄?shù)據存儲和分析肯定都是正確有效的。新穎?當然!在這之前,誰會想到啤酒和尿布會是一起購買最多的商品呢?那么,這個發(fā)現(xiàn)有用么?當然有用,這個發(fā)現(xiàn)可以幫助沃爾瑪商場合理擺放商品。一個從眾思維的經理會利用這個發(fā)現(xiàn)把啤酒和尿布擺放到一起,方便顧客購買,這是中規(guī)中矩。但是,一個有批判思維的經理會覺得把啤酒和尿布擺放得越遠越好,這樣一來,顧客拿了啤酒就要在商場里穿過別的貨架去拿尿布,這個過程中可能又看到別的感興趣的但沒準備買的東西,也裝入購物車,增加了商場的額外收入。最難的應該是最后一個特征,這個現(xiàn)象可不可以解釋?它是不是一個純粹的巧合?在把這個故事講了幾十遍以后,我的學生們基本上有兩個解釋。一個是有了孩子以后,丈夫出去泡酒吧的機會少了,只好自己買啤酒在家自酌自飲。另一個是丈夫工作了一天回家還要照顧孩子,很累,有一些抑郁,于是需要一些酒精的麻醉,借酒澆愁。應該說,這兩個解釋都基本可信。所以,這個發(fā)現(xiàn)符合四個基本特征,是一個典型的數(shù)據發(fā)掘的應用例子。

數(shù)據挖掘還有一個有趣的例子,也是關于沃爾瑪?shù)模@個是真的,不是傳說。沃爾瑪想知道在自然災害來臨前,比如颶風、龍卷風等,顧客都買什么東西。也就是說,想通過數(shù)據發(fā)掘找到和自然災害預報相關的顧客購物習慣。通過對其各門店的詳細原始交易數(shù)據的挖掘,沃爾瑪確實發(fā)現(xiàn)了一種商品顧客買得相當多,而沃爾瑪以前卻不知道。通常,人們會猜是電池、水、面包、膠帶等,但是,這些商品和自然災害的相關性還用數(shù)據挖掘嗎?根本不用!人人都知道自然災害來臨前要買這些東西,所以他們不構成新穎的特征。沃爾瑪發(fā)現(xiàn)一種新穎的商品——高糖壓縮餅干。仔細一想,這個也好理解,如果自然災害真的很嚴重,把人在地下室困上幾個星期的話,面包早就壞了,而高糖壓縮餅干,別說幾個星期,就是幾個月甚至幾年,都沒問題,并且高糖壓縮餅干體積小、易攜帶。那么,沃爾瑪如何利用這條數(shù)據挖掘結果呢?很容易,每次有自然災害預報的時候(比如颶風要來了),它就要保證店面里有充足的高糖壓縮餅干供應,不要脫銷。

那么是不是有的時候數(shù)據挖掘的結果無法解釋呢?當然有。好萊塢著名女星安妮·海瑟薇(Anne Hathaway)的姓和華爾街投資家巴菲特的公司其名稱的后一個詞一模一樣,都叫“Hathaway”,一個叫Anne Hathaway,一個叫Berkshire Hathaway。有好事者做了一個數(shù)據挖掘,發(fā)現(xiàn)如下有趣現(xiàn)象:

● 2008年10月3日,《Rachel Getting Married》首映;同天,巴菲特公司的股票(BRK.A)上漲0.44%;

● 2009年1月5日,《Bride Wars》首映;同天,巴菲特公司的股票(BRK.A)上漲2.61%;

● 2010年2月8日,《Valentines Day》首映;同天,巴菲特公司的股票(BRK.A)上漲1.01%;

● 2010年3月5日,《Alice in Wonderland》首映;同天,巴菲特公司的股票(BRK.A)上漲0.74%;

● 2010年11月24日,《Love and Other Drugs》首映;同天,巴菲特公司的股票(BRK.A)上漲1.62%;

● 2010年11月29日,安妮·海瑟薇被選為奧斯卡聯(lián)合主持人;同天,巴菲特公司的股票(BRK.A)上漲0.25%。

每當好萊塢著名女星安妮·海瑟薇的電影上映的那天,或者其他正面消息的那天,巴菲特公司的股票都不同幅度地漲了!新穎不?太新穎了!有用不?太有用了!能解釋不?太難了!有一種可能就是投資者以為巴菲特的公司和好萊塢著名女星安妮·海瑟薇有某種裙帶關系,所以電影出來的時候,也就是公司股票利好的消息。可這基本不可能,巴菲特的公司股票一股要十幾萬美元,根本就不是普通投資者能買得起的,那些精明的投資公司絕對不會笨到不知道巴菲特的公司和好萊塢著名女星安妮·海瑟薇有沒有裙帶關系的地步。所以可以肯定地說,這是一個純粹的巧合,沒有任何的因果關系。解釋不了,就不是數(shù)據挖掘。

相關閱讀