大數(shù)據(jù)就是年輕人談“性”?

2014/03/14 11:32      呂本富

在“2014西湖品學”大數(shù)據(jù)峰會上,中科院大學管理學院教授呂本富發(fā)表了《大數(shù)據(jù)分析的經(jīng)濟價值》的演講。呂本富表示,如果大數(shù)據(jù)并不是年輕人談性,就要提一個問題是“價值在哪里”。價值并不是忽悠,要從企業(yè)競爭角度創(chuàng)造了什么價值,所以價值在哪里,應該是所有大數(shù)據(jù)做經(jīng)濟分析中最重要的關鍵詞,在哪里存活。

以下為呂本富的演講整理:

經(jīng)常有人引用這一段話:“大數(shù)據(jù)就是年輕人談性,我說你做過,你說我做過,大家誰都沒有做過”。很多傳統(tǒng)企業(yè)都是這么說,如果大數(shù)據(jù)并不是年輕人談性,就要提一個問題是“價值在哪里”。價值并不是忽悠,要從企業(yè)競爭角度創(chuàng)造了什么價值,所以價值在哪里,應該是所有大數(shù)據(jù)做經(jīng)濟分析中最重要的關鍵詞,在哪里存活,在這里就是價值。

應用需求驅(qū)動商業(yè)模式,商業(yè)模式帶來里經(jīng)濟價值,這就是大數(shù)據(jù)的立足點。互聯(lián)網(wǎng)承載了太多的信息和信號,大眾的情緒、消費者喜好、市場潮流、不同人群的關注點等等。

從商業(yè)模式的角度看,把它分為三類:第一類是圈定用戶和針對營銷,就是誰是我的客戶、誰不是;第二類,用戶的關聯(lián)分析,在用戶群當中是老的、少的,他們有什么關系;第三類,完全個性化定制或者個性化分析,就是先確定大圈子,然后圈子中分類,然后個性化。

應該說,不同情況下有不同的價值,不管對哪個學派或者實踐都認為管理的本質(zhì)是決策,而決策最重要的本質(zhì)是受信息不對稱的影響,信息越對稱決策價值越大,如果可以通過大數(shù)據(jù)的挖掘分析可以作出決策,最根本是能不能有助于決策,這是核心。由于決策之后會使得企業(yè)的競爭規(guī)則發(fā)生變化,我們知道大部分學過MBA的同學都知道邁克爾波特說過競爭的價值取決于經(jīng)濟價值。如果創(chuàng)新會帶來一些競爭優(yōu)勢,但是容易被別人山寨,我們知道我們山寨能力很強,我的成功可以復制,我的復制可以成功,什么才是持久的能力呢?低成本高效率,過去認為是戰(zhàn)術(shù)性,過去認為低成本高效率是戰(zhàn)術(shù)型,現(xiàn)在看來是一個國家和企業(yè)的長期競爭,就是差異化、低成本,但如果不和運營效率放在一起就不是長久的競爭力。低成本高效率就是大數(shù)據(jù)的彈性商業(yè)過程,各個過程無縫隙、無摩擦的對接。

首先生產(chǎn)體系是對接,第二,、各個體系摩擦成本降到最低,所以我們把數(shù)據(jù)價值分為三類:第一,數(shù)據(jù)驅(qū)動的決策;第二數(shù)據(jù)驅(qū)動的流程;第三數(shù)據(jù)驅(qū)動的產(chǎn)品。

第一個就是提高預測概率,提高決策成功率。今天上午有一個阿里金融的說計劃經(jīng)濟比市場經(jīng)濟優(yōu)越,因為可以有大數(shù)據(jù)、定制、預售,其實就是第一個說的,數(shù)據(jù)驅(qū)動的決策可以提高預測的概率。講一件專業(yè)的事情,不知道各位是否知道“最大最小定制”。什么意思呢?傳統(tǒng)雙方博弈的時候,比如說你是踢球員,我和守門員,我們兩方的博弈就是我們兩方的概率應該是對等。大數(shù)據(jù)就是最大最小定制,我要對你的細致了解,因為我不是博弈性質(zhì)和概率性質(zhì),所以決策可以提高預測概率。

第二個是數(shù)據(jù)驅(qū)動流程,就像今天上午老師說的我們要形成閉環(huán)營銷的成功率,就是我劃了圈子,所有客戶都在圈子里,所有營銷對折他來,還要和漏斗轉(zhuǎn)化結(jié)合,這就是數(shù)據(jù)驅(qū)動流程。

第三個產(chǎn)品是迭代的創(chuàng)新,創(chuàng)新有顛覆性創(chuàng)新和迭代的創(chuàng)新,經(jīng)常有人說把誰誰顛覆了,我不喜歡聽這個詞,我喜歡迭代,就是小步快跑,大數(shù)據(jù)一般指導的是小步快跑的迭代創(chuàng)新,現(xiàn)在微信為什么很牛,因為迭代很強,就是今天改一個功能明天改一個功能,這三類會帶來價值。

針對這三類,因為大數(shù)據(jù)最重要的是決策和優(yōu)化,對企業(yè)來說決策和優(yōu)化可以代替效率,可以把迭代和優(yōu)化分為三個層級:第一誰在圈子內(nèi),第二屬于圈子內(nèi)的哪個族群,第三個是圈子消耗。廣告界有一句話名言叫做“我知道我的廣告費有50%恩浪費了,但不知道哪一半”?,F(xiàn)在就是要通過大數(shù)據(jù)排除非相關人員,確定圈子和利益相關者,這是有效影響,其他沒有有效影響的基本上和我沒有關系。不知道在座有沒有看過郭敬明的《小時代》,我看不懂,就寫了罵他,但他照樣賣3個億,我就不是他的客戶,不是他的圈子?,F(xiàn)在不要全國人民擁護我,只要圈子擁護我就發(fā)財了。然后是不管是哪一類數(shù)據(jù),圈定了就有價值。

第一個層級是針對一個具體的應用,依據(jù)性別、收入、地域、年齡等特點,簽訂相近的人群。比如在電子商務網(wǎng)站內(nèi),預測什么地方的人買東西最瘋狂或是預測什么型號手機最好賣,麥當勞、肯德基以及蘋果公司器件專賣店的位置精準選址,針對這個全體如何進一步打磨廣告、市場營銷等等,就可以優(yōu)化定價策略和產(chǎn)品線。

第二個層級就是通常說的在確定圈子以后,需要把商品和人群分為不同的族群的通過族群和消費者當中確定消費人群,購物籃是最常見的大數(shù)據(jù)分析技術(shù),過去就是打印單上家庭主婦放在什么地方一塊兒買了,比如說塔吉特針對懷孕的婦女,做了一個“懷孕指數(shù)”,就像中國有一句話叫酸兒辣女,通過懷孕指數(shù)可以知道預產(chǎn)期。我們經(jīng)常會說通過過程數(shù)據(jù)和結(jié)果數(shù)據(jù)進行關聯(lián)性分析。并不是關聯(lián)性分析很容易,其實也有難點。比如說對書、手機、家電的Hard Line的產(chǎn)品可以認為是標品,通過時間序列預測是比較準的,但對服裝、裝飾等是軟性商品,無法通過時間預測,因為這類東西受到干擾東西太多,比如說顏色、合不合身,還有朋友的意見,而且買得人多了就不買了,所以這樣軟性產(chǎn)品的預測非常困難,比如說從術(shù)語來說是多維變量,就比較難。

第三個層級確定圈子個體的特征,由此提供個性化的定制、產(chǎn)品和服務,比如說有一個電影叫《點石成金》,里面就是專門算哪一個球手,比如說我這個球隊進攻最弱,就把進攻最強的球員買過來。比如說我有一個芯片安裝在汽車上就可以測試駕駛習慣,拐彎是不是很急,剎車是不是很穩(wěn),確定每年效率稅率,過去中國人完全說看客下菜碟,從消費者來說為每一個人定價才是最好的,基本上所有的生產(chǎn)者剩余都拿到自己的手里,過去沒有這個條件,現(xiàn)在大數(shù)據(jù)就可以進行個性化定價。所以航空公司和快遞公司可以提供體貼入微的服務,沃爾瑪利用數(shù)據(jù)分析提供最優(yōu)的價值。確定圈子、確定關系、確定定價以前就有,只是通過大數(shù)據(jù)確定價值,帶來新的增量。

既然數(shù)據(jù)的科學,大家覺得大數(shù)據(jù)完全是忽悠的概念,經(jīng)過最近實踐探討,我們覺得它確實和原來的統(tǒng)計不一樣,但是和原來數(shù)據(jù)挖掘的方法論不一樣,它確實有點新的問題,問題就是解決任何問題都有一個叫方法,在過去問題多樣性手段是豐富的,不同的行業(yè)特性、不同的企業(yè)規(guī)模、不同的成長階段產(chǎn)生了很多共同特點,又有個性鮮明的問題。在解決管理學的問題,工具非常多,過去有人統(tǒng)計世界上有200多種研究的方法。這些盲人都要和數(shù)據(jù)結(jié)合在一起,正好演講開始就講了氣象,其實作1913年一個叫理查森就找到了空氣動力學方程,他為了幫助中國打一站,根據(jù)他的方程可以預測出第二天的天氣,問題是準備數(shù)據(jù)需要6個星期,所以一直到一戰(zhàn)結(jié)束的時候理查森的數(shù)據(jù)沒有準確過。一直到20世紀,現(xiàn)在對過去天氣的統(tǒng)計可以精確到5%,剛才演講者說可以達到85%了,所以我們檢測的時候數(shù)據(jù)還是那個數(shù)據(jù),但方法不一樣了。

所以在大數(shù)據(jù)背景下,方向不一樣了。問題從預測、選擇、優(yōu)化、仿真重點轉(zhuǎn)向了關聯(lián)和決策,現(xiàn)在最重要找關聯(lián)關系能不能決策變成問題最重要的方式了,其實這也是中國人所擅長的,我原來做大數(shù)據(jù)演講的時候,有人說大數(shù)據(jù)西方怎么好,我就告訴他也不是這樣的,中國人搞中醫(yī)不就是大數(shù)據(jù)嗎?中醫(yī)只管關聯(lián)不管過程的,按摩好了不管中間的機理,但是那個藥吃死多少人不知道,中醫(yī)就是大數(shù)據(jù),只管相關關系,不管過程。數(shù)據(jù)就是從小樣本轉(zhuǎn)減模型大數(shù)據(jù)的研究范式,所以對數(shù)據(jù)結(jié)構(gòu)的深入分析將會成為重點。

數(shù)據(jù)有些什么問題呢?

我們經(jīng)常在做數(shù)據(jù)分析的時候發(fā)現(xiàn)兩個相關,就是高頻數(shù)據(jù)和低頻數(shù)據(jù)需要統(tǒng)一。比如說淘寶的交易數(shù)據(jù)是每秒、每個小時、每日,高頻數(shù)據(jù)的研究是對時間尺度極小的,低頻數(shù)據(jù)的研究是時間尺度極大的,經(jīng)濟危機是三十年一個循環(huán)就是很大的數(shù)據(jù)周期,所以高頻數(shù)據(jù)和低頻數(shù)據(jù)是怎么,流感傳播是以一個星期,對接不好了就會出問題。

還有高階數(shù)據(jù)和低階數(shù)據(jù),因為我們在商品預測上很多,過去不僅取決于過去的財富量還取決于當前的財富,如果把財富看成Y,那么財富的一階導就是當期的收入,財富的二階導就是拐點,就是未來的收入,所以決定消費者的表征就是C=C(y,y’,y’’)所以經(jīng)濟系統(tǒng)當中引入高階變相和低階變量,即未來變量和滯后變量,都非常重要。過去小數(shù)據(jù)沒有這樣的條件,小數(shù)據(jù)都不知道哪個是未來哪個是當期,大數(shù)據(jù)可以找出。

還有微觀變量,我們和阿里做消費者信息指數(shù)的時候發(fā)現(xiàn),如果把全網(wǎng)加起來做指數(shù)非常難,因為類目老是變動。一般來說,熱力學類型的數(shù)據(jù),我們學物理都知道,熱力學類型的數(shù)據(jù)都是宏觀數(shù)據(jù),比如說壓氣等等,都是事物趨勢和可能。動力學類型的微觀數(shù)據(jù),比如說速率、類目等,反應是一個事物的實現(xiàn)性,這是微觀數(shù)據(jù)。比如說我們和阿里做消費者信息指數(shù)的時候一定不能做微觀數(shù)據(jù)。動力學和數(shù)據(jù)和熱力學不能混同,如果混同就會有問題,因為類目老是調(diào)整。

第四個是高維數(shù)據(jù)和變維數(shù)據(jù)的問題。高維數(shù)據(jù)包括三種,比如篩因變量和高維的,即一個變量可以影響很多變量,第二個是自變量是高維向量,影響一個變量變動的因子有很多,第三個是因變量和自變量都是高維的向量。當因變量和自變量都是高維的時候,現(xiàn)在有人說炒股有27000多個變量,所以很多人搞不清楚。這個要做相關性分析怎么做呢?多維變量和多維變量的工具不是很多,所以我跟我們一個數(shù)據(jù)老師說你做一個這樣的工具將來揚名立萬了。在學科交界處,不但存在高維數(shù)據(jù),還存在變維數(shù)據(jù)。不要認為這很虛,比如說這類人群對某一類服裝的銷售就是多維和多維變量的問題,所以現(xiàn)在為什么叫軟線產(chǎn)品,多維變量的關系很難理解,而且還有變維,就是有一個緯度影響不是很大。而且交易數(shù)據(jù)不僅是時間序列,而且和政治、自然、人際、情緒都有關系。其實數(shù)據(jù)除了剛才說的以外,還有很多,我們在進行大數(shù)據(jù)分析的時候,黑天鵝事件和異常值分析等等,比如說異常值分析,在過去統(tǒng)計分析中異常值就舍棄了,但大數(shù)據(jù)異常值很多,異常值在過去挖掘當中就很少,現(xiàn)在做大數(shù)據(jù)很多。

我只講了四個,大數(shù)據(jù)分析當中可能遇到的大概有十類問題。今天時間有限,就不說那么多了,謝謝大家!

相關閱讀