世界上最大最忙的數(shù)據(jù)倉(cāng)庫(kù):Yahoo!

2008-05-30 13:17:57      s1985

    微軟對(duì) Yahoo! 的收購(gòu)持久戰(zhàn)可能讓很多人都新聞疲勞了。但今天看到的這個(gè)關(guān)于 Yahoo! 的技術(shù)新聞還是值得看一下的:Size matters: Yahoo claims 2-petabyte database is world"s biggest, busiest .Yahoo! 的 VP Waqar Hasan 在文中披露 Yahoo!的數(shù)據(jù)倉(cāng)庫(kù)當(dāng)前容量為 2PB.用于分析每月5億的用戶訪問行為,每天處理 240 億次的事件,號(hào)稱世界上單個(gè)最大、最忙的數(shù)據(jù)庫(kù)。

    盡管有的數(shù)據(jù)倉(cāng)庫(kù)容量要比雅虎的大。但那些 DB 或是存儲(chǔ)非關(guān)系性數(shù)據(jù),或是存儲(chǔ)的壓縮后的原始數(shù)據(jù),不能進(jìn)行即時(shí)分析,雅虎之前的也有數(shù)百 T 這樣的數(shù)據(jù)。眼下 Yahoo!數(shù)據(jù)倉(cāng)庫(kù)存儲(chǔ)的是結(jié)構(gòu)化、可分析的數(shù)據(jù)。預(yù)計(jì)下一年可能膨脹到數(shù)十 PB .eBay 號(hào)稱數(shù)據(jù)總量有 6PB ,不過根據(jù)一些消息來看,單個(gè)最大的 DB 只有 1.4 PB.

    Yahoo! 在 2005 年買了一家叫 Mahat Technologies 的初創(chuàng)公司(就是 Waqar Hasan 操刀的),這家公司以 PostgreSQL 數(shù)據(jù)庫(kù)為基礎(chǔ),開發(fā)了一個(gè)新型 DB,其特點(diǎn)是 基于列 的而不是基于行的模式。不難理解,這樣數(shù)據(jù)寫入的速度會(huì)慢下來,但是讀取的速度會(huì)快很多「去年的俠客行上,雷鳴在演講的時(shí)候講過他在百度的時(shí)候做的一個(gè)優(yōu)化的例子。和這個(gè)思想非常相似,所以當(dāng)時(shí)我說對(duì)我"有啟發(fā)"」。Yahoo! 買了之后,對(duì)該產(chǎn)品進(jìn)行了持續(xù)性的改進(jìn)(內(nèi)部代號(hào): ELCARO ?) ,比如壓縮,并行處理能力加強(qiáng)、優(yōu)化查詢等等特性的添加改進(jìn)。而針對(duì)使用者的接口仍是 PostgreSQL .這應(yīng)該也算 PostgreSQL 在頂級(jí)企業(yè)又一個(gè)成功案例。

    這么大的數(shù)據(jù)庫(kù)并沒有采用傳統(tǒng)的 SMP 架構(gòu)構(gòu)建,而是采用普通 PC 作集群(用了不到 1000 臺(tái)) .很明顯這是 Share Nothing 而不是 Share Storage 的 DB 集群。通過上述獨(dú)特的設(shè)計(jì)方式,能夠?qū)Υ撕A繑?shù)據(jù)進(jìn)行有效的分析,這是個(gè)不小的技術(shù)革新,也是與 Google Map Reduce 完全不同的計(jì)算模式。

    讓人感慨的是 關(guān)于世界上的超大數(shù)據(jù)庫(kù) 一文中羅列的數(shù)據(jù),現(xiàn)在看起來已經(jīng)并不驚人了。以前總說信息爆炸,這個(gè)時(shí)代剛剛來臨。

相關(guān)閱讀