導(dǎo)語:
“我們把世界看成數(shù)學(xué),并且把你也看成數(shù)學(xué)”--用這句話來說明數(shù)據(jù)挖掘技術(shù)的復(fù)合性和應(yīng)用的廣泛性似乎再好不過。如今,雖然一些行業(yè)在應(yīng)用這一技術(shù)上仍然缺乏足夠的主動,但一個不能阻擋的趨勢是:已經(jīng)有越來越多的人在快樂而有效地使用這一技術(shù)并且不由自主地成為它的“挖掘”對象。
引子:
禽流感該如何更好地監(jiān)控?今天你寫B(tài)log了嗎?
你是否覺得這兩個問題連在一起問很無厘頭?
事實上,美國一家公司正在試圖讓這兩個事件之間的關(guān)系日漸明了。
這家公司目前正在通過從全球的Blog網(wǎng)頁中作挖掘出和禽流感相關(guān)的信息,從而建立一個預(yù)警機制。這一項目考慮到Blog已經(jīng)成為新聞傳播的重要途徑,先從網(wǎng)上抓取有關(guān)禽流感的網(wǎng)頁,存入到公司的數(shù)據(jù)倉庫,再指定“國家”為關(guān)鍵目標(biāo)詞,然后利用關(guān)聯(lián)分析技術(shù),即可得到和禽流感關(guān)聯(lián)最大的國家,由此可以判定該國的禽流感傳染可能比較嚴(yán)重。
就在此前,已經(jīng)有很多人在抱怨,網(wǎng)上多如牛毛的Blog除去浪費了人們數(shù)以十萬年的閱讀時間之外,還有多少用處?如今,商業(yè)智能領(lǐng)域中的數(shù)據(jù)挖掘技術(shù)正在力圖從這些爆炸式增長的Blog中“挖”出更有價值的東西,同時它也正在更多領(lǐng)域中展示其非凡的力量。
工具篇:前方是岔路口
數(shù)據(jù)挖掘其實并非單純的IT技術(shù),而是數(shù)學(xué)家和計算機科學(xué)家之間的合作產(chǎn)物。在過去十年中,高等數(shù)學(xué)和計算機建模的聯(lián)姻改變了科學(xué)和工程技術(shù),以至于有人認(rèn)為這一合作已經(jīng)開創(chuàng)了一個全新的商業(yè)領(lǐng)域。
有關(guān)數(shù)據(jù)挖掘技術(shù)的定義有很多版本,綜其要點,主要在于應(yīng)用一系列統(tǒng)計與人工智能技術(shù)來發(fā)現(xiàn)以前并不了解的數(shù)據(jù)規(guī)律,并解決實際業(yè)務(wù)問題。如今,數(shù)據(jù)挖掘技術(shù)已經(jīng)從最開始的一個簡單的算法包,發(fā)展出通用挖掘平臺和專業(yè)挖掘工具兩大種類。其中,像IBM、NCR、 SAS、微軟、SPSS、StatSoft等廠商的數(shù)據(jù)挖掘產(chǎn)品(模塊)基本都是通用型工具平臺;而像美國的 Unica 公司、費爾艾薩克公司(Fair IsaacCorporation)則主要專注于諸如營銷自動化、信用卡積分等細(xì)分領(lǐng)域,屬于后一種工具。
具體來看,目前在數(shù)據(jù)挖掘領(lǐng)域聲勢頗大的大多是通用型工具平臺,像IBM、NCR、SAS、微軟、Oracle 、SPSS、StatSoft等都是如此。
“現(xiàn)在IBM更側(cè)重的是平臺優(yōu)勢?!盜BM軟件部中國區(qū)DB2信息管理技術(shù)經(jīng)理劉晶煒明確表示。目前,IBM的 DB2中包含Intelligent Miner for Data和Intelligent Miner for Text兩個數(shù)據(jù)挖掘模塊,將數(shù)據(jù)挖掘和數(shù)據(jù)倉庫整合到一個平臺之上。其中,前者主要針對結(jié)構(gòu)化信息,主要分為建模、瀏覽、Scoring Service三個部分;后者則是針對文本的挖掘模塊,其主要功能是特征抽取、文檔聚集、文檔分類和檢索。
NCR Teradata的數(shù)據(jù)挖掘工具同樣也是與其數(shù)據(jù)倉庫整合在一起。具體來說,其數(shù)據(jù)挖掘工具可以按照挖掘的步驟主要分成Profiler、ADS Generator、Warehouse Miner和模型管理器四塊。目前Teradata最新版的數(shù)據(jù)挖掘方案是Teradata Warehouse Miner 4.1。
SAS 公司和SPSS公司作為兩家從傳統(tǒng)的統(tǒng)計分析技術(shù)發(fā)展而來的數(shù)據(jù)挖掘廠商,二者在業(yè)內(nèi)的影響力可謂有目共睹。其中,SAS 公司提供了SAS Enterprise Miner 、SAS ETS(時間序列預(yù)測)、SAS OR(運籌學(xué))、SAS STAT(統(tǒng)計分析)、SAS QC(質(zhì)量控制)等一系列工具;SPSS公司也提供了Clementine和AnswerTree兩項產(chǎn)品。
總起來看,像IBM、NCR、Oracle、微軟這些平臺工具廠商基本上都是以提供“整車”為己任。一句話,只要用戶不是很挑剔,基本上都可以在某一家那里即可買全包括數(shù)據(jù)挖掘工具在內(nèi)的全套商業(yè)智能產(chǎn)品。而像SAS、SPSS、StatSoft等公司雖然也宣稱提供工具平臺,但提供“整車”的實力有限,主要在統(tǒng)計分析和數(shù)據(jù)挖掘領(lǐng)域延伸提供盡可能多的工具組件。
相對于這些挖掘工具平臺,專業(yè)挖掘工具可能在市場的聲勢并不大,但是像Fair Isaac 公司、Unica 公司的發(fā)展卻也相當(dāng)不錯。比如像Fair Isaac 公司就已經(jīng)占據(jù)了全球信用卡積分市場70%-80%的份額,幾乎達(dá)到壟斷。該公司的創(chuàng)始人發(fā)明了一個信用評分卡(即費寇分?jǐn)?shù),F(xiàn)ICO score),由此可以預(yù)測人的未來償付行為,為消費者信用行業(yè)提供一個有效的預(yù)測工具。同樣,美國 Unica 公司的 Affinium Model 則是一款專注于市場營銷自動化的數(shù)據(jù)挖掘工具軟件。
那么,面對這兩種工具,用戶該如何選擇?換句話講,哪種工具才是未來的發(fā)展方向呢?
中國傳媒大學(xué)調(diào)查統(tǒng)計研究所副所長、數(shù)據(jù)挖掘研究室主任沈浩認(rèn)為,平臺化肯定是將來的一個發(fā)展方向,而且,中國的市場足夠廣闊,也可以容得下一批這樣的平臺廠商。IBM軟件部中國區(qū)DB2信息管理技術(shù)經(jīng)理劉晶煒也表示,正與SAS進(jìn)行更多的合作,以便進(jìn)一步統(tǒng)一數(shù)據(jù)挖掘領(lǐng)域的技術(shù)標(biāo)準(zhǔn)。而Teradata數(shù)據(jù)倉庫專家盛秋戩博士則認(rèn)為,目前的平臺工具雖多,但從根本上講,都是在用橫向的數(shù)據(jù)挖掘工具解決縱向的行業(yè)業(yè)務(wù)問題。他表示,如果從用戶出發(fā),用戶應(yīng)該更歡迎那些專業(yè)挖掘工具。
現(xiàn)在數(shù)據(jù)挖掘領(lǐng)域的確存在平臺化趨勢,但專業(yè)工具也占領(lǐng)了一些市場。有些公司就是只選出并優(yōu)化某些算法,再加上行業(yè)經(jīng)驗,就可以使建模過程更加優(yōu)化。另據(jù)SYBASE商務(wù)智能總監(jiān)廖鋼城介紹,其實在日本,就有公司專門銷售一種類似“黑匣子”的專業(yè)工具,銀行積累的數(shù)據(jù)在里面跑一遍,就直接出來結(jié)果。這種工具用得也很好。而在另一方面,他也認(rèn)為,提供平臺的廠商會越來越少。
如此看來,業(yè)界對于工具的發(fā)展方向似乎并無太大異議,即平臺工具會保持在一個適當(dāng)?shù)臄?shù)量,而專業(yè)工具顯然更得用戶的寵愛。而現(xiàn)在,數(shù)據(jù)挖掘技術(shù)的發(fā)展剛好到了一個岔路口,一邊指向通用型,一邊指向?qū)I(yè)型,就看企業(yè)要往哪個方向走了。
微軟在SQL Server 2005中在數(shù)據(jù)挖掘方面的突破與創(chuàng)新曾被人看作最令人驚艷的地方。Microsoft SQL Server 2005 Data Mining 平臺的確引入了大量的數(shù)據(jù)挖掘功能,其本身就是一個開發(fā)智能應(yīng)用程序的平臺,而非一個獨立應(yīng)用程序。而且,這一平臺與所有 SQL Server 產(chǎn)品實現(xiàn)了集成,包括 SQL Server、SQL Server Integration Services 和 Analysis Services。據(jù)稱,SQL Server 2005 中最重要的數(shù)據(jù)挖掘功能就是其處理大型數(shù)據(jù)集的能力,它允許模型對整個數(shù)據(jù)集運行,從而消除了采樣方面的挑戰(zhàn)。