前言:
從近來各種大小規模的企業與產業競相佈建商業智慧(BI)系統的現象來看,此一技術對企業制定正確之經營與行銷決策的重要性已不言自明。但是,如何選擇甚至設計一套最適合其業務範圍、產業特性,以及特殊需求的商業智慧系統,著實令企業經營者傷透腦筋。本文將逐一介紹建構完整BI系統所需的主要工具,以提供企業選擇產品之參考。
經過多年的演進與調整,目前的商業智慧系統已發展出一套完整的架構,標準的作業程序是以建置資料倉儲(Data Warehouse;DW)為基礎,將不同作業系統資料庫、不同來源、不同型態的資料,經過清洗(Cleansing)以及擷取、轉換、載入(Extraction, Transformation, Loading;ETL)等程序後,以一致的格式經組織化地儲存在資料倉儲中,以供管理者使用各式線上查詢分析處理工具(On Line Analytical Processing;OLAP)、資料採礦(Data Mining;DM)、決策支援系統(Decision Support System )。
經過這些縝密的步驟,商業智慧系統可使用者協助挖掘出埋藏在數據資料背後的知識,將其轉化成為有助於企業決策的有用知識,作為決策支援的依據,甚至可預測未來的趨勢。
雖然BI技術已發展出標準流程,但其中所使用的技術、方法論、軟體工具包羅萬象,各家廠商所提供的解決方案也有很大的差異。以下將就幾項主要技術的特性逐一探討。
資料倉儲:為BI平台奠基
資料倉儲是一切商業智慧系統的基礎,如果沒有資料倉儲,或是沒有足夠的資料量,後續的彙整、分析、決策工作都不可能實現。我們可由廣義與狹義的定義來探討資料倉儲技術。
就狹義或其原來的定義而言,資料倉儲一般是指一個超大型的資料庫。隨著近年來個人電腦及網際網路的蓬勃發展,使得企業界得以持續不斷地收急並累積大量的資料,如欲完整地將所有長期搜集的資料保留下來,並轉化為有用的營運資訊,當務之急是建立一個超大容量,可集中儲存電子化資訊的關聯式資料庫,資料庫容量大小可能從50 gigabytes(GB)到1 terabyte(TB)不等。各種不同來源與型態資料,不論是報告、型錄、相片、影音光碟,或是錄音存檔,在存入資料庫之前必須先經過格式的轉換與清洗等處理步驟。如此一來,企業便可確定資料倉儲本身所含資料是乾淨的(即事先剔除了錯誤的資料)、完整的,且經過整合的,以免誤導企業而使決策行為產生混亂與誤用。
此後,資料將以整齊的形式與系統化的排列方式儲存在倉儲系統內,以供查詢和分析之用。因此,從廣義來看,Data Warehouse更深層的意義是資料的整個轉化流程,現在業界普遍以資料倉儲一詞泛指包括OLAP、ETL、DSS等工具的整合式軟體平台。
資料倉儲可達成二個主要目標:資料管理(控制現存之資料混亂狀態)以及資料展現(提供直覺式的企業資訊存取方式)。一般而言,資料倉儲包括以下的元件:
‧運作的資料來源(Operational data sources)
‧設計/開發工具
‧資料抽取(data extraction)與轉換(transformation)工具
‧資料庫管理系統(DBMS)
‧資料存取與分析工具
‧系統管理工具
相對於傳統系統的被動式查詢(當需要查詢時才做運算),資料倉儲採主動式查詢(當來源更動時,即作出相對應的反應),因此Data Warehouse系統能夠主動地從所有的分散式﹙distributed﹚、自主性﹙autonomous﹚、異質性﹙heterogeneous﹚的資料來源中,搜集、擷取並維護相關的資訊。當企業內部各個部門需要利用不同資料來源,或是變動資料庫的內容時,資料倉儲系統便可以將擷取對應的資料,並經過格式處理並轉換成內部型態後,再與已存放於資料倉儲中的資訊互相整合。由於資訊已事先存於系統中,因此可即時地反應查詢及資料分析工作。
運作速度與彈性是核心資料庫之設計的關鍵。現今大多數的商業智慧系統多採取傳統關聯式資料庫(RDBMS),其缺點是容易使得原始資料暴增到四、五倍,而且在收集資料後,無法將資料作多向廣度面的運用,有些廠商特別強調其資訊倉儲工具結合了創新的專利查詢處理技術及效能最佳化的方法來進行高效能資料分析,以提供比傳統關聯式資料庫快了100倍的即席查詢效能。
目前的資料倉儲系統具備以下幾個特色:
- 主題導向(Subject-Oriented)--在任何企業中,資料自然的會以相同的種類或主題聚集在一起,因此資料倉儲以這些高層次且不重複的主題為主要的處理對象,例如:顧客、訂單、產品、供應商等等,有別於作業系統的流程導向。
- 整合性(Integration)--資料倉儲內的資料必須具有相當整合性,在資料的轉換過程中,要讓欄位名稱、測量變數、編碼方式、日期時間等等主題屬性具有一致性的格式。
- 時間變化性(Time Variation)--日常的作業系統每天都有新資料增加,為維持資料倉儲的可用性,必須在某些特定的時間點到作業系統中擷取新資料,稱之為「快照(Snapshot)」。
- 非揮發性(Non Volatilization):當資料放到資料倉儲中後,便不再隨著時間的變化而有異動、修正或更新,因此具有唯讀的性質。
另外,許多人將資料超市(Data Marts)與資料倉儲混為一談。資料超市所涵蓋的範圍比資料倉儲小,其資料的涵蓋範圍為企業的部份資料,而且是屬於特定主題的資料。事實上,此種倉儲模式為資料倉儲的一個子集,一般僅提供部份資訊,給某一群使用者或某一部門使用,以符合企業內部的特殊需求。企業級資料倉儲的建置與管理往往非常昂貴且耗時;建立的方法通常是從上到下(top down)由統籌的資訊服務單位主導。而資料超市通常只為了特定的決策支援應用程式或使用群組而設計,採由下而上(bottom up)的建置方式。
功能完備的資料倉儲系統還需支援複製功能,也就是在本公司之外的遠端複製一份資料庫,除了可儲存備份檔案外,同時也可也效地進行災難復原(Disaster Recovery)的工作,以確保本公司在發生災害(如火災、水災,或地震)致使資料發生損毀時,還有備份的資料在遠端安全的保留著。
資料探堪
Data Mining有許多不同的中文譯法,如資料探堪、資料挖掘或資料採礦,主要是描述其探掘礦藏般從龐大的資料庫中尋找出有價值的隱藏事件,並且加以分析的特性。
資料探堪技術包含了統計技術、資訊工程、行銷企畫、財務分析等技術的組合,所著重的是資料庫的再分析。藉由模式比對的方式,Data Mining技術可在企業所蒐集了的市場、客戶、供應商、競爭對手以及未來預測等大量資料中,找尋如趨勢(Trend)、特徵(Pattern)及相關性(Relationship)等隱藏在背後具特殊含意的訊息,以執行預測模型、市場區隔、關聯分析及偏差行為等作業。
Data Mining技術將可來挖掘更多知識。資料採礦將能協助企業利用不同的分析工專家建議企業須小心使用資料探勘所得的結果,不可完全依賴它,因為Data Mining工具是用來從資料中發掘出各種假設(Hypothesis),但是它並不負責查證(Verify)假設,也無法確認資料的真實性。
一般而言,Data Mining的理論技術可分為傳統技術與改良技術兩派。傳統技術以統計分析為代表,舉凡統計學內所含之敘述統計、機率論、迴歸分析、類別資料分析等皆屬之,尤其 Data Mining 對象多為變數繁多且筆數龐大的資料,是以高等統計學裡所含括之多變量分析中用來粽簡變數的因素分析(Factor Analysis)、用來分類的判別分析(Discriminated Analysis),以及用來區隔群體的分群分析(Cluster Analysis)等。
在改良技術方面,資料探勘技術廣泛利用各種的電腦應用領域的人工智慧方法,應用較普遍的有決策樹理論(Decision Trees)、類神經網路(Neural Network)、遺傳基因法(Genetic Algorithms)、模糊理論(Fuzzy Logic),以及規則歸納法(Rules Induction)等。使用的技術和應用對象的不同,往往所產生的結果也會很有大的差異。要決定使用基於何種人工智慧的Data Mining解決方案,必須先對各項技術有初淺的認識,以下簡單說四種最常用的技術。
決策樹:Data Mining利用決策樹來建立分類模式(classification model),以樹枝狀展現資料受各變數的影響情形之預測模型,根據對目標變數產生之效應的不同而建構分類的規則,一般多運用在對顧客資料的區隔分析上。為了將輸入的資料分類,決策樹的每一個節點即為一個判斷式,判斷式針對一個變數去判斷輸入的資料大於或等於或小於某個數值,每一個節點因而可以將輸入的資料分成若干類。決策樹的優點是,其結果很容易讓人了解,因此被廣泛使用。
類神經網路:在資訊與電子業者,類神經網路技術已發展多年,其作法是以大量簡單而相連的人工神經元(Neuron)來模擬人腦思考的能力。此一技術可自輸入之變數與數值中自我學習,並根據學習經驗所得之知識不斷調整參數,以期建構資料的型樣(patterns)。其他的優點還包括高速運算、過濾雜訊、容錯等,因此能夠解決許多複雜的分類、預測等問題。類神經網路是一種模擬的資料分析模式。與傳統迴歸分析相比,類神經網路為非線性的設計,好處是在進行分析時無須限定模式,特別當資料變數間存有交互效應時可自動偵測出;缺點則在於其分析過程為一黑盒子,故常無法以可讀之模型格式展現,每階段的加權與轉換亦不明確,因此這項技術多半應用於屬於高度非線性且帶有相當程度的變數交感效應的資料分析上。
基因演算法:基因演算法是一種新的資料探勘技術,它以適應函數來決定搜尋的方向,再搭配模擬生物的人工運算過程,例如選擇、複製、交配和突變等進行演化,週而復始地模擬自然界的演化方式,以求得一個最佳的結果。在許多應用中,此一技術經常與類神經網路技術結合運作。
歸納法則:規則歸納法是知識採礦的領域中最常用的格式,這是一種由一連串的「如果.../則...(If / Then)」之邏輯規則對資料進行細分的技術,在實際運用時如何界定規則為有效是最大的問題,通常需先將資料中發生數太少的項目先剔除,以避免產生無意義的邏輯規則。
為達成量身訂製的目標,市場上的資料探勘系統皆訴求模組化設計,每家廠商的Data Mining皆支援各種不同的模組,以配合不同客戶的需求來組成不同模組的系統。目前主要發展的模組包括資料抽樣(Sampling)、資料分組(Data Partition)、迴歸分析(Regression)、決策樹(Decision Tree)、類神經網路(Neural Network)等多達一、二十個模組,將各個模組,任意組合及建立架構,將可產生無窮多的應用。
藉由以上各項技術的協助,資料分析人員便可建立分類(classification)、推估(estimation)、預測(prediction)、關聯分組(affinity grouping),以及同質分組(clustering)等五大步驟,使得從資料中發掘寶藏成為一種系統性且可實行的程序,並進而建立Classification、Regression、Time Series、Clustering、Association、以及Sequence等六種資料模式。Classification以及Regression主要是用來做預測,而Association與Sequence主要是用來描述行為(例如消費行為)。Clustering則是二者都可以用的上。
OLAP(Online Analytical Process)
有了功能齊全的資料倉儲並運用資料探勘技術後,管理者還需不同分析工具的輔助。以線上查詢分析工具而言,它可以讓管理者隨意依自己的決策需要來瀏覽資料。利用多維的概念,OLAP支援直覺式的資料操作方式、彈性的報表產生、及無限制的多維度分析與跨維度操作,讓使用者深入瞭解資料之間的奧祕。
OLAP的系統架構主要可分成ROLAP(Relational OLAP)及MOLAP(Multidimensional OLAP)兩種方式。ROLAP透過標準或擴充式的關聯式資料庫(RDBMS)來建置資料倉儲,是比較普遍的方式,它將資料儲存在關連式資料庫中,透過SQL方式來讀取資料。OLAP是要讓使用者在大量的資料中邊瀏覽、邊查詢,並找出問題,進而追查問題且尋求可行的解決方式。
OLAP工具提供以下兩大功能:
*快速的分析查詢能力:OLAP提供使用者線上的即時資料分析模組,不同廠商提供的模組並不相同,不過基本上都包括了線性與非線性的多變量分析、法則分析與目標搜尋與模式模擬等功能。透過OLAP的線上分析模組,管理者透過其個人電腦便可以了解不同因素,如季節、年齡、教育等,與產品銷售之間的關係,進進行交叉分析後,以所得的結果規劃行銷方案。
*多維度資料展示:多維度(Multidimensional一詞是指多項不同分析問題的變項。以銷售資料分析而言,OLAP可依地區、部門、產品等要件形成如魔術方塊般的不同構面,以便檢視資料庫中的資訊並分析其彼此的關連性。管理者可詳細檢視資料在不同維度組合下的各種層面,系統並可據此動態且即時的產生所需的報表,如此可以節省需要由資訊部門來設計程式的不便,提高分析的效率。
在執行由各個不同構面組成的多維度展示時,OLAP可自由地旋轉立體資料方塊,讓不同的資料維度的欄列資料項目互相嵌套,以便讓使用者得到其所需要的資料表格。而資料魔術方塊欄列間不同的變化組合,除了可以任意的選取及組合分析的維度、維度裏的項目、看資料的順序、分析變數與統計值外,還可以做加總、排行與分析變數間的計算。當使用者在多維度資料庫裏分析到某一層次時,經常會有要到交易性資料做更進一步分析的需求。此時OLAP可動態產生SQL來透過ODBC或直接讀取詳細的資料。而企業內資訊人員則可以交談(Interactive)或批次(Batch)的方式來建置多維度資料庫。
如前面段落所述,傳統的關聯式資料庫之處理速度較慢,因此以此技術為基礎的ROLAP在資料庫內建龐大資料量時,其查詢與分析速度會變得更慢,拖延制定決策的進度。目前許多OLAP工具都採MOLAP架構,以便快速地在大量資料下進行分析,並支援多維度展示。
有效使用儲存空間也是未來OLAP平台的設計重點。一般多維度資料庫在建置時,各維度項目所交集的地方會留有儲存資料的空間,不論交會點中是否存在資料。這樣會造成多維度檔案的虛胖與整個資料的存放會產生稀疏的狀況而影響其效率。因此有些廠商提出只儲存non-missing資料的產品訴求,其用意在於,只儲存簡單的統計值也意謂著縮短資料倉儲建置的時間,讓IT部門能夠更容易且更快地維護資料庫。
使用者除了可以將查詢結果直接儲存成MS Excel試算表的格式外,還可以直接產生HTML格式的報表或繪成統計圖形並轉成GIF檔上網展示或直接E-mail出去,使資訊傳遞更有效率。此外,OLAP還可更進一步將分析結果中的異常或偏態的重點資料,顯著地標示在統計圖形上。使用者可以執行上捲(Roll-Up)與下挖(Drill-Down)的分析,以便快速找出問題所在。
未來OLAP的發展將會與企業其他的應用軟體如ERP與SCM等做更緊密的結合,另外一方面,在知識管理日益興起的情況下,未來的OLAP亦將與知識管理軟體如資料探勘與客戶關係管理做更好的整合,為知識管理做更大的加值的工作。而提供Web化的OLAP與Mobile的資料存取,讓主管們可以直接透過瀏覽器或PDA做資料分析,亦是一個重要的發展趨勢之一。
ELT工具
在一個資料倉儲建置專案裏,平均80%的工作時間都花在資料擷取(Data Extraction)、轉換(Transformation)以及載入(Loading)等任務上,因此ETL是導入資料倉儲過程中最重要,也是困難度較高的工作,因為這部份涵蓋了各個部門不同的型態資料、使用者的習慣、技術單位的認知。此一工具整合了日常交易事項的資料來源,包括傳統的檔案、交易資料、和ERP的資料來源,經過轉換、整合、篩選等過程後,將這些目標資料載入系統中。
一套設計完善的ETL工具可從舊有系統和作業平台等各種不同的平台上擷取超過50種不同的檔案格式,這些檔案格式包括:關聯式資料庫、階層式資料庫、文字檔、SAS資料檔,及其他特殊資料檔案,並進而有效整理或轉移至新的資料庫中,包括企業之中的關連式資料庫、ERP、CRM及大型主機內含的大筆資料,都可以進行整理,進而完成資料整合工作。為達成這些目標,通常在伺服器端有一個轉換引擎,提供簡易使用、管理控制、最佳效能的同時,處理複雜的資料轉換過程,而在使用者端則提供內建各種管理、設計、指導等元件的圖形式工具。
在進行資料轉換時,ETL先整理所擷取的資料,其工作包括資料驗證(Validation)、資料清理(Scrubbing)、資料整合(Integration)、新資料的產生(Structuring)、資料架構的非正規化(Renormalization)與資料彙總(Summarization)。在處理資料轉換的工作時,可同時開啟多個輸出檔與輸入檔、有 table look-up 的能力、有排名的能力、支援 SQL 指令、有算數、三角函數、亂數、機率與字串處理能力、日期與時間處理能力,資料彙總能力。
為了節省處理時間或避免產生過度的I/O等效能瓶頸,ETL一次從單一或多個來源端取出資料,如有必要時則處理此資料,之後傳送至目標端。ETL應用系統在記憶體內執行,並在最少資料傳遞下完成複雜的轉換。資料處理造成的磁碟作業愈少,處理過程完成的速度就愈快。這樣還可免除中介檔案或第二個儲存地點來進行匯集(aggregation)或中介排序(sorting),以減少I/O作業。此外,資料不需要被載回相關系統,再透過SQL重新處理,也可節省可觀的時間。
此外,ETL必須從多個、異質來源端來比較及合併資料或表單。企業的IT人員不需自行撰寫低階程式,可使用ETL提供之現成元件組成資料流圖表,使多個匯入的檔案相關,以完成連結與參考查看之目地。經由設計,ETL工具可依多個邏輯路徑來選擇性的複製多筆資料,以及依據「欄位」的價值水平地分隔多筆資料、和垂直地將不同的「欄位」傳送至每一個目標端。最後,ETL可將複製的表單傳送到不同的地理區域,且透過彈性與開放的載入策略(bulk loader、文字檔I/O, direct SQL等)將轉換後的資料載入至資料倉儲的資料庫中。
結論
在商業智慧領域,並沒有一套所謂的Total Solution,其產品類別多如繁星,除了本文探討的四項技術外,另外還有EIS與DSS(決策工具)、OLTP(線上交易工具)等,因為不同產業所要探勘、分析、處理、整合的資料截然不同,不同企業各自的需求或想要達成的目標也不一樣。因此之故,使用者必須在眾多解決方案中仔細評估,經由專業人士的協助以了解到底是IBM的IM解決方案(Intelligent Miner for DATA),或是SAS的EM(Enterprise Miner)較適合其目前與未來需求。使用者也可組合並搭配不同產品來架設最佳平台。
除了選擇合適的工具,如何輕鬆的駕馭這些工具,也是相當令人傷腦筋的,因為其中牽涉到極高度的專業背景與技術執行能力。以資料探勘為例,除了軟体工具外,還要有相關的知識與經驗,才知道如何處理原始資料、設定探勘參數、解釋探勘結果。一般業者自行做資料探勘可能遭遇困難。企業在選擇配合廠商時,也要將業者所提供的技術支援、咨詢服務與教育訓練等條件納入考量。
另外,商業智慧系統的應用導向建置也是一門學問,限於篇幅關係,留待後續討論。
轉載自:http://www.nii.org.tw/cnt/ecnews/ColumnArticle/article_148.htm
留言列表