一、平臺架構
大數(shù)據(jù)分析平臺的拓撲架構如下圖所示:

其中部署在多個地方的智能數(shù)據(jù)中心提供大數(shù)據(jù)存儲及計算平臺,通過平臺服務器提供系統(tǒng)調(diào)用功能。門戶服務中心將整合所有的智能數(shù)據(jù)中心存儲和計算資源,并通過web應用服務器和OpenAPI服務器以web調(diào)用和OpenAPI調(diào)用的方式提供大數(shù)據(jù)存儲、管理及挖掘服務。終端用戶利用移動智能終端通過互聯(lián)網(wǎng)訪問門戶服務中心,使用其提供的大數(shù)據(jù)存儲、管理及挖掘服務。
大數(shù)據(jù)分析平臺的系統(tǒng)架構如下圖所示:

系統(tǒng)包含3個層次:平臺層為整個大數(shù)據(jù)分析平臺提供基礎平臺支持;功能層提供基本的大數(shù)據(jù)存儲和挖掘功能;服務層為用戶提供基于互聯(lián)網(wǎng)的大數(shù)據(jù)服務。具體包括:
(1)平臺層:為大數(shù)據(jù)存儲和挖掘提供大數(shù)據(jù)存儲和計算平臺,為多區(qū)域智能中心的分析架構提供多數(shù)據(jù)中心調(diào)度引擎;
(2)功能層:為大數(shù)據(jù)存儲和挖掘提供大數(shù)據(jù)集成、存儲、管理和挖掘功能;
(3)服務層:基于Web和OpenAPI技術提供大數(shù)據(jù)服務。
二、關鍵技術
建設面向服務的大數(shù)據(jù)分析平臺,需要研究和開發(fā)一系列關鍵技術,主要包括:

1.平臺層
(1)大數(shù)據(jù)分布式存儲系統(tǒng):針對數(shù)據(jù)不斷增長的挑戰(zhàn),需要研究大規(guī)模、非結構化數(shù)據(jù)的存儲問題,突破大數(shù)據(jù)的存儲、管理和高效訪問關鍵技術,當前需要構建至少PB級存儲能力的大數(shù)據(jù)平臺才能滿足一般的科研和應用需求。
(2)分布式數(shù)據(jù)挖掘運行時系統(tǒng):針對大數(shù)據(jù)挖掘算法運行的挑戰(zhàn),突破Map Reduce技術的局限,研究有效支持迭代、遞歸、層次及集成機制的海量數(shù)據(jù)挖掘編程模型和運行時系統(tǒng),構建大數(shù)據(jù)運行時系統(tǒng)。
(3)智能數(shù)據(jù)中心聯(lián)合調(diào)度技術:針對大數(shù)據(jù)存儲和挖掘的挑戰(zhàn),研究多數(shù)據(jù)中心的智能聯(lián)合調(diào)度、負載均衡技術,整合多個數(shù)據(jù)中心的存儲和計算資源,構建基于多智能中心的大數(shù)據(jù)服務平臺。
2.功能層
(1)高可擴展性大數(shù)據(jù)挖掘算法:針對大數(shù)據(jù)挖掘的挑戰(zhàn),研究基于云計算的分布式大數(shù)據(jù)處理與挖掘算法,構建高可擴展的大數(shù)據(jù)處理與挖掘算法庫,實現(xiàn)TB級數(shù)據(jù)的建模能力。
(2)大數(shù)據(jù)安全與隱私保護技術:針對數(shù)據(jù)挖掘“軟件即服務”(SaaS)模式的需求,研究開發(fā)數(shù)據(jù)挖掘在云環(huán)境下的隱私保護、數(shù)據(jù)審計和節(jié)點數(shù)據(jù)挖掘技術,確保大數(shù)據(jù)挖掘過程中的數(shù)據(jù)安全,保證用戶的隱私不被泄露。
(3)分布式工作流引擎:針對大數(shù)據(jù)挖掘分布式調(diào)度的挑戰(zhàn),研究基于云計算的分布式工作流調(diào)度、負載均衡技術,構建高效分布式工作流執(zhí)行引擎。
(4)交互式可視化分析技術:針對傳統(tǒng)分析方法交互性和可理解性不足的問題,研究啟發(fā)式、人機交互、可視化數(shù)據(jù)挖掘新技術,實現(xiàn)大數(shù)據(jù)挖掘的高度人機交互功能。
3.服務層
(1)基于Web的大數(shù)據(jù)挖掘技術:突破傳統(tǒng)的基于單機軟件的數(shù)據(jù)挖掘技術,創(chuàng)新基于Web的大數(shù)據(jù)挖掘方法和流程,實現(xiàn)易于使用的基于Web的大數(shù)據(jù)挖掘技術,構建基于Web的大數(shù)據(jù)分析環(huán)境。
(2)基于Open API的大數(shù)據(jù)挖掘技術:突破傳統(tǒng)的基于軟件的數(shù)據(jù)挖掘技術,創(chuàng)新基于Open API的大數(shù)據(jù)挖掘方法,研究大數(shù)據(jù)挖掘開放接口、開放流程,構建基于Open API的大數(shù)據(jù)分析模式。
為廣大用戶提供大數(shù)據(jù)處理和分析的服務功能,大數(shù)據(jù)分析平臺要突破傳統(tǒng)的基于軟件和高端服務器的數(shù)據(jù)挖掘傳統(tǒng)技術體系,采用基于云計算的大數(shù)據(jù)存儲和處理架構、分布式數(shù)據(jù)挖掘算法和基于互聯(lián)網(wǎng)的大數(shù)據(jù)存儲、處理和挖掘服務模式。實現(xiàn)這一目標需要做如下創(chuàng)新:
(1)系統(tǒng)架構創(chuàng)新:突破傳統(tǒng)的基于軟件和高端服務器的數(shù)據(jù)挖掘技術體系,研發(fā)基于互聯(lián)網(wǎng)和云計算的大數(shù)據(jù)存儲、處理和挖掘的數(shù)據(jù)中心系統(tǒng)架構,支持多用戶、多任務的大數(shù)據(jù)分析環(huán)境;
(2)服務模式創(chuàng)新:突破傳統(tǒng)的一次性軟件銷售或軟件租賃的高價格解決方案,創(chuàng)新基于互聯(lián)網(wǎng)的大數(shù)據(jù)存儲、處理和分析服務模式,為用戶提供按需、廉價的大數(shù)據(jù)存儲、處理和分析服務;
(3)使用模式創(chuàng)新:突破傳統(tǒng)的使用單機軟件的方式,創(chuàng)新基于互聯(lián)網(wǎng)的大數(shù)據(jù)存儲、管理和分析服務,提供多終端(臺式機、筆記本、平板電腦、手機等)、多途徑(瀏覽器訪問,Open API調(diào)用等)的用戶使用模式。
三、應用
大數(shù)據(jù)分析平臺所采用的技術路線和應用模式融合了智能分析技術、高可擴展計算技術、非結構化數(shù)據(jù)處理技術和軟件即服務(SaaS)應用模式,符合當前國際大數(shù)據(jù)產(chǎn)業(yè)的發(fā)展趨勢和產(chǎn)業(yè)化應用要求。一方面,系統(tǒng)通過互聯(lián)網(wǎng)服務方式向用戶提供高可用、高易用和一站式的海量數(shù)據(jù)分析服務,可有效降低企業(yè)應用門檻和成本,通過專業(yè)化服務外包滿足企業(yè)個性化需求。另一方面,由于是開放架構的系統(tǒng)平臺,商業(yè)用戶和其他軟件提供商可通過系統(tǒng)提供的互聯(lián)網(wǎng)服務開發(fā)接口(Open API)開發(fā)面向行業(yè)商務智能應用的解決方案,孵化新型咨詢公司、軟件公司和信息服務公司,有助于形成以平臺為核心的大數(shù)據(jù)分析產(chǎn)業(yè)生態(tài)環(huán)境。