時間:2022-05-05來源:小億瀏覽數:810次
大數據分析系統架構圖
OLAP引擎:OLAP引擎提供全面的多維建模與分析能力。多維模型包括維度、層次、級別、屬性、指標、計算成員等;同時預置系列分析函數,包括同比/環比/期比/基比等時間序列分析、占比/排名/方差等統計分析、指數回歸和線性回歸分析等;提供標準的MDX解析與執行,與數據倉庫等模塊結合,提供針對海量數據的實時分析和處理能力。
語義層:為統一的查詢建模平臺和數據訪問接口。除提供標準的查詢建模能力外,還有語義驅動、語義規則、語義函數、描述器等等擴展方式,滿足不同層面的擴展要求。 數據集成:能夠勝任在大數據量、高并發、多維分析等環境背景下的實時分析。通過實時數據集成(RDI)提供的數據實時復制與DW的列式存儲引擎,解決了以往在傳統架構模式下,普通行式存儲引擎無法實現的業務場景。 數據倉庫:數據倉庫提供針對海量數據進行高效的查詢和分析。包括同時支持關系數據庫、NoSQL數據庫、以及分布式文件系統進行數據存儲和加載的多存儲引擎,基于MapReduce框架針對海量數據的高性能查詢和分析,以及MapReduce 框架本身具有的高擴展性和容錯性。 數據挖掘:支持運行于分布式文件系統和分布式計算平臺之上的分布式數據挖掘算法,具體包括:K均值、譜聚類算法及其分布式實現;邏輯斯特回歸、樸素貝葉斯分類算法及其分布式實現;頻繁模式挖掘分析算法及其分布式實現;潛在狄利克雷分配語義挖掘算法及其分布式實現;協同過濾、概率矩陣分解推薦算法及其分布式實現;提供分布式挖掘算法的統一操作原語和執行引擎。 流計算引擎:流計算引擎是為解決系統的實時性和一致性的高要求的實時數據處理框架,具備高可拓展性,能處理高頻數據和大規模數據,實時流計算解決方案被應用于實時搜索、高頻交易的大數據系統上。 消息總線:包括主數據管理、應用集成開發環境、集中身份管理、集成監控管理等。滿足集成平臺的應用需求,支持信息集成、界面集成、流程集成、服務集成等集成方式。 非結構化數據管理:非結構化數據不包含內嵌的語義結構描述信息,而信息系統需要結合其“內容”而不僅僅是數據本身進行查詢、檢索、分析與挖掘,因此非結構化數據管理系統需要實現非結構化數據的數據提取,提取的非結構化數據是進行后續處理的基礎,具體包括結構化信息和底層/高層特征的提取兩個。非結構化數據提取組件依賴于分布式文件系統和非結構化數據存儲提供的原始數據作為數據源數據,依賴于非結構化數據存儲來存儲提取的元數據或者特征數據,依賴于并行計算框架來分布化執行過程,加快執行速度。 分布式計算系統:包括分布式文件系統和分布式計算框架。分布式文件系統以高可靠的容錯機制為核心,系統架構包括多元數據服務器、多數據存儲服務器、多監管者、多客戶端,支持大文件和大數據塊的分布式存儲與管理;分布式計算框架基于MapReduce與MPI計算模型,提供了一套并行計算框架;并利用物理機以及虛擬機的監控信息,實現對計算資源的合理分配,支持對大量工作任務的靈活切分和分布式調度。發布時間:2023-09-26瀏覽量:79次
發布時間:2022-06-28瀏覽量:971次
發布時間:2022-06-15瀏覽量:263次
發布時間:2022-06-14瀏覽量:544次
發布時間:2022-06-14瀏覽量:755次