機器學習支撐平臺

版本信息:V1.0 技術類 · 工具產品

- 產品介紹 -

智能分析平臺依托大數據支撐平臺建設,不僅節約成本,還可以充分利用大數據平臺的計算資源,延伸數據的應用范圍,實現智能分析、預測分析、智能診斷及智能報告,為后期的決策管理提供技術支撐。

主要功能:

在大數據上進行機器學習,需要處理全量數據并進行大量的迭代計算,這要求機器學習平臺具備強大的處理能力。Spark 立足于內存計算,天然的適應于迭代式計算。幸運的是,Spark提供了一個基于海量數據的機器學習庫SparkMLlib,它提供了常用機器學習算法的分布式實現,開發者只需要有 Spark 基礎并且了解機器學習算法的原理,以及方法相關參數的含義,就可以輕松的通過調用相應的 API 來實現基于海量數據的機器學習過程。

SparkMLlib支持下面到常用算法:

分類:可以從輸入數據中學習或建立一個模型,并以此模式推測新的結果。輸入數據是由特征值和目標值組成,輸出可以是一個離散的值,可以用來文本分類,垃圾郵件識別等。

回歸:用于預測輸入變量和輸出變量之間的關系,輸出是連續型的值。一般用來進行預測分析。

聚類:它可以將數據點歸結為一系列特定的組合。理論上歸為一類的數據點具有相同的特性,而不同類別的數據點則具有各不相同的屬性。

協同過濾:是一種推薦算法,原理是用戶喜歡那些具有相似興趣的用戶喜歡過的商品,比如你的朋友喜歡電影哈利波特,那么就會推薦給你,這是最簡單的基于用戶的協同過濾算法,還有一種是基于Item的協同過濾算法。

通過機器學習回歸和分類算法可以提供預測分析和智能診斷等功能。

- 產品特性 -

Spark在機器學習方面的發展非???,目前已經支持了主流的統計和機器學習算法??v觀所有基于分布式架構的開源機器學習庫,MLlib可以算是計算效率最高的。MLlib目前支持4種常見的機器學習問題: 分類、回歸、聚類和協同過濾。
MLlib是Spark的機器學習(Machine Learning)庫,旨在簡化機器學習的工程實踐工作,并方便擴展到更大規模。MLlib由一些通用的學習算法和工具組成,包括分類、回歸、聚類、協同過濾、降維等,同時還包括底層的優化原語和高層的管道API。具體來說,其主要包括以下幾方面的內容:

算法工具:常用的學習算法,如分類、回歸、聚類和協同過濾;
特征化公交:特征提取、轉化、降維,和選擇公交;
管道(Pipeline):用于構建、評估和調整機器學習管道的工具;
持久性:保存和加載算法,模型和管道;
實用工具:線性代數,統計,數據處理等工具。

從架構圖可以看出MLlib主要包含三個部分:
底層基礎:包括Spark的運行庫、矩陣庫和向量庫;
算法庫:包含廣義線性模型、推薦系統、聚類、決策樹和評估的算法;
實用程序:包括testtest數據的生成、外部數據的讀入等功能。

聯系方式

Contact us

聯系人

李乾韜

電話

010-67801778

手機

18600513192

s
江苏十一选五遗漏(任五前三直选)