什麼是 Apache Spark?

您所在的位置:网站首页 spark用途 什麼是 Apache Spark?

什麼是 Apache Spark?

2023-07-17 14:04| 来源: 网络整理| 查看: 265

什麼是 Apache Spark? 發行項 04/08/2023

Apache Spark 是開放原始碼平行處理架構,可支援記憶體內部處理,以提升分析巨量資料之應用程式的效能。 巨量資料解決方案的設計目的是要處理對傳統資料庫而言太大或複雜的資料。 Spark 會處理記憶體中的大量資料,比磁片型替代方案快很多。

常見的巨量資料案例

如果您需要儲存和處理大量資料、轉換非結構化資料,或處理串流資料,您可能會考慮巨量資料架構。 Spark 是一般用途的分散式處理引擎,可用於數個巨量資料案例。

擷取、轉換和載入 (ETL)

擷取、轉換和載入 (ETL) 是從一或多個來源收集資料、修改資料,以及將資料移至新資料存放區的程式。 有數種方式可以轉換資料,包括:

篩選 排序 聚合 加入 清洗 重復資料刪除 Validating 即時資料流處理

串流或即時資料是移動中的資料。 來自 IoT 裝置、Weblog 和 Clickstream 的遙測都是串流資料的範例。 即時資料可以處理以提供有用的資訊,例如地理空間分析、遠端監視和異常偵測。 就像關聯式資料一樣,您可以先篩選、匯總和準備串流資料,再將資料移至輸出接收。 Apache Spark 支援透過Spark 串流處理即時資料流。

批次處理

批次處理 是處理待用巨量資料。 您可以使用長時間執行的作業,以平行方式篩選、匯總和準備非常大的資料集。

透過 MLlib 進行機器學習

機器學慣用于進階分析問題。 您的電腦可以使用現有的資料來預測或預測未來的行為、結果和趨勢。 Apache Spark 的機器學習程式庫 MLlib包含數個機器學習演算法和公用程式。

透過 GraphX 的圖形處理

圖表是由邊緣連接的節點集合。 如果您有階層式資料或具有互連關聯性的資料,則可以使用圖形資料庫。 您可以使用 Apache Spark 的 GraphX API 來處理此資料。

使用 Spark SQL 進行 SQL 和結構化資料處理

如果您使用結構化 (格式化) 資料,您可以使用 Spark SQL 在 Spark應用程式中使用 SQL 查詢。

Apache Spark 架構

Apache Spark 有三個主要元件:驅動程式、執行程式和叢集管理員。 Spark 應用程式會在叢集上以獨立程式集的形式執行,由驅動程式程式協調。

如需詳細資訊,請參閱 叢集模式概觀。

驅動程式

驅動程式包含您的程式,例如 C# 主控台應用程式和 Spark 會話。 Spark 會話會採用您的程式,並將其分割成執行程式所處理的較小工作。

執行程式

每個執行程式或背景工作節點都會從驅動程式接收工作,並執行該工作。 執行程式位於稱為叢集的實體上。

叢集管理員

叢集管理員會與驅動程式和執行程式通訊,以:

管理資源配置 管理計畫部門 管理程式執行 語言支援

Apache Spark 支援下列程式設計語言:

Scala Python Java SQL R .NET 語言 (C#/F#) Spark API

Apache Spark 支援下列 API:

Spark Scala API Spark JAVA API Spark Python API Spark R API Spark SQL,內建函式 下一步

瞭解如何在 .NET 應用程式中使用 Apache Spark。 使用適用于 Apache Spark 的 .NET,具有 .NET 體驗和商務邏輯的開發人員可以在 C# 和 F# 中撰寫巨量資料查詢。

什麼是適用于 Apache Spark 的 .NET



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3