大数据成本估算

您所在的位置：网站首页 › 地铁大数据分析工作内容 › 大数据成本估算

大数据成本估算

2023-05-04 09:50| 来源: 网络整理| 查看: 265

你当前正在访问 Microsoft Azure Global Edition 技术文档网站。如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站，请访问 https://docs.azure.cn。

大数据分析成本估算项目 04/20/2023

大多数大数据工作负载旨在实现：

静态大数据源的批处理。流式处理动态数据。

这些工作负载的需求各不相同。批量处理是通过长时间运行的批处理作业来完成的。对于流处理，数据引入组件应能够捕获实时消息，并在某些情况下缓冲、存储实时消息。这两个工作负载还要求存储大量的数据。然后筛选、汇总数据，并准备好数据以用于分析。

有关选择每个工作负载的技术的信息，请参阅以下文章：

批处理

批处理的技术选择功能矩阵

流处理

选择用于实时处理的技术时有哪些选项？功能矩阵

本文提供了其中一些选择的成本注意事项。这并不是一个详尽的列表，只提供了部分选项。

Azure Synapse Analytics

分析资源是以数据仓库单元 (DWU) 来度量的，这将跟踪 CPU、内存和 IO。 DWU 还指示所要求的性能级别。如果需要更高的性能，请添加更多 DWU 块。

你可以在两个服务级别中的一个级别预配资源。

计算优化第 1 代根据 DWU 来跟踪使用情况，在即用即付模型中提供。计算优化第 2 代根据计算 DWU (cDWU) 来跟踪使用情况，从而可以缩放计算节点。此级别适用于具有更高查询性能和计算可伸缩性的密集型工作负载。可以选择即用即付模型，如果可以承诺一年或三年，可以使用预留实例节省 37% 到 65%。有关详细信息，请参阅《预留实例》。

从较小的 DWU 开始，并测量资源密集型操作的性能，例如繁重的数据加载或转换。这将帮助你确定需要增加或减少的单元数。度量在高峰工作时间的使用情况，这样便可以评估并发查询的数量，并相应地增加单元数量以增加并行性。相反，度量非高峰使用情况，以便能够在需要时暂停计算。

在 Azure Synapse Analytics 中，你可以从外部数据存储（例如 Azure Blob Storage 和 Azure Data Lake Store）导入或导出数据。价格中不包括存储和分析资源。将数据移入和移出数据仓库需要额外的带宽成本。

有关详细信息，请参阅以下文章：

Azure Synapse 定价管理 Azure Synapse Analytics 数据仓库中的计算参考体系结构通过 Azure Synapse Analytics 和 Azure 数据工厂实现企业 BI 自动化通过 Azure Synapse Analytics 实现 Azure 中的企业 BI Azure Databricks

Azure Databricks 提供两个 SKU，分别是标准和高级，每个都有这些选项，按照价格从低到高的顺序列出。

轻量数据工程可供数据工程师生成在自动化 Spark 集群中执行作业。数据工程包括自动缩放，并且具有机器学习流的功能。数据分析包括前面的一组功能，旨在让数据科学家以交互方式浏览、可视化、操作和共享数据和见解。

根据工作负载选择 SKU。如果你需要高级版中提供的日志审核等功能，则总体成本可能会增加。如果你需要自动扩展集群以处理更大的工作负载或交互式 Databricks 仪表板，请选择高于“轻量数据工程”的选项。

下面是影响 Databricks 计费的因素：

预配资源的 Azure 位置。虚拟机实例层和实例运行的小时数。 Databricks 单元 (DBU) 是每小时处理能力的单位，按每秒使用量计费。

该示例基于当前价格，可能会发生变化。显示的计算仅供参考。

假设你在美国东部 2 使用 10 个 DS13v2 实例运行高级群集 100 小时。

项估算示例 10 个 DS13v2 实例的成本 100 小时 x 10 个实例 x 0.741 美元/小时 = 741.00 美元数据分析工作负载的 DBU 成本 100 小时 x 10 个实例 x 每个节点 2 个 DBU x 0.55 美元/DBU = 1100 美元总计 1841 美元

有关详细信息，请参阅定价 Azure Databricks 定价。

如果你可以承诺一到三年，则选择预留实例，这样可以节省 38% - 59%。有关详细信息，请参阅《预留实例》。

不使用时关闭 Spark 群集以防止不必要的费用。

参考体系结构使用 Azure Databricks 进行流处理在 Azure 上生成实时建议 API Azure Databricks 上 Spark 模型的批量评分 Azure 流分析

流分析使用流单元 (SU) 来度量处理数据所需的计算量、内存和吞吐量。预配流处理作业时，你需要指定初始数量的 SU。流单元数量越多，意味着成本越高，因为使用的资源就越多。

低延迟的流处理需要大量内存。此资源由“SU 百分比利用率”指标来跟踪。利用率较低表明工作负载需要更多的计算资源。你可以 SU 利用率指标达到 80% 设置警报，以防止资源耗尽。

要评估你需要的单元数量，请处理适合你的生产级工作负载的数据量，观察“SU 百分比利用率”指标，并相应地调整 SU 值。

可以在 Azure 流分析中创建流处理作业，并通过 Azure IoT 中心将它们部署到运行 Azure IoT Edge 的设备上。设备数量会影响所有成本。当作业部署到设备时，无论作业状态如何（“正在运行”、“已失败”还是“已停止”），都将开始计费。

SU 是基于作业中定义的输入和查询的分区配置。有关更多信息，请参阅计算作业的最大流单元和了解和调整流单元。

有关定价详细信息，请参阅 Azure 流分析定价。

参考体系结构 Azure 上 Python 机器学习模型的批量评分 Azure IoT 参考体系结构 Azure Analysis Services

大数据解决方案需要存储可用于报告的数据。 Azure Analysis Services 支持创建表格模型来满足此需求。

层级如下：

对于评估、开发和测试方案，建议使用“开发者”层级。对于小型生产环境，建议使用“基本”层级。对于任务关键型工作负载，建议使用“标准”层级。

Analysis Services 使用查询处理单元 (QPU) 来确定处理能力。 QPU 是对影响性能的计算和数据处理资源的抽象度量。 QPU 越高，性能越高。

每个层级提供一个或多个实例。主要成本驱动因素是为层级实例分配的 QPU 和内存。从较小的实例开始，监控 QPU 使用情况，并通过在层级内选择更高或更低的实例来扩大或缩减规模。此外，监视非高峰时段的使用情况。可以在不使用服务器时暂停服务器。暂停实例时不收取任何费用。有关详细信息，请参阅以下文章：

符合需要的层级监视服务器指标 Azure Analysis Services 定价参考体系结构企业商业智能 - Azure 参考体系结构自动化企业 BI - Azure 体系结构中心 Azure 数据工厂 V2

Azure 数据工厂是大数据业务流程协调程序。该服务将数据向不同类型的数据存储传入和传出数据。此服务使用其他计算服务转换数据。此服务创建可自动执行数据移动和转换的工作流。你只需支付使用费。通过以下因素来度量使用情况：

对数据执行操作的管道活动。这些操作包括从各种来源复制数据、转换数据和控制流。有关详细信息，请参阅数据移动活动、数据转换活动和控制活动。

你需要为总活动数（以千计）付费。

将以数据集成单元数来度量执行。每个单元跟踪 CPU、内存和网络资源分配。此度量适用于 Azure Integration Runtime。

你还需要为执行活动付费，例如复制数据、查找和外部活动。每个活动单独定价。如果管道在一个月内没有关联触发器或运行，也将向你收费。所有活动按分钟计算，并向上舍入。

参考体系结构自动化企业 BI - Azure 体系结构中心企业商业智能 - Azure 参考体系结构构建企业级聊天机器人 - Azure 体系结构中心

【本文地址】

大数据成本估算

大数据成本估算

今日新闻

推荐新闻