大数据成本估算

您所在的位置:网站首页 地铁大数据分析工作内容 大数据成本估算

大数据成本估算

2023-05-04 09:50| 来源: 网络整理| 查看: 265

你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。

大数据分析成本估算 项目 04/20/2023

大多数大数据工作负载旨在实现:

静态大数据源的批处理。 流式处理动态数据。

这些工作负载的需求各不相同。 批量处理是通过长时间运行的批处理作业来完成的。 对于流处理,数据引入组件应能够捕获实时消息,并在某些情况下缓冲、存储实时消息。 这两个工作负载还要求存储大量的数据。 然后筛选、汇总数据,并准备好数据以用于分析。

有关选择每个工作负载的技术的信息,请参阅以下文章:

批处理

批处理的技术选择 功能矩阵

流处理

选择用于实时处理的技术时有哪些选项? 功能矩阵

本文提供了其中一些选择的成本注意事项。 这并不是一个详尽的列表,只提供了部分选项。

Azure Synapse Analytics

分析资源是以数据仓库单元 (DWU) 来度量的,这将跟踪 CPU、内存和 IO。 DWU 还指示所要求的性能级别。 如果需要更高的性能,请添加更多 DWU 块。

你可以在两个服务级别中的一个级别预配资源。

计算优化第 1 代根据 DWU 来跟踪使用情况,在即用即付模型中提供。 计算优化第 2 代根据计算 DWU (cDWU) 来跟踪使用情况,从而可以缩放计算节点。 此级别适用于具有更高查询性能和计算可伸缩性的密集型工作负载。 可以选择即用即付模型,如果可以承诺一年或三年,可以使用预留实例节省 37% 到 65%。 有关详细信息,请参阅《预留实例》。

从较小的 DWU 开始,并测量资源密集型操作的性能,例如繁重的数据加载或转换。 这将帮助你确定需要增加或减少的单元数。 度量在高峰工作时间的使用情况,这样便可以评估并发查询的数量,并相应地增加单元数量以增加并行性。 相反,度量非高峰使用情况,以便能够在需要时暂停计算。

在 Azure Synapse Analytics 中,你可以从外部数据存储(例如 Azure Blob Storage 和 Azure Data Lake Store)导入或导出数据。 价格中不包括存储和分析资源。 将数据移入和移出数据仓库需要额外的带宽成本。

有关详细信息,请参阅以下文章:

Azure Synapse 定价 管理 Azure Synapse Analytics 数据仓库中的计算 参考体系结构 通过 Azure Synapse Analytics 和 Azure 数据工厂实现企业 BI 自动化 通过 Azure Synapse Analytics 实现 Azure 中的企业 BI Azure Databricks

Azure Databricks 提供两个 SKU,分别是标准和高级,每个都有这些选项,按照价格从低到高的顺序列出。

轻量数据工程可供数据工程师生成在自动化 Spark 集群中执行作业。 数据工程包括自动缩放,并且具有机器学习流的功能。 数据分析包括前面的一组功能,旨在让数据科学家以交互方式浏览、可视化、操作和共享数据和见解。

根据工作负载选择 SKU。 如果你需要高级版中提供的日志审核等功能,则总体成本可能会增加。 如果你需要自动扩展集群以处理更大的工作负载或交互式 Databricks 仪表板,请选择高于“轻量数据工程”的选项。

下面是影响 Databricks 计费的因素:

预配资源的 Azure 位置。 虚拟机实例层和实例运行的小时数。 Databricks 单元 (DBU) 是每小时处理能力的单位,按每秒使用量计费。

该示例基于当前价格,可能会发生变化。 显示的计算仅供参考。

假设你在美国东部 2 使用 10 个 DS13v2 实例运行高级群集 100 小时。

项 估算示例 10 个 DS13v2 实例的成本 100 小时 x 10 个实例 x 0.741 美元/小时 = 741.00 美元 数据分析工作负载的 DBU 成本 100 小时 x 10 个实例 x 每个节点 2 个 DBU x 0.55 美元/DBU = 1100 美元 总计 1841 美元

有关详细信息,请参阅定价 Azure Databricks 定价。

如果你可以承诺一到三年,则选择预留实例,这样可以节省 38% - 59%。 有关详细信息,请参阅《预留实例》。

不使用时关闭 Spark 群集以防止不必要的费用。

参考体系结构 使用 Azure Databricks 进行流处理 在 Azure 上生成实时建议 API Azure Databricks 上 Spark 模型的批量评分 Azure 流分析

流分析使用流单元 (SU) 来度量处理数据所需的计算量、内存和吞吐量。 预配流处理作业时,你需要指定初始数量的 SU。 流单元数量越多,意味着成本越高,因为使用的资源就越多。

低延迟的流处理需要大量内存。 此资源由“SU 百分比利用率”指标来跟踪。 利用率较低表明工作负载需要更多的计算资源。 你可以 SU 利用率指标达到 80% 设置警报,以防止资源耗尽。

要评估你需要的单元数量,请处理适合你的生产级工作负载的数据量,观察“SU 百分比利用率”指标,并相应地调整 SU 值。

可以在 Azure 流分析中创建流处理作业,并通过 Azure IoT 中心将它们部署到运行 Azure IoT Edge 的设备上。 设备数量会影响所有成本。 当作业部署到设备时,无论作业状态如何(“正在运行”、“已失败”还是“已停止”),都将开始计费。

SU 是基于作业中定义的输入和查询的分区配置。 有关更多信息,请参阅计算作业的最大流单元和了解和调整流单元。

有关定价详细信息,请参阅 Azure 流分析定价。

参考体系结构 Azure 上 Python 机器学习模型的批量评分 Azure IoT 参考体系结构 Azure Analysis Services

大数据解决方案需要存储可用于报告的数据。 Azure Analysis Services 支持创建表格模型来满足此需求。

层级如下:

对于评估、开发和测试方案,建议使用“开发者”层级。 对于小型生产环境,建议使用“基本”层级。 对于任务关键型工作负载,建议使用“标准”层级。

Analysis Services 使用查询处理单元 (QPU) 来确定处理能力。 QPU 是对影响性能的计算和数据处理资源的抽象度量。 QPU 越高,性能越高。

每个层级提供一个或多个实例。 主要成本驱动因素是为层级实例分配的 QPU 和内存。 从较小的实例开始,监控 QPU 使用情况,并通过在层级内选择更高或更低的实例来扩大或缩减规模。 此外,监视非高峰时段的使用情况。 可以在不使用服务器时暂停服务器。 暂停实例时不收取任何费用。 有关详细信息,请参阅以下文章:

符合需要的层级 监视服务器指标 Azure Analysis Services 定价 参考体系结构 企业商业智能 - Azure 参考体系结构 自动化企业 BI - Azure 体系结构中心 Azure 数据工厂 V2

Azure 数据工厂是大数据业务流程协调程序。 该服务将数据向不同类型的数据存储传入和传出数据。 此服务使用其他计算服务转换数据。 此服务创建可自动执行数据移动和转换的工作流。 你只需支付使用费。 通过以下因素来度量使用情况:

对数据执行操作的管道活动。 这些操作包括从各种来源复制数据、转换数据和控制流。 有关详细信息,请参阅数据移动活动、数据转换活动和控制活动。

你需要为总活动数(以千计)付费。

将以数据集成单元数来度量执行。 每个单元跟踪 CPU、内存和网络资源分配。 此度量适用于 Azure Integration Runtime。

你还需要为执行活动付费,例如复制数据、查找和外部活动。 每个活动单独定价。 如果管道在一个月内没有关联触发器或运行,也将向你收费。 所有活动按分钟计算,并向上舍入。

参考体系结构 自动化企业 BI - Azure 体系结构中心 企业商业智能 - Azure 参考体系结构 构建企业级聊天机器人 - Azure 体系结构中心


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3