大数据成本估算 |
您所在的位置:网站首页 › 地铁大数据分析工作内容 › 大数据成本估算 |
你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。 大数据分析成本估算 项目 04/20/2023大多数大数据工作负载旨在实现: 静态大数据源的批处理。 流式处理动态数据。这些工作负载的需求各不相同。 批量处理是通过长时间运行的批处理作业来完成的。 对于流处理,数据引入组件应能够捕获实时消息,并在某些情况下缓冲、存储实时消息。 这两个工作负载还要求存储大量的数据。 然后筛选、汇总数据,并准备好数据以用于分析。 有关选择每个工作负载的技术的信息,请参阅以下文章: 批处理 批处理的技术选择 功能矩阵流处理 选择用于实时处理的技术时有哪些选项? 功能矩阵本文提供了其中一些选择的成本注意事项。 这并不是一个详尽的列表,只提供了部分选项。 Azure Synapse Analytics分析资源是以数据仓库单元 (DWU) 来度量的,这将跟踪 CPU、内存和 IO。 DWU 还指示所要求的性能级别。 如果需要更高的性能,请添加更多 DWU 块。 你可以在两个服务级别中的一个级别预配资源。 计算优化第 1 代根据 DWU 来跟踪使用情况,在即用即付模型中提供。 计算优化第 2 代根据计算 DWU (cDWU) 来跟踪使用情况,从而可以缩放计算节点。 此级别适用于具有更高查询性能和计算可伸缩性的密集型工作负载。 可以选择即用即付模型,如果可以承诺一年或三年,可以使用预留实例节省 37% 到 65%。 有关详细信息,请参阅《预留实例》。从较小的 DWU 开始,并测量资源密集型操作的性能,例如繁重的数据加载或转换。 这将帮助你确定需要增加或减少的单元数。 度量在高峰工作时间的使用情况,这样便可以评估并发查询的数量,并相应地增加单元数量以增加并行性。 相反,度量非高峰使用情况,以便能够在需要时暂停计算。 在 Azure Synapse Analytics 中,你可以从外部数据存储(例如 Azure Blob Storage 和 Azure Data Lake Store)导入或导出数据。 价格中不包括存储和分析资源。 将数据移入和移出数据仓库需要额外的带宽成本。 有关详细信息,请参阅以下文章: Azure Synapse 定价 管理 Azure Synapse Analytics 数据仓库中的计算 参考体系结构 通过 Azure Synapse Analytics 和 Azure 数据工厂实现企业 BI 自动化 通过 Azure Synapse Analytics 实现 Azure 中的企业 BI Azure DatabricksAzure Databricks 提供两个 SKU,分别是标准和高级,每个都有这些选项,按照价格从低到高的顺序列出。 轻量数据工程可供数据工程师生成在自动化 Spark 集群中执行作业。 数据工程包括自动缩放,并且具有机器学习流的功能。 数据分析包括前面的一组功能,旨在让数据科学家以交互方式浏览、可视化、操作和共享数据和见解。根据工作负载选择 SKU。 如果你需要高级版中提供的日志审核等功能,则总体成本可能会增加。 如果你需要自动扩展集群以处理更大的工作负载或交互式 Databricks 仪表板,请选择高于“轻量数据工程”的选项。 下面是影响 Databricks 计费的因素: 预配资源的 Azure 位置。 虚拟机实例层和实例运行的小时数。 Databricks 单元 (DBU) 是每小时处理能力的单位,按每秒使用量计费。该示例基于当前价格,可能会发生变化。 显示的计算仅供参考。 假设你在美国东部 2 使用 10 个 DS13v2 实例运行高级群集 100 小时。 项 估算示例 10 个 DS13v2 实例的成本 100 小时 x 10 个实例 x 0.741 美元/小时 = 741.00 美元 数据分析工作负载的 DBU 成本 100 小时 x 10 个实例 x 每个节点 2 个 DBU x 0.55 美元/DBU = 1100 美元 总计 1841 美元有关详细信息,请参阅定价 Azure Databricks 定价。 如果你可以承诺一到三年,则选择预留实例,这样可以节省 38% - 59%。 有关详细信息,请参阅《预留实例》。 不使用时关闭 Spark 群集以防止不必要的费用。 参考体系结构 使用 Azure Databricks 进行流处理 在 Azure 上生成实时建议 API Azure Databricks 上 Spark 模型的批量评分 Azure 流分析流分析使用流单元 (SU) 来度量处理数据所需的计算量、内存和吞吐量。 预配流处理作业时,你需要指定初始数量的 SU。 流单元数量越多,意味着成本越高,因为使用的资源就越多。 低延迟的流处理需要大量内存。 此资源由“SU 百分比利用率”指标来跟踪。 利用率较低表明工作负载需要更多的计算资源。 你可以 SU 利用率指标达到 80% 设置警报,以防止资源耗尽。 要评估你需要的单元数量,请处理适合你的生产级工作负载的数据量,观察“SU 百分比利用率”指标,并相应地调整 SU 值。 可以在 Azure 流分析中创建流处理作业,并通过 Azure IoT 中心将它们部署到运行 Azure IoT Edge 的设备上。 设备数量会影响所有成本。 当作业部署到设备时,无论作业状态如何(“正在运行”、“已失败”还是“已停止”),都将开始计费。 SU 是基于作业中定义的输入和查询的分区配置。 有关更多信息,请参阅计算作业的最大流单元和了解和调整流单元。 有关定价详细信息,请参阅 Azure 流分析定价。 参考体系结构 Azure 上 Python 机器学习模型的批量评分 Azure IoT 参考体系结构 Azure Analysis Services大数据解决方案需要存储可用于报告的数据。 Azure Analysis Services 支持创建表格模型来满足此需求。 层级如下: 对于评估、开发和测试方案,建议使用“开发者”层级。 对于小型生产环境,建议使用“基本”层级。 对于任务关键型工作负载,建议使用“标准”层级。Analysis Services 使用查询处理单元 (QPU) 来确定处理能力。 QPU 是对影响性能的计算和数据处理资源的抽象度量。 QPU 越高,性能越高。 每个层级提供一个或多个实例。 主要成本驱动因素是为层级实例分配的 QPU 和内存。 从较小的实例开始,监控 QPU 使用情况,并通过在层级内选择更高或更低的实例来扩大或缩减规模。 此外,监视非高峰时段的使用情况。 可以在不使用服务器时暂停服务器。 暂停实例时不收取任何费用。 有关详细信息,请参阅以下文章: 符合需要的层级 监视服务器指标 Azure Analysis Services 定价 参考体系结构 企业商业智能 - Azure 参考体系结构 自动化企业 BI - Azure 体系结构中心 Azure 数据工厂 V2Azure 数据工厂是大数据业务流程协调程序。 该服务将数据向不同类型的数据存储传入和传出数据。 此服务使用其他计算服务转换数据。 此服务创建可自动执行数据移动和转换的工作流。 你只需支付使用费。 通过以下因素来度量使用情况: 对数据执行操作的管道活动。 这些操作包括从各种来源复制数据、转换数据和控制流。 有关详细信息,请参阅数据移动活动、数据转换活动和控制活动。 你需要为总活动数(以千计)付费。 将以数据集成单元数来度量执行。 每个单元跟踪 CPU、内存和网络资源分配。 此度量适用于 Azure Integration Runtime。 你还需要为执行活动付费,例如复制数据、查找和外部活动。 每个活动单独定价。 如果管道在一个月内没有关联触发器或运行,也将向你收费。 所有活动按分钟计算,并向上舍入。 参考体系结构 自动化企业 BI - Azure 体系结构中心 企业商业智能 - Azure 参考体系结构 构建企业级聊天机器人 - Azure 体系结构中心 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |