使用 Data Wrangler 加速数据准备

您所在的位置:网站首页 pandas删除重复列 使用 Data Wrangler 加速数据准备

使用 Data Wrangler 加速数据准备

2023-05-29 04:55| 来源: 网络整理| 查看: 265

如何在 Microsoft Fabric 中使用 Data Wrangler 加速数据准备 项目 05/23/2023

Data Wrangler 是一种基于笔记本的工具,可为用户提供沉浸式体验来执行探索性数据分析。 该功能将类似网格的数据显示与动态摘要统计信息、内置可视化效果和常见数据清理操作库相结合。 只需单击一下即可应用每个操作,实时更新数据显示,并生成可作为可重用函数保存回笔记本的代码。

重要

Microsoft Fabric 目前为预览版。 此信息与预发行产品相关,相应产品在发行之前可能会进行重大修改。 Microsoft 不对此处提供的信息作任何明示或默示的担保。

先决条件

Power BI Premium订阅。 如果没有,请参阅如何购买Power BI Premium。

分配有高级容量的 Power BI 工作区。 如果没有工作区,请使用 创建工作区 中的步骤创建工作区并将其分配给高级容量。

登录到 Microsoft Fabric。

限制 Data Wrangler 目前 仅 支持 Pandas 数据帧。 对 Spark 数据帧的支持正在进行中。 Data Wrangler 的显示器在大型显示器上效果更好,尽管界面的不同部分可以最小化或隐藏以适应较小的屏幕。 启动 Data Wrangler

用户可以直接从 Microsoft Fabric 笔记本启动 Data Wrangler,以浏览和转换任何 Pandas 数据帧。 此代码片段演示如何将示例数据读取到 Pandas 数据帧中:

import pandas as pd # Read a CSV into a Pandas DataFrame from e.g. a public blob store df = pd.read_csv("https://raw.githubusercontent.com/plotly/datasets/master/titanic.csv")

在笔记本功能区“数据”选项卡下,使用“数据整理器”下拉提示浏览可供编辑的活动 Pandas 数据帧。 选择要在 Data Wrangler 中打开的一个。

提示

当笔记本内核繁忙时,无法打开数据整理器。 执行单元格必须完成其执行,然后才能启动 Data Wrangler。

查看摘要统计信息

当 Data Wrangler 启动时,它会在“摘要”面板中生成所显示数据帧的描述性概述。 此概述包括有关数据帧维度、缺失值等的信息。 选择“数据整理器”网格中的任何列将提示“摘要”面板更新并显示有关该特定列的描述性统计信息。 其标头中还提供了有关每个列的快速见解。

提示

“摘要”面板和列标题中 (列特定的统计信息和视觉对象) 取决于列数据类型。 例如,仅当列被强制转换为数值类型时,数值列的装箱直方图才会显示在列标题中。 使用“操作”面板可重新转换列类型,以便最准确地显示。

浏览数据清理操作

可在“操作”面板中找到可搜索的数据清理步骤列表。 (还可以在每个列的上下文菜单中访问相同操作的较小选择。) 从“操作”面板中,选择数据清理步骤会提示你选择一个或多个目标列,以及完成步骤所需的任何参数。 例如,提示按数字缩放列需要新的值范围。

预览和应用操作

所选操作的结果将自动在 Data Wrangler 显示网格中预览,相应的代码将自动显示在网格下方的面板中。 若要提交预览的代码,请在任一位置选择“应用”。 若要删除预览的代码并尝试新操作,请选择“放弃”。

应用操作后,Data Wrangler 显示网格和汇总统计信息会更新以反映结果。 预览的代码显示在已提交操作的运行列表中,位于“清理步骤”面板中。

提示

始终可以撤消最近应用的步骤,旁边带有回收站图标,如果将光标悬停在“清理步骤”面板中的该步骤上,将显示该图标。

下表总结了 Data Wrangler 当前支持的操作:

操作 描述 Sort 按升序或降序对列进行排序 Filter 基于一个或多个条件筛选行 单热编码 为现有列中每个唯一值创建新列,指示每行是否存在这些值 使用分隔符的单热编码 使用分隔符拆分和单热编码分类数据 更改列类型 更改列的数据类型 删除列 删除一个或多个列 选择列 选择要保留的一列或多列,然后删除其余列 重命名列 重命名列 删除缺失值 删除包含缺失值的行 删除重复行 删除一列或多列中具有重复值的所有行 填充缺失值 将缺少值的单元格替换为新值 查找和替换 将单元格替换为完全匹配的模式 按列分组和聚合 按列值分组和聚合结果 带空格 删除文本开头和结尾的空格 拆分文本 根据用户定义的分隔符将列拆分为多个列 将文本转换为小写 将文本转换为小写 将文本转换为大写 将文本转换为大写 缩放最小值/最大值 在最小值和最大值之间缩放数字列 快速填充 基于从现有列派生的示例自动创建新列 保存和导出代码

Data Wrangler 显示网格上方的工具栏提供用于保存工具生成的代码的选项。 可以将代码复制到剪贴板,或将其作为函数导出到笔记本。 导出代码会关闭 Data Wrangler 并将新函数添加到笔记本中的代码单元格。 还可以下载已清理的数据帧(反映在更新的数据整理器显示网格中)作为 csv 文件。

提示

在手动运行新单元格之前,不会应用 Data Wrangler 生成的代码,并且不会覆盖原始数据帧。

后续步骤 若要在 VS Code 中试用 Data Wrangler,请参阅 VS Code 中的数据整理器。


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3