Visual Studio Code 的 Databricks 扩展

您所在的位置：网站首页 › jupyter查看函数参数 › Visual Studio Code 的 Databricks 扩展

Visual Studio Code 的 Databricks 扩展

2023-05-27 20:14| 来源: 网络整理| 查看: 265

Visual Studio Code 的 Databricks 扩展项目 05/26/2023

重要

此功能目前以公共预览版提供。

使用 Visual Studio Code 的 Databricks 扩展，可以从本地开发计算机上运行的 Visual Studio Code 集成开发环境 (IDE) 连接到远程 Azure Databricks 工作区。通过这些连接，可以：

将你在 Visual Studio Code 中开发的本地代码与远程工作区中的代码同步。在远程工作区中的 Azure Databricks 群集上从 Visual Studio Code 运行本地 Python 代码文件。从 Visual Studio Code 将本地 Python 代码文件 (.py) 及 Python、R、Scala 和 SQL 笔记本（.py、.ipynb、.r、.scala 和 .sql）作为远程工作区中的自动化 Azure Databricks 作业运行。

注意

Visual Studio Code 的 Databricks 扩展支持将 R、Scala 和 SQL 笔记本作为自动化作业运行，但不在 Visual Studio Code 中为这些语言提供任何更深入的支持。

准备阶段

在你可以使用 Visual Studio Code 的 Databricks 扩展之前，你的 Azure Databricks 工作区和本地开发计算机必须满足以下要求。

工作区要求访问令牌本地开发计算机要求工作区要求

必须至少有一个可用的 Azure Databricks 工作区，并且该工作区必须满足以下要求：

该工作区必须至少包含一个 Azure Databricks 群集。如果你没有可用的群集，可以立即创建一个群集，或者在安装 Visual Studio Code 的 Databricks 扩展后创建。

注意

Databricks 建议创建个人计算群集。这样就可以立即开始运行工作负载，并最大程度地减少计算管理开销。

此扩展不支持 Databricks SQL 仓库。

必须如下一个要点中所述为工作区启用 Repos 中的文件，无论你使用的是工作区文件位置还是 Databricks Repos 中的文件。

Visual Studio Code 的 Databricks 扩展主要依赖于工作区文件位置。请参阅设置工作区文件位置。

注意

Visual Studio Code 的 Databricks 扩展还支持 Azure Databricks 工作区内 Databricks Repos 中的文件。但是，Databricks 建议仅在无法使用工作区文件位置时才使用此功能。请参阅设置存储库。

访问令牌

必须有一个 Azure Databricks 个人访问令牌。如果你没有可用的个人访问令牌，可以立即生成一个。

注意

可以使用本地安装的 Azure CLI 而不使用 Azure Databricks 个人访问令牌。请参阅设置 Azure CLI 身份验证。

本地开发计算机要求

必须在本地开发计算机上安装以下组件：

Visual Studio Code 1.69.1 或更高版本。若要查看已安装的版本，请在 Linux 或 macOS 上的主菜单中单击“代码”>“关于 Visual Studio Code”，或者在 Windows 上单击“帮助”>“关于”。若要下载、安装和配置 Visual Studio Code，请参阅设置 Visual Studio Code。

必须配置 Visual Studio Code 才能编写 Python 代码，包括使用 Python 解释器。有关详细信息，请参阅 VS Code 中的 Python 入门。

引用你的 Azure Databricks 个人访问令牌的 Azure Databricks 配置文件。如果你没有可用的配置文件，可以在安装 Visual Studio Code 的 Databricks 扩展后创建一个。

注意

可以使用本地安装的 Azure CLI，而不使用 Azure Databricks 配置文件和 Azure Databricks 个人访问令牌。请参阅设置 Azure CLI 身份验证。

此扩展不支持将 Azure Active Directory (Azure AD) 令牌用作配置文件的一部分。

Visual Studio Code 的 Databricks 扩展。有关设置说明，请参阅下一部分。

入门

在可以使用 Visual Studio Code 的 Databricks 扩展之前，必须先下载、安装、打开并配置该扩展，如下所述。

安装并打开扩展配置项目配置扩展安装并打开扩展

在 Visual Studio Code 中，打开“扩展”视图（在主菜单中选择“视图”>“扩展”）。

在“在市场中搜索扩展”中，输入 Databricks。

单击“Databricks”条目。

注意

有多个条目的标题包含“Databricks”。请务必单击标题中只包含“Databricks”且“Databricks”旁边有一个蓝色复选标记图标的条目。

单击“安装”。

重新启动 Visual Studio Code。

打开扩展：在边栏上，单击“Databricks”图标。

配置项目

打开扩展后，在 Visual Studio Code 中打开代码项目的文件夹（“文件”>“打开文件夹”）。如果你没有代码项目，请使用 PowerShell、Linux 或 macOS 终端或者 Windows 命令提示符创建一个文件夹，切换到新文件夹，然后从该文件夹打开 Visual Studio Code。例如：

Linux、macos mkdir databricks-demo cd databricks-demo code . Windows md databricks-demo cd databricks-demo code .

提示

如果遇到错误 command not found: code，请参阅 Visual Studio Code 文档中的从命令行启动。

配置扩展

若要使用该扩展，必须设置 Azure Databricks 配置文件，或者可以使用 Azure CLI 对 Azure Databricks 工作区进行身份验证。此外，必须设置群集和存储库。

注意

可以使用本地安装的 Azure CLI 而不使用 Azure Databricks 配置文件。请参阅设置 Azure CLI 身份验证。

使用配置文件设置身份验证设置 Azure CLI 身份验证设置群集设置工作区文件位置设置存储库使用配置文件设置身份验证

注意

可以使用本地安装的 Azure CLI 而不使用 Azure Databricks 配置文件。请参阅设置 Azure CLI 身份验证。

打开项目和扩展后，执行以下操作：

在“配置”窗格中单击“配置 Databricks”。

注意

如果“配置 Databricks”不可见，请单击“配置”旁边的齿轮（“配置工作区”）图标。

在“命令面板”中，对于“Databricks 主机”，请输入每个工作区的 URL，例如 https://adb-1234567890123456.7.azuredatabricks.net。然后，按 Enter。

执行下列操作之一：

如果 Visual Studio Code 的 Databricks 扩展检测到 URL 的现有匹配 Azure Databricks 配置文件，你可以在列表中选择该配置文件。单击“编辑 Databricks 配置文件”打开你的 Azure Databricks 配置文件文件，并手动创建一个配置文件。

该扩展会在项目中创建一个名为 .databricks 的隐藏文件夹（如果尚不存在）。该扩展还会在此文件夹中创建一个名为 project.json 的文件（如果尚不存在）。此文件包含你输入的 URL，以及正常运行 Visual Studio Code 的 Databricks 扩展而所需的一些 Azure Databricks 身份验证详细信息。

如果 .gitignore 文件不存在或者在任何父文件夹中找不到现有的 .gitignore，则该扩展还会向项目添加一个隐藏的文件。如果创建了新的 .gitignore 文件，则该扩展会向此新文件添加一个 .databricks/ 条目。如果该扩展找到现有的 .gitignore 文件，则它会向该文件添加一个 .databricks/ 条目。

设置 Azure CLI 身份验证

Azure Databricks 支持使用本地安装的 Azure CLI 进行身份验证。这样可以生成短期（有效期为一小时）Azure Active Directory (Azure AD) 令牌，从而消除了通过版本控制签入或其他方式意外透露长期令牌（例如 Azure Databricks 个人访问令牌）的风险。

打开项目和扩展并在本地安装 Azure CLI 后，执行以下操作：

在“配置”窗格中单击“配置 Databricks”。

注意

如果“配置 Databricks”不可见，请单击“配置”旁边的齿轮（“配置工作区”）图标。

在“命令面板”中，对于“Databricks 主机”，请输入每个工作区的 URL，例如 https://adb-1234567890123456.7.azuredatabricks.net。然后，按 Enter。

选择“Azure CLI”。

设置群集

打开扩展和代码项目并设置 Azure Databricks 配置文件后，选择要使用的现有 Azure Databricks 群集，或创建并使用新的 Azure Databricks 群集。

使用现有群集

如果你要使用现有的 Azure Databricks 群集，请执行以下操作之一：

在“群集”窗格中执行以下操作：

在要使用的群集旁边，单击插头（“附加群集”）图标。

提示

如果该群集在“群集”窗格中不可见，请单击筛选器（“筛选群集”）图标，以查看“所有”群集、“由我创建”的群集或“正在运行”的群集。或者，单击筛选器图标旁边的带箭头圆圈（刷新）图标。

该扩展会将群集的 ID 添加到代码项目的 .databricks/project.json 文件中，例如 "clusterId": "1234-567890-abcd12e3"。

此过程现已完成。

在“配置”窗格中执行以下操作：

在“群集”旁边，单击齿轮（“配置群集”）图标。

在“命令面板”中单击要使用的群集。

该扩展会将群集的 ID 添加到代码项目的 .databricks/project.json 文件中，例如 "clusterId": "1234-567890-abcd12e3"。

此过程现已完成。

创建新群集

如果你没有 Azure Databricks 群集，或者想要创建并使用新的群集，请执行以下操作：

在“配置”窗格中，单击“群集”旁边的齿轮（“配置群集”）图标。

在“命令面板”中，单击“创建新群集”。

当系统提示打开外部网站（你的 Azure Databricks 工作区）时，请单击“打开”。

根据提示登录到你的 Azure Databricks 工作区。

按照说明创建群集。

注意

Databricks 建议创建个人计算群集。这样就可以立即开始运行工作负载，并最大程度地减少计算管理开销。

创建并运行群集后，返回 Visual Studio Code。

执行下列操作之一：

在“群集”窗格中要使用的群集旁边，单击插头（“附加群集”）图标。

提示

如果该群集不可见，请单击筛选器（“筛选群集”）图标，以查看“所有”群集、“由我创建”的群集或“正在运行”的群集。或者，单击带箭头圆圈（刷新）图标。

该扩展会将群集的 ID 添加到代码项目的 .databricks/project.json 文件中，例如 "clusterId": "1234-567890-abcd12e3"。

此过程现已完成。

在“配置”窗格中，单击“群集”旁边的齿轮（“配置群集”）图标。

在“命令面板”中单击要使用的群集。

该扩展会将群集的 ID 添加到代码项目的 .databricks/project.json 文件中，例如 "clusterId": "1234-567890-abcd12e3"。

设置工作区文件位置

打开扩展和代码项目并设置 Azure Databricks 配置文件后，使用 Visual Studio Code 的 Databricks 扩展创建并使用新的工作区文件位置，或者选择一个现有的工作区文件位置。

注意

Visual Studio Code 的 Databricks 扩展仅适用于它创建的工作区文件位置。你不能在工作区中使用现有工作区文件位置，除非它是由扩展创建的。

若要将工作区文件位置与 Visual Studio Code 的 Databricks 扩展配合使用，必须使用 0.3.5 或更高版本的扩展，并且 Azure Databricks 群集上必须已安装 Databricks Runtime 11.2 或更高版本。

要使 Visual Studio Code 的 Databricks 扩展能够使用 Azure Databricks 工作区中的工作区文件位置，必须首先将该扩展的“同步: 目标类型”设置为“工作区”，如下所示：

打开扩展和代码项目并设置 Azure Databricks 配置文件后，在命令面板（“视图”>“命令面板”）中键入 Preferences: Open User Settings，然后单击“首选项: 打开用户设置”。在“用户”选项卡上展开“扩展”，然后单击“Databricks”。对于“同步: 目标类型”，请选择“工作区”。退出再重启 Visual Studio Code。创建新的工作区文件位置

若要创建新的工作区文件位置，请执行以下操作：

在“配置”窗格中的“同步目标”旁边，单击齿轮（“配置同步目标”）图标。

在“命令面板”中，单击“创建新的同步目标”。

为新的工作区文件位置键入文件夹名称，然后按 Enter。

该扩展将在工作区的 /Users//.ide 中使用指定的文件夹名称创建一个文件夹，然后将工作区文件位置的路径添加到代码项目的 .databricks/project.json 文件，例如 "workspacePath": "/Users//.ide/"。

注意

如果远程工作区文件位置的名称与本地代码项目的名称不匹配，将显示警告图标和以下消息：远程同步目标名称与当前 Visual Studio Code 工作区名称不匹配。如果你不要求名称匹配，则可以忽略此警告。

设置工作区文件位置后，通过单击“同步目标”旁边的带箭头圆圈（开始同步）图标开始与工作区文件位置同步。

重要

Visual Studio Code 的 Databricks 扩展仅执行从本地 Visual Studio Code 项目到远程 Azure Databricks 工作区中相关工作区文件位置的单向自动文件更改同步。这些远程工作区文件是临时文件。不要从远程工作区内部对这些文件启动更改，因为这些更改不会同步回本地项目。

重用现有的工作区文件位置

如果你先前使用 Visual Studio Code 的 Databricks 扩展创建了一个工作区文件位置，并且想要在当前 Visual Studio Code 项目中重用该位置，请执行以下操作：

在“配置”窗格中的“同步目标”旁边，单击齿轮（“配置同步目标”）图标。

在“命令面板”中，从列表中选择工作区文件位置的名称。

该扩展会将工作区文件位置的路径添加到代码项目的 .databricks/project.json 文件，例如 "workspacePath": "/Users//.ide/"。

注意

设置工作区文件位置后，通过单击“同步目标”旁边的带箭头圆圈（开始同步）图标开始与工作区文件位置同步。

重要

设置存储库

注意

除非你无法使用工作区文件位置，否则 Databricks 不建议将 Databricks Repos 与 Visual Studio Code 的 Databricks 扩展配合使用。请参阅设置工作区文件位置。

如果你选择使用 Databricks 存储库而不是 Azure Databricks 工作区中的工作区文件位置，请在打开扩展和代码项目并设置 Azure Databricks 配置文件后，使用 Visual Studio Code 的 Databricks 扩展在 Databricks Repos 中创建新存储库并使用它，或者在 Databricks Repos 中选择先前使用 Visual Studio Code 的 Databricks 扩展创建的、你要重用的现有存储库。

注意

Visual Studio Code 的 Databricks 扩展仅适用于它自己创建的存储库。不能使用工作区中的现有存储库。

要使 Visual Studio Code 的 Databricks 扩展能够使用 Azure Databricks 工作区内 Databricks Repos 中的存储库，必须首先将该扩展的“同步: 目标类型”设置为“存储库”，如下所示：

打开扩展和代码项目并设置 Azure Databricks 配置文件后，在命令面板（“视图”>“命令面板”）中键入 Preferences: Open User Settings，然后单击“首选项: 打开用户设置”。在“用户”选项卡上展开“扩展”，然后单击“Databricks”。对于“同步: 目标类型”，请选择“存储库”。退出再重启 Visual Studio Code。创建新的存储库

注意

除非你无法使用工作区文件位置，否则 Databricks 不建议将 Databricks Repos 与 Visual Studio Code 的 Databricks 扩展配合使用。请参阅设置工作区文件位置。

若要创建新存储库，请执行以下操作：

在“配置”窗格中的“同步目标”旁边，单击齿轮（“配置同步目标”）图标。

在“命令面板”中，单击“创建新的同步目标”。

在 Databricks Repos 中键入新存储库的名称，然后按 Enter。

该扩展会将字符 .ide 追加到存储库名称的末尾，然后将存储库的工作区路径添加到代码项目的 .databricks/project.json 文件，例如 "workspacePath": "/Workspace/Repos/[email protected]/my-repo.ide"。

注意

如果远程存储库的名称与本地代码项目的名称不匹配，将显示警告图标和以下消息：远程同步目标名称与当前 Visual Studio Code 工作区名称不匹配。如果你不要求名称匹配，则可以忽略此警告。

设置存储库后，单击“同步目标”旁边的带箭头圆圈（开始同步）图标，以开始与该存储库同步。

重要

Visual Studio Code 的 Databricks 扩展仅执行从本地 Visual Studio Code 项目到远程 Azure Databricks 工作区中相关存储库的单向自动文件更改同步。这些远程存储库文件是临时文件。不要从远程存储库内部对这些文件启动更改，因为这些更改不会同步回本地项目。

重用现有存储库

注意

除非你无法使用工作区文件位置，否则 Databricks 不建议将 Databricks Repos 与 Visual Studio Code 的 Databricks 扩展配合使用。请参阅设置工作区文件位置。

如果你先前使用 Visual Studio Code 的 Databricks 扩展在 Databricks Repos 中创建了一个存储库，并且想要在当前 Visual Studio Code 项目中重用该存储库，请执行以下操作：

在“配置”窗格中的“同步目标”旁边，单击齿轮（“配置同步目标”）图标。

在“命令面板”中，从列表中选择该存储库的名称。

该扩展会将该存储库的工作区路径添加到代码项目的 .databricks/project.json 文件中，例如 "workspacePath": "/Workspace/Repos/[email protected]/my-repo.ide"。

注意

设置存储库后，单击“同步目标”旁边的带箭头圆圈（开始同步）图标，以开始与该存储库同步。

重要

开发任务

配置 Visual Studio Code 的 Databricks 扩展后，可以使用该扩展在远程 Azure Databricks 工作区中的群集上运行本地 Python 文件，或者在远程工作区中将本地 Python 文件或本地 Python、R、Scala 或 SQL 笔记本作为作业运行，如下所示。

如果你没有可用于测试 Visual Studio Code 的 Databricks 扩展的本地文件或笔记本，可将以下基本代码添加到项目：

Python 文件 from pyspark.sql import SparkSession from pyspark.sql.types import * spark = SparkSession.builder.getOrCreate() schema = StructType([ StructField('CustomerID', IntegerType(), False), StructField('FirstName', StringType(), False), StructField('LastName', StringType(), False) ]) data = [ [ 1000, 'Mathijs', 'Oosterhout-Rijntjes' ], [ 1001, 'Joost', 'van Brunswijk' ], [ 1002, 'Stan', 'Bokenkamp' ] ] customers = spark.createDataFrame(data, schema) customers.show() # Output: # # +----------+---------+-------------------+ # |CustomerID|FirstName| LastName| # +----------+---------+-------------------+ # | 1000| Mathijs|Oosterhout-Rijntjes| # | 1001| Joost| van Brunswijk| # | 1002| Stan| Bokenkamp| # +----------+---------+-------------------+ Python 笔记本 # Databricks notebook source from pyspark.sql.types import * schema = StructType([ StructField('CustomerID', IntegerType(), False), StructField('FirstName', StringType(), False), StructField('LastName', StringType(), False) ]) data = [ [ 1000, 'Mathijs', 'Oosterhout-Rijntjes' ], [ 1001, 'Joost', 'van Brunswijk' ], [ 1002, 'Stan', 'Bokenkamp' ] ] customers = spark.createDataFrame(data, schema) customers.show() # Output: # # +----------+---------+-------------------+ # |CustomerID|FirstName| LastName| # +----------+---------+-------------------+ # | 1000| Mathijs|Oosterhout-Rijntjes| # | 1001| Joost| van Brunswijk| # | 1002| Stan| Bokenkamp| # +----------+---------+-------------------+ R 笔记本 # Databricks notebook source library(SparkR) sparkR.session() data 开发人员: 重新加载窗口”命令。步骤 2：创建 Python 虚拟环境

为 Python 代码项目创建并激活一个 Python 虚拟环境。 Python 虚拟环境有助于确保代码项目使用兼容版本的 Python 和 Python 包（在本例中为 Databricks Connect 包）。本文中的说明和示例使用 venv 创建 Python 虚拟环境。若要使用 venv 创建 Python 虚拟环境，请执行以下操作：

在 Visual Studio Code 终端（“视图”>“终端”）中设置为 Python 代码项目的根目录，指示 venv 将 Python 用于虚拟环境，然后运行以下命令，在 Python 代码项目根目录内名为 .venv 的隐藏目录中创建虚拟环境的支持文件：

# Linux and macOS python3.10 -m venv ./.venv # Windows python3.10 -m venv .\.venv

以上命令使用 Python 3.10，它与 Databricks Runtime 13.0 使用的 Python 主要和次要版本相匹配。请务必使用与群集上安装的 Python 版本匹配的 Python 主要和次要版本。

如果 Visual Studio Code 显示消息“我们发现已经创建了一个新环境。是否要为工作区文件夹选择该环境”，请单击“是”。

使用 venv 激活虚拟环境。请根据你的操作系统和终端类型，参阅 venv 文档了解要使用的正确命令。例如，在运行 zsh 的 macOS 上：

source ./.venv/bin/activate

如果虚拟环境的名称（例如 .venv）显示在括号中且后面紧跟终端提示符，表示该虚拟环境已激活。

若要随时停用虚拟环境，请运行 deactivate 命令。

当虚拟环境的名称不再显示在终端提示符前的括号中时，就表示虚拟环境已停用。

步骤 3：更新 Python 代码以建立调试上下文

若要在 Databricks Connect 和群集之间建立调试上下文，Python 代码必须通过调用 DatabricksSession.builder.getOrCreate() 来初始化 DatabricksSession 类。

请注意，在初始化 DatabricksSession 类时，不需要指定工作区的实例名称、Azure Databricks 个人访问令牌或群集的 ID 和端口号。 Databricks Connect 将从你先前在本文中通过 Visual Studio Code 的 Databricks 扩展提供的配置详细信息中获取此信息。

有关初始化 DatabricksSession 类的更多信息，请参阅 Databricks Connect 代码示例。

步骤 4：启用 Databricks Connect

打开扩展并为代码项目配置“工作区”部分后，执行以下操作：

在 Visual Studio Code 状态栏中，单击红色的“Databricks Connect 已禁用”按钮。

如果扩展中尚未配置“群集”部分，将显示以下消息：“请附加群集以使用 Databricks Connect。” 单击“附加群集”并选择满足 Databricks Connect 要求的群集。

如果配置了“群集”部分，但群集与 Databricks Connect 不兼容，请单击红色的“Databricks Connect 已禁用”按钮，单击“附加群集”，然后选择一个兼容的群集。

如果尚未安装 Databricks Connect 包，则会显示以下消息：“要进行交互式调试和自动完成，需要 Databricks Connect。是否要在环境中安装它?”。单击“安装”。

在 Visual Studio Code 状态栏中，会显示蓝色的“Databricks Connect 已启用”按钮。

如果仍然出现红色的“Databricks Connect 已禁用”按钮，请单击该按钮，然后按照屏幕上的说明按照，以显示蓝色的“Databricks Connect 已启用”按钮。

显示蓝色的“Databricks Connect 已启用”按钮后，便可以使用 Databricks Connect。

注意

无需配置扩展的“同步目标”部分即可让代码项目使用 Databricks Connect。

步骤 5：运行或调试 Python 代码

为代码项目启用 Databricks Connect 后，如下所述运行或调试 Python 文件或笔记本。

若要运行或调试 Python (.py) 文件，请执行以下操作：

在代码项目中，打开要运行或调试的 Python 文件。在 Python 文件中设置任何调试断点。在文件编辑器的标题栏中，单击播放（“运行或调试”）图标旁边的下拉箭头。然后在下拉列表中选择“调试 Python 文件”。此选项支持逐步调试、断点、监视表达式、调用堆栈和类似功能。其他不支持调试的选项包括：运行 Python 文件：使用 Databricks Connect 运行文件或笔记本，但不支持调试。在 Databricks 中上传和运行文件：在群集上运行文件，并在 IDE 的终端中显示结果。此选项不使用 Databricks Connect 来运行文件。在 Databricks 上将文件作为工作流运行：在工作区中将文件作为自动化 Azure Databricks 作业运行，并在 IDE 的编辑器中显示结果。此选项不使用 Databricks Connect。

注意

“在交互式窗口中运行当前文件”选项（如果可用）尝试在特殊的 Visual Studio Code 交互式编辑器中本地运行文件。 Databricks 不建议使用此选项。

若要运行或调试 Python Jupyter 笔记本 (.ipynb)，请执行以下操作：

在代码项目中，打开要运行或调试的 Python Jupyter 笔记本。确保 Python 文件采用 Jupyter 笔记本格式并且扩展名为 .ipynb。

提示

可以通过在“命令面板”中运行“>创建: 新建 Jupyter 笔记本”命令来创建新的 Python Jupyter 笔记本。

单击“运行所有单元格”以运行所有单元格但不调试、单击“执行单元格”以运行单个对应的单元格但不调试，或单击“逐行运行”以逐行运行单个单元格并进行有限的调试，变量值显示在“Jupyter”面板中（“视图”>“打开视图”>“Jupyter”）。

要在单个单元格内进行全面调试，请设置断点，然后在该单元格的“运行”按钮旁边的菜单中单击“调试单元格”。

单击其中的任一选项后，系统可能会提示你安装缺少的 Python Jupyter 笔记本包依赖项。单击以进行安装。

有关详细信息，请参阅 VS Code 中的 Jupyter 笔记本。

在群集上运行 Python 文件

打开扩展和代码项目并设置 Azure Databricks 配置文件、群集和存储库后，请执行以下操作：

在代码项目中，打开要在群集上运行的 Python 文件。执行下列操作之一：

在“资源管理器”视图（“视图”>“资源管理器”）中，右键单击该文件，然后从上下文菜单中选择“在 Databricks 中上传和运行文件”。

在文件编辑器的标题栏中，单击播放（“运行或调试”）图标旁边的下拉箭头。然后在下拉列表中，单击“在 Databricks 中上传和运行文件”。

该文件将在群集上运行，所有输出将显示在“调试控制台”（“视图”>“调试控制台”）中。

将 Python 文件作为作业运行

打开扩展和代码项目并设置 Azure Databricks 配置文件、群集和存储库后，请执行以下操作：

在代码项目中，打开要作为作业运行的 Python 文件。执行下列操作之一：

在“资源管理器”视图（“视图”>“资源管理器”）中，右键单击该文件，然后从上下文菜单中选择“在 Databricks 上将文件作为工作流运行”。

在文件编辑器的标题栏中，单击播放（“运行或调试”）图标旁边的下拉箭头。然后在下拉列表中，单击“在 Databricks 上将文件作为工作流运行”。

此时会显示一个新的编辑器选项卡，其标题为“Databricks 作业运行”。该文件将在工作区中作为作业运行，所有输出将显示在新编辑器选项卡的“输出”区域中。

若要查看有关作业运行的信息，请单击新的“Databricks 作业运行”编辑器选项卡中的“任务运行 ID”链接。工作区随即会打开，作业运行详细信息显示在工作区中。

将 Python 笔记本作为作业运行

打开扩展和代码项目并设置 Azure Databricks 配置文件、群集和存储库后，请执行以下操作：

在代码项目中，打开要作为作业运行的 Python 笔记本。

提示

若要在 Visual Studio Code 中创建 Python 笔记本文件，首先请单击“文件”>“新建文件”，选择“Python 文件”，然后使用 .py 文件扩展名保存新文件。

若要将 .py 文件转换为 Azure Databricks 笔记本，请将特殊注释 # Databricks notebook source 添加到该文件的开头，并在每个单元之前添加特殊注释 # COMMAND ----------。有关详细信息，请参阅导入文件并将其转换为笔记本。

执行下列操作之一：

在“资源管理器”视图（“视图”>“资源管理器”）中，右键单击笔记本文件，然后从上下文菜单中选择“在 Databricks 上将文件作为工作流运行”。

在笔记本文件编辑器的标题栏中，单击播放（“运行或调试”）图标旁边的下拉箭头。然后在下拉列表中，单击“在 Databricks 上将文件作为工作流运行”。

此时会显示一个新的编辑器选项卡，其标题为“Databricks 作业运行”。该笔记本将作为作业在工作区中运行，该笔记本及其输出显示在新编辑器选项卡的“输出”区域中。

若要查看有关作业运行的信息，请单击“Databricks 作业运行”编辑器选项卡中的“任务运行 ID”链接。工作区随即会打开，作业运行详细信息显示在工作区中。

将 R、Scala 或 SQL 笔记本作为作业运行

打开扩展和代码项目并设置 Azure Databricks 配置文件、群集和存储库后，请执行以下操作：

在代码项目中，打开要作为作业运行的 R、Scala 或 SQL 笔记本。

提示

若要在 Visual Studio Code 中创建 R、Scala 或 SQL 笔记本文件，首先请单击“文件”>“新建文件”，选择“Python 文件”，然后分别使用 .r、.scala 或 .sql 文件扩展名保存新文件。

若要将 .r、.scala 或 .sql 文件转换为 Azure Databricks 笔记本，请将特殊注释 Databricks notebook source 添加到该文件的开头，并在每个单元之前添加特殊注释 COMMAND ----------。请务必为每种语言使用正确的注释标记（# 表示 R，// 表示 Scala，-- 表示 SQL）。有关详细信息，请参阅导入文件并将其转换为笔记本。

这类似于 Python 笔记本的模式：

在“运行和调试”视图（“视图”>“运行”）中，从下拉列表中选择“在 Databricks 上作为工作流运行”，然后单击绿色播放箭头（“开始调试”）图标。

注意

如果“在 Databricks 上作为工作流运行”不可用，请参阅创建自定义运行配置。

此时会显示一个新的编辑器选项卡，其标题为“Databricks 作业运行”。笔记本在工作区中作为作业运行。笔记本及其输出显示在新编辑器选项卡的“输出”区域中。

高级任务

可以使用 Visual Studio Code 的 Databricks 扩展来执行以下高级任务。

使用 pytest 运行测试使用环境变量定义文件创建自定义运行配置卸载扩展使用 pytest 运行测试

可以针对本地代码运行 pytest，而无需连接到远程 Azure Databricks 工作区中的群集。例如，可以使用 pytest 来测试接受 PySpark 数据帧并将其返回到本地内存的函数。若要开始使用并在本地运行 pytest，请参阅 pytest 文档中的入门。

若要针对远程 Azure Databricks 工作区中的代码运行 pytest，请在 Visual Studio Code 项目中执行以下操作：

步骤 1：创建测试

使用以下代码添加一个 Python 文件，其中包含要运行的测试。此示例假设此文件名为 spark_test.py 并且位于 Visual Studio Code 项目的根目录中。此文件包含一个pytest固定例程，该例程使群集的 SparkSession（群集上 Spark 功能的入口点）可用于测试。此文件包含单个测试，该测试检查表中的指定单元格是否包含指定值。你可以根据需要将自己的测试添加到此文件中。

from pyspark.sql import SparkSession import pytest @pytest.fixture def spark() -> SparkSession: # Create a SparkSession (the entry point to Spark functionality) on # the cluster in the remote Databricks workspace. Unit tests do not # have access to this SparkSession by default. return SparkSession.builder.getOrCreate() # Now add your unit tests. # For example, here is a unit test that must be run on the # cluster in the remote Databricks workspace. # This example determines whether the specified cell in the # specified table contains the specified value. For example, # the third column in the first row should contain the word "Ideal": # # +----+-------+-------+-------+---------+-------+-------+-------+------+-------+------+ # |_c0 | carat | cut | color | clarity | depth | table | price | x | y | z | # +----+-------+-------+-------+---------+-------+-------+-------+------+-------+------+ # | 1 | 0.23 | Ideal | E | SI2 | 61.5 | 55 | 326 | 3.95 | 3. 98 | 2.43 | # +----+-------+-------+-------+---------+-------+-------+-------+------+-------+------+ # ... # def test_spark(spark): spark.sql('USE default') data = spark.sql('SELECT * FROM diamonds') assert data.collect()[0][2] == 'Ideal' 步骤 2：创建 pytest 运行器

添加一个包含以下代码的 Python 文件，用于指示 pytest 运行在上一步骤中创建的测试。此示例假设该文件名为 pytest_databricks.py 并且位于 Visual Studio Code 项目的根目录中。

import pytest import os import sys # Run all tests in the connected repository in the remote Databricks workspace. # By default, pytest searches through all files with filenames ending with # "_test.py" for tests. Within each of these files, pytest runs each function # with a function name beginning with "test_". # Get the path to the repository for this file in the workspace. repo_root = os.path.dirname(os.path.realpath(__file__)) # Switch to the repository's root directory. os.chdir(repo_root) # Skip writing .pyc files to the bytecode cache on the cluster. sys.dont_write_bytecode = True # Now run pytest from the repository's root directory, using the # arguments that are supplied by your custom run configuration in # your Visual Studio Code project. In this case, the custom run # configuration JSON must contain these unique "program" and # "args" objects: # # ... # { # ... # "program": "${workspaceFolder}/path/to/this/file/in/workspace", # "args": ["/path/to/_test.py-files"] # } # ... # retcode = pytest.main(sys.argv[1:]) 步骤 3：创建自定义运行配置

若要指示 pytest 运行测试，必须创建自定义运行配置。使用现有的基于 Databricks 群集的运行配置来创建你自己的自定义运行配置，如下所示：

在主菜单中，单击“运行”>“添加配置”。

在“命令面板”中，选择“Databricks”。

Visual Studio Code 会向项目添加一个 .vscode/launch.json 文件（如果该文件尚不存在）。

如下所示更改启动器运行配置，然后保存文件：

将此运行配置的名称从 Run on Databricks 更改为此配置的唯一显示名称（在本示例中为 Unit Tests (on Databricks)）。将 program 从 ${file} 更改为项目中包含测试运行器的路径（在本示例中为 ${workspaceFolder}/pytest_databricks.py）。将 args 从 [] 更改为项目中包含测试文件的路径（在本例中为 ["."]）。

launch.json 文件应如下所示：

{ // Use IntelliSense to learn about possible attributes. // Hover to view descriptions of existing attributes. // For more information, visit: https://go.microsoft.com/fwlink/?linkid=830387 "version": "0.2.0", "configurations": [ { "type": "databricks", "request": "launch", "name": "Unit Tests (on Databricks)", "program": "${workspaceFolder}/pytest_databricks.py", "args": ["."], "env": {} } ] } 步骤 4：运行测试

首先确保 pytest 已安装在群集上。例如，在 Azure Databricks 工作区中打开群集的设置页后，执行以下操作：

在“库”选项卡上，如果“pytest”可见，则表示已安装 pytest。如果“pytest”不可见，请单击“安装新程序”。对于“库源”，请单击“PyPI”。对于“包”，请输入 pytest。单击“安装”。等待“状态”从“挂起”更改为“已安装”。

若要运行测试，请在 Visual Studio Code 项目中执行以下操作：

在主菜单中，单击“查看”>“运行”。在“运行和调试”列表中，单击“单元测试(在 Databricks 上)”（如果尚未选择）。单击绿色箭头（“开始调试”）图标。

pytest 结果将显示在“调试控制台”（在主菜单中选择“查看”>“调试控制台”）中。例如，这些结果显示至少在 spark_test.py 文件中找到了一个测试，句点 (.) 表示找到并通过了一项测试。（失败的测试将显示为 F。）

, - Creating execution context on cluster ... , - Synchronizing code to /Repos// ... , - Running /pytest_databricks.py ... ============================= test session starts ============================== platform linux -- Python , pytest-, pluggy- rootdir: /Workspace/Repos// collected 1 item spark_test.py . [100%] ============================== 1 passed in 3.25s =============================== , - Done (took 10818ms) 使用环境变量定义文件

Visual Studio Code 支持 Python 项目的环境变量定义文件。因此你可以在开发计算机上的某个位置创建一个扩展名为 .env 的文件，然后，Visual Studio Code 会在运行时应用此 .env 文件中的环境变量。有关详细信息，请参阅 Visual Studio Code 文档中的环境变量定义文件。

要让 Visual Studio Code 的 Databricks 扩展使用 .env 文件，请在 settings.json 文件中设置 databricks.python.envFile，或者将设置编辑器中的“扩展”>“Databricks”>“Python: Env 文件”设置为 .env 文件的绝对路径。

重要

如果设置 settings.json，请不要如 Visual Studio Code 文档中所述将 python.envFile 设置为 .env 文件的绝对路径，因为 Visual Studio Code 的 Databricks 扩展必须替代内部使用的 python.envFile。请确保仅设置 databricks.python.envFile。

创建自定义运行配置

可以在 Visual Studio Code 中创建自定义运行配置，以执行将自定义参数传递给作业或笔记本，或者为不同的文件创建不同的运行设置等操作。例如，以下自定义运行配置将 --prod 参数传递给作业：

{ "version": "0.2.0", "configurations": [ { "type": "databricks-workflow", "request": "launch", "name": "Run on Databricks as Workflow", "program": "${file}", "parameters": {}, "args": ["--prod"], "preLaunchTask": "databricks: sync" } ] }

若要创建自定义运行配置，请在 Visual Studio Code 的主菜单中单击“运行”>“添加配置”。然后为基于群集的运行配置选择“Databricks”，或者为基于作业的运行配置选择“Databricks: 工作流”。

通过使用自定义运行配置，还可以传入命令行参数，并直接按 F5 来运行代码。有关详细信息，请参阅 Visual Studio Code 文档中的启动配置。

卸载扩展

如果需要，可以如下所述卸载 Visual Studio Code 的 Databricks 扩展：

在 Visual Studio Code 的主菜单中，单击“视图”>“扩展”。在扩展列表中，选择“Visual Studio Code 的 Databricks”条目。单击 “卸载”。单击“需要重新加载”，或重启 Visual Studio Code。疑难解答通过代理同步时出错

问题：当你尝试运行 Visual Studio Code 的 Databricks 扩展以通过代理同步本地代码项目时，出现如下所示的错误消息，并且同步操作失败：Get "https:///api/2.0/preview/scim/v2/Me": EOF。

可能的原因：Visual Studio Code 不知道如何查找代理。

建议的解决方法：从终端运行以下命令重启 Visual Studio Code，然后再次尝试同步：

env HTTPS_PROXY=: code

在上面的命令中：

将替换为代理的完整 URL。将替换为代理上的正确端口。错误：尝试同步本地代码时出现“未知的生成系统错误 -86”

问题：当你尝试将项目中的本地代码同步到远程 Azure Databricks 工作区时，终端显示同步已开始但仅显示错误消息 spawn unknown system error -86。此外，“配置”窗格的“同步目标”部分保持挂起状态。

可能的原因：为开发计算机的操作系统安装了错误的 Visual Studio Code Databricks 扩展版本。

建议的解决方法：卸载扩展，然后从头开始为开发计算机的操作系统安装并打开扩展。

将使用情况日志发送到 Databricks

如果在将本地代码同步到远程 Azure Databricks 工作区时出现问题，可以通过执行以下操作将使用情况日志和相关信息发送给 Databricks 支持人员：

通过选中“Bricks: 详细模式”设置或根据设置中所述将 databricks.bricks.verboseMode 设置为 true，为 Databricks 命令行接口 (CLI) 启用详细模式。另外，通过选中“日志: 已启用”设置或根据设置中所述将 databricks.logs.enabled 设置为 true，来启用日志记录。在启用日志记录后请务必重启 Visual Studio Code。尝试重现问题。在“命令面板”（在主菜单中选择“查看”>“命令面板”）中，运行“Databricks: 打开完整日志”命令。将显示的 bricks-logs.json 和 sdk-and-extension-logs.json 文件发送给 Databricks 支持人员。另外，请复制问题上下文中的“终端”（“查看”>“终端”）的内容，并将此内容发送给 Databricks 支持人员。

若要将与代码同步问题无关的错误日志发送给 Databricks 支持人员，请执行以下操作：

在“命令面板”（“查看”>“命令面板”）中，运行“Databricks: 打开完整日志”命令。仅将显示的 sdk-and-extension-logs.json 文件发送给 Databricks 支持人员。

如果已选中“日志: 已启用”或者 databricks.logs.enabled 设置为 true，则“输出”视图（“视图”>“输出”>“Databricks 日志”）将显示截断的信息。若要显示详细信息，请根据设置中所述更改以下设置：

“日志: 最大数组长度”或 databricks.logs.maxArrayLength “日志: 最大字段长度”或 databricks.logs.maxFieldLength “日志: 截断深度”或 databricks.logs.truncationDepth 命令面板

Visual Studio Code 的 Databricks 扩展将以下命令添加到 Visual Studio Code 命令面板。另请参阅 Visual Studio Code 文档中的命令面板。

Command 描述 Databricks: Configure autocomplete for Databricks globals 在 Visual Studio Code 代码编辑器中为 PySpark、Databricks 实用工具和相关全局变量（例如 spark 和 dbutils）启用 IntelliSense。请参阅启用 PySpark 和 Databricks 实用工具代码完成。 Databricks: Configure cluster 将焦点移至“命令面板”以创建、选择或更改用于当前项目的 Azure Databricks 群集。请参阅设置群集。 Databricks: Configure sync destination 将焦点移至“命令面板”以创建、选择或更改 Databricks Repos 中用于当前项目的存储库。请参阅设置存储库。 Databricks: Configure workspace 将焦点移至“命令面板”以创建、选择或更改用于当前项目的 Azure Databricks 身份验证详细信息。参阅使用配置文件设置身份验证。 Databricks: Create Folder 创建新的同步目标。 Databricks: Detach cluster 从当前项目中删除对 Azure Databricks 群集的引用。 Databricks: Detach sync destination 从当前项目中删除对 Databricks Repos 中的存储库的引用。 Databricks: Focus on Clusters View 将“Databricks”视图中的焦点移至“群集”窗格。 Databricks: Focus on Configuration View 将“Databricks”视图中的焦点移至“配置”窗格。 Databricks: Focus on Workspace Explorer View 将“Databricks”视图中的焦点移至“工作区资源管理器”窗格。 Databricks: Logout 重置“Databricks”视图，以显示“配置”窗格中的“配置 Databricks”和“显示快速入门”按钮。当前项目的 .databricks/project.json 文件中的任何内容也会重置。请参阅配置扩展。 Databricks: Open Databricks configuration file 从默认位置打开当前项目的 Azure Databricks 配置文件。参阅使用配置文件设置身份验证。 Databricks: Open full logs 打开包含 Visual Studio Code 的 Databricks 扩展写入到开发计算机的应用程序日志文件的文件夹。 Databricks: Refresh workspace filesystem view 刷新“Databricks”视图中的“工作区资源管理器”窗格。 Databricks: Run File as Workflow on Databricks 在群集上运行 Python 文件。 Databricks: Show Quickstart 在编辑器中显示快速入门文件。 Databricks: Start cluster 如果群集已停止，请将它启动。 Databricks: Start synchronization 开始将当前项目的代码同步到 Azure Databricks 工作区。此命令执行增量同步。 Databricks: Start synchronization (full sync) 开始将当前项目的代码同步到 Azure Databricks 工作区。即使可以进行增量同步，此命令也会执行完全同步。 Databricks: Stop cluster 如果群集已运行，请将它停止。 Databricks: Stop synchronization 开始将当前项目的代码同步到 Azure Databricks 工作区。 Databricks: Upload and Run File on Databricks 将 Python 文件或笔记本作为工作区中的自动化 Azure Databricks 作业运行。设置

Visual Studio Code 的 Databricks 扩展将以下设置添加到 Visual Studio Code。另请参阅 Visual Studio Code 文档中的设置编辑器和 settings.json。

设置编辑器（“扩展”>“Databricks”） settings.json 描述 Bricks: 详细模式 databricks.bricks.verboseMode 选中此项或设置为 true，为 Databricks 命令行接口启用详细日志记录

选中此项或设置为 true，在 Databricks 命令行接口 (CLI) 将本地代码与远程工作区中的代码同步时为此 CLI 启用详细日志记录。默认设置为未选中或 false（不为 Databricks CLI 启用详细日志记录）。

群集：仅显示可访问的群集 databricks.clusters.onlyShowAccessibleClusters 选中此项或设置为 true 会仅对可在其上运行代码的群集启用筛选。默认设置为未选中或 false（不为这些群集启用筛选）。日志：已启用 databricks.logs.enabled 选中此项或设置为 true（默认）会启用日志记录。重新加载窗口，使任何更改生效。日志：最大数组长度 databricks.logs.maxArrayLength 为数组字段显示的最大项数。默认为 2。日志：最大字段长度 databricks.logs.maxFieldLength 日志输出面板中显示的每个字段的最大长度。默认为 40。日志：截断深度 databricks.logs.truncationDepth 显示的未截断日志的最大深度。默认为 2。替代 Databricks 配置文件 databricks.overrideDatabricksConfigFile 该扩展用于身份验证的 .databrickscfg 文件的备用位置。 Python: Env 文件 databricks.python.envFile 自定义 Python 环境变量定义 (.env) 文件的绝对路径。同步: 目标类型 databricks.sync.destinationType 是要使用工作区中的文件夹 (workspace) 还是工作区内 Databricks Repos 中的存储库（repo，默认设置）作为同步目标。

将此选项设置为 workspace 会显示“工作区资源管理器”窗格，可以在其中浏览工作区内可用的同步目标。此行为仅适用于能够在工作区内创建任意文件的工作区，并且所选群集上必须已安装 Databricks Runtime 11.2 或更高版本。请参阅什么是工作区文件？。

重新加载窗口，使任何更改生效。

常见问题 (FAQ) 是否支持以下任何功能或者对它们的支持是否有时间表？ Databricks Terraform 提供程序与 Visual Studio Code 的 Databricks 扩展之间存在哪种关系？ Databricks Labs 的 dbx 与 Visual Studio Code 的 Databricks 扩展之间存在哪种关系？如果我已有一个通过 Databricks CLI 创建的现有 Azure Databricks 配置文件，会发生什么情况？我需要对 Azure Databricks 工作区拥有哪些权限才能使用 Visual Studio Code 的 Databricks 扩展？必须为 Azure Databricks 工作区启用哪些设置才能使用 Visual Studio Code 的 Databricks 扩展？是否可以将 Visual Studio Code 的 Databricks 扩展与代理配合使用？是否可以将 Visual Studio Code 的 Databricks 扩展与远程 Git 提供程序存储的现有存储库配合使用？是否支持以下任何功能或者对它们的支持是否有时间表？

其他语言，例如 Scala 或 SQL

增量实时表

Databricks SQL 仓库

其他 IDE，例如 PyCharm

其他库

完整 CI/CD 集成

除 Azure Databricks 个人访问令牌和 Azure CLI 以外的身份验证方案

Databricks 已了解这些请求，并正在优先处理实现简单的本地开发和远程代码运行方案的工作。请将其他请求和方案转发给 Databricks 代表。 Databricks 会将你的意见纳入将来的规划。

Databricks Terraform 提供程序与 Visual Studio Code 的 Databricks 扩展之间存在哪种关系？

Databricks 仍然建议使用 Databricks Terraform 提供程序来以可预见的方式管理 CI/CD 管道。请告知 Databricks 代表你将来要如何使用 IDE 管理部署。 Databricks 会将你的意见纳入将来的规划。

Databricks Labs 的 dbx 与 Visual Studio Code 的 Databricks 扩展之间存在哪种关系？

Databricks Labs 的 dbx 主要功能包括：

项目基架。通过 dbx execute 命令进行有限的本地开发。 Azure Databricks 作业的 CI/CD。

Visual Studio Code 的 Databricks 扩展支持在 Azure Databricks 群集上进行本地开发和远程运行 Python 代码文件，以及在 Azure Databricks 作业中远程运行 Python 代码文件和笔记本。可继续将 dbx 用于项目基架和 Azure Databricks 作业的 CI/CD。

如果我已有一个通过 Databricks CLI 创建的现有 Azure Databricks 配置文件，会发生什么情况？

配置 Visual Studio Code 的 Databricks 扩展时，可以选择现有的配置文件。打开扩展和代码项目后，执行以下操作：

在“配置”窗格中，单击齿轮（“配置工作区”）图标。

输入每个工作区的 URL，例如 https://adb-1234567890123456.7.azuredatabricks.net。

在“命令面板”中选择现有的配置文件。

我需要对 Azure Databricks 工作区拥有哪些权限才能使用 Visual Studio Code 的 Databricks 扩展？

必须对 Azure Databricks 群集拥有执行权限才能运行代码，并且需要拥有在 Databricks Repos 中创建存储库的权限。

必须为 Azure Databricks 工作区启用哪些设置才能使用 Visual Studio Code 的 Databricks 扩展？

必须为工作区启用“存储库中的文件”设置。有关说明，请参阅配置对存储库中的文件的支持。如果你无法自行启用此设置，请联系 Azure Databricks 工作区管理员。

是否可以将 Visual Studio Code 的 Databricks 扩展与代理配合使用？

是的。请参阅通过代理同步时出错中建议的解决方法。

是否可以将 Visual Studio Code 的 Databricks 扩展与远程 Git 提供程序存储的现有存储库配合使用？

不是。 Visual Studio Code 的 Databricks 扩展仅适用于它自己创建的存储库。

【本文地址】

Visual Studio Code 的 Databricks 扩展

Visual Studio Code 的 Databricks 扩展

今日新闻

推荐新闻