【Chrome谷歌浏览器】爬虫的底层无头浏览器的设置

您所在的位置:网站首页 win10带不带Google搜寻器 【Chrome谷歌浏览器】爬虫的底层无头浏览器的设置

【Chrome谷歌浏览器】爬虫的底层无头浏览器的设置

2024-07-06 22:02| 来源: 网络整理| 查看: 265

原文作者:我辈理想 版权声明:文章原创,转载时请务必加上原文超链接、作者信息和本声明。

文章目录 前言一、谷歌浏览器?二、安装和卸载(一)linux系统1.google-chrome的安装和卸载1.1命令行安装1.2 卸载 2.ChromeDriver的安装和卸载2.1安装2.2卸载 3.chromium的安装和卸载3.1 两种安装方式3.2卸载 (三)windows系统 二、谷歌浏览器命令(一)浏览器内置命令(二)命令行命令 四、报错处理1.chrome和驱动版本对应2.chromium目前对命令行参数部分不生效,可更换至chromedriver 总结

前言

我们在日常应用中碰到多种谷歌浏览器,常见的是chrome、google-chrome、chromium、chromium-browser、chromedriver这些,很多人不知道这些是干嘛用的!这里简单的进行了整理,方便我们在各种系统中使用。

一、谷歌浏览器?

Google Chrome也就是Chrome,是一款由Google公司开发的网页浏览器,该浏览器基于其他开源软件撰写,包括WebKit,目标是提升稳定性、速度和安全性,并创造出简单且有效率的使用者界面。这个就是我们在windows和linux桌面安装的应用。

Chromium 也就是chromium-browser,是 Google Chrome 浏览器背后的引擎,是Chrome的开源版本(完全开源),也可作为独立的浏览器,但终究还是Chrome的开源版本。Chromium没有自动更新。Chromium是为了解决Chrome在不同系统上的兼容安装问题。(听说国内有些浏览器就是在这个基础上开发的)。

ChromeDriver 是 Chrome 的驱动,是 Python 爬虫使用的 selenium 模块用来模拟打开谷歌浏览器所必须的一个文件,能模拟在谷歌浏览器上的操作。chromedriver的版本一定要与Chrome的版本一致,不然就不起作用。

二、安装和卸载 (一)linux系统

这里就以linux下的ubuntu系统为例,其他可自行查找。ubuntu安装更新和软件可参考这篇博客,【Linux安装和更新——两种方式更换软件源,以JDK为例安装】

以下操作均是在ssh链接下。

1.google-chrome的安装和卸载 1.1命令行安装 # 1.下载deb文件 wget https://dl.google.com/linux/direct/google-chrome-stable_current_amd64.deb # 2.1 apt安装deb文件 sudo apt install ./google-chrome-stable_current_amd64.deb # 2.2 dpkg安装deb文件 sudo dpkg -i google-chrome-stable_current_amd64.deb sudo apt-get install -f # 3.查看版本 google-chrome --version 1.2 卸载 # 1.卸载删除软件包 sudo apt purge google-chrome-stable # 2.移除配置 cd ~/.config rm -rf google-chrome 2.ChromeDriver的安装和卸载

注意:/usr/bin/chromedriver路径时爬虫使用的路径

2.1安装 # 1.下载文件,87.0.4280.20是google-chrome --version的版本 wget https://chromedriver.storage.googleapis.com/87.0.4280.20/chromedriver_linux64.zip # 2.安装unzip用于解压文件 sudo apt install unzip unzip chromedriver_linux64.zip # 3.迁移文件,设置环境 sudo mv -f chromedriver /usr/local/share/chromedriver sudo ln -s /usr/local/share/chromedriver /usr/local/bin/chromedriver sudo ln -s /usr/local/share/chromedriver /usr/bin/chromedriver # 4.查看版本 chromedriver --version 2.2卸载 # 1.其实就是删除上边迁移的文件 sudo find -name chromedriver sudo rm /usr/local/bin/chromedriver sudo rm /usr/bin/chromedriver # 2.下边命令报错就可以了 chromedriver --version 3.chromium的安装和卸载 3.1 两种安装方式 # 1.第一种 sudo snap install chromium # 2第二种 sudo apt install chromium-browser 3.2卸载 sudo apt-get purge chromium-browser sudo rm ~/.config/chromium/ -rf (三)windows系统

windows比较简单,这里就不具体介绍了。

二、谷歌浏览器命令 (一)浏览器内置命令

Chrome是我们经常用的桌面网页浏览器(各系统都有稳定安装版本),在我们安装成功Chrome后,谷歌浏览器的很多内置命令我们就可以使用了。这些内置命令我们可以直接在浏览器的地址栏输入即可。

常用的内置命令如下:

1. chrome://inspect 调试移动端webview 2. chrome://downloads 查看所有的下载的文件 3. chrome://extensions 查看所有的插件 4. chrome://version 查看当前版本 5. chrome://settings 查看浏览器的各种设置 6. chrome://net-export 监控网络请求日志,在不打开开发者工具的情况下查看所有请求 (二)命令行命令

除了内置命令,谷歌还有在命令行中使用,很多在开发中用的的浏览器功能就是在命令行的基础上开发的,最流行的就是爬虫、html转图片等。 命令行相关参数参考:https://peter.sh/experiments/chromium-command-line-switches/ 其他参考链接:https://blog.csdn.net/weixin_42333581/article/details/124383075

以将网页截图为png为例:

# 以下4个命令可以查看版本信息,就可以用谷歌命令行 google-chrome --version chromedriver --version chromium --version chromium-browser --version # 命令行示例 google-chrome --headless --disable-gpu --screenshot=name.png https://www.baidu.com/ chromedriver --headless --disable-gpu --screenshot=name.png https://www.baidu.com/ chromium --headless --disable-gpu --screenshot=name.png https://www.baidu.com/ chromium-browser --headless --disable-gpu --screenshot=name.png https://www.baidu.com/ # 加time可以查看命令执行时间,可测试--virtual-time-budget=10000参数 time chromium-browser --headless --disable-gpu --screenshot=name.png --virtual-time-budget=10000 https://www.baidu.com/

常用的命令行参数如下:

--headless #无头浏览 --no-sandbox # 禁用沙盒 --screenshot=name.png # 屏幕截图 --virtual-time-budget=10000 # 延迟加载 --remote-debugging-port=9222 # 指定端口 --hide-scrollbars # 隐藏滑动 --disable-gpu # 禁用gpu加速 四、报错处理 1.chrome和驱动版本对应 2.chromium目前对命令行参数部分不生效,可更换至chromedriver 总结

例如:以上就是今天要讲的内容,本文仅仅简单介绍了Chrome的使用,我就大篇幅介绍里面的使用了。



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3