使用Python爬虫抓取图片和文字实验微认证知识点回顾

您所在的位置:网站首页 python爬虫下载图片 使用Python爬虫抓取图片和文字实验微认证知识点回顾

使用Python爬虫抓取图片和文字实验微认证知识点回顾

#使用Python爬虫抓取图片和文字实验微认证知识点回顾| 来源: 网络整理| 查看: 265

网络爬虫是如何工作的

image.png

网络爬虫能做什么 搜索引擎:谷歌 百度 信息收集:新闻资源聚合 数据分析:商品价格比较、股票量化交易 图片抓取:抓取特定类型的图片,可用于个人收藏、AI图像分析 为什么使用python编写爬虫 Python编程语言语法简洁,易于学习,快速上手; Python有成熟的爬虫生态,在抓取网页本身和网页抓取后的处理都有丰富的框架和库可用(如 Beautiful Soup框架、 Urlib2Requests2和库等),编写爬虫不必从零开始; Python在处理数据方面有天然的优势,可以把 Python爬虫与后续的机器学习、数据可视化无缝对接。 什么是python

Python是一种面向对象的解释型计算机程序设计语言。

免费、开源; 多种平台、可扩展、不区分操作系统; 语法简洁清晰、容易上手; 语法表达优美易读、利用缩进表示语句块的开始和退出; 支持模块和包、有极为丰富、功能强大的库; 在人工智能、科学计算、图形技术、动画、游戏等行业被广泛使用。 什么是HTML HTML(HyperText Markup Language)是一种用于创建网页的超文本标记语言; HTML可以构建WEB站点,HTML运行在浏览器上,由浏览器来解析

image.png

抓取图片和文字需要用到的一些标签

image.png

HTTP协议

HTTP (HyperText transfer protocol )超文本传输协议)是一个基于请求与响应模式的应用层的协议,通常是基于TCP的连接方式;

简单快速:客户请求时只需传送请求方法和路径,程序规模小,因而通信速度很快; 灵活:HTTP允许传输任意类型的数据对象; 无连接:服务端每次只处理一个请求,完成即断开,节省传输时间; HTTP请求

image.png

HTTP响应

image.png

爬虫抓取图片方案对比

image.png

弹性云服务器ECS

弹性云服务器(Elastic Cloud Server)是一种可随时自助获取、可弹性伸缩的云服务器,帮助用户打造可靠、安全、灵活、高效的应用环境。 ECS的主要特性如下:

数据可靠:可弹性扩展的虚拟块存储服务,高数据可靠性,高吞吐能力; 弹性易用:提供控制台、远程终端和A等多种管理方式,给您完全管理权限; 规格丰富:多类型、多规格、多镜像; 多维监控:提供开放性的云监控服务平台提供资源的实时监控、告警、通知等服务。 关系型数据库RDS

image.png

对象存储服务OBS

image.png

使用OBS存储爬取内容的优势

image.png

实验过程中用到的主要命令 SQL建表命令

image.png

新建项目文件夹 cd Desktop scrapy startproject vmall_spider cd vmall_spider scrapy genspider -t crawl vmall “vmall.com” 下载python安装包

wget https://sandbox-experiment-resource-north-4.obs.cn-north-4.myhuaweicloud.com/python-spider-rds/Python-3.5.5.tgz

解压python安装包

tar -zxvf Python-3.5.5.tgz && cd Python-3.5.5/

安装python

make && make install

升级pip

pip3 install -i https://pypi.tuna.tsinghua.edu.cn/simple --upgrade pip

退出登录状态

exit

加权限

chmod 777

查看AK和SK内容命令

vi credentials.csv



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3