python

您所在的位置：网站首页 › npk提取img › python

python

2023-03-31 23:37| 来源: 网络整理| 查看: 265

#Python爬取图片目标链接：https://pic.netbian.com/4kfengjing/

思路：先通过首页的源码分析提取到子页面的链接，然后通过子页面的链接的源码来提取到图片的下载链接，我们再访问那个下载链接将他转为字节写入文件就可以生成图片

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-qe3SkIoI-1661065552824)(E:\桌面\爬虫\图片-15-1024x508.png)]

查看网页源码找到我们想要的地方

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-1R2br3Di-1661065552824)(E:\桌面\爬虫\图片-16-1024x212.png)]

通过源码可以看出每一个.HTML的地方就是一个图片的链接

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-uIAPQPOX-1661065552825)(E:\桌面\爬虫\图片-17-1024x523.png)]

这里我们就可以拼接链接了

url="https://pic.netbian.com/"#这个是大的链接 uul="/tupian/21953.html" new=url+uul..strip("/")#去除多余的一个反斜杠就可以拼接成新的一个链接了 new="https://pic.netbian.com/tupian/21953.html"

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-HwDTzDLu-1661065552825)(E:\桌面\爬虫\图片-18-1024x111.png)]

这里面可以找到图片的下载链接

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-aZI63hdp-1661065552826)(E:\桌面\爬虫\图片-19-1024x333.png)]

然后定位精准一点就可以找到图片下载位置了，这里我们需要提取的是第一个因为第二个链接图片有点不对劲我也不知道哪里不对劲第二张图链接要小一点

我们可以用正则表达式来匹配提取出链接然后因为这个不全我们再和主页面的url进行拼接就可以得到下载链接

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-NGTWZDo0-1661065552826)(E:\桌面\爬虫\图片-20-1024x519.png)]

这里可以拿到网页源码

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-d3027vmo-1661065552827)(E:\桌面\爬虫\图片-21-1024x299.png)]

找到各个子页面的链接

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-tNAMMVDS-1661065552829)(E:\桌面\爬虫\图片-22-1024x80.png)]

定位到位置就可以进行筛选

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-106NHlhl-1661065552830)(E:\桌面\爬虫\图片-23-1024x373.png)]

这就是筛选出来的

tup = BeautifulSoup(req.text, "html.parser")#声明是html lianjie = tup.find("ul", class_="clearfix")#把范围缩小find是找一个class_是因为里面本来就有那个啥子保留字加个下划线就可以避免这个问题

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ZsXpB1in-1661065552831)(E:\桌面\爬虫\图片-24-1024x194.png)]

我们再从我们已经提取到的页面中进行再次细分，看源码就可以知道

【本文地址】

python

python

今日新闻

推荐新闻