whatsapp分享群链接 |
您所在的位置:网站首页 › whatsapp分享群链接 › whatsapp分享群链接 |
whatsapp群链接在跨境电商中有非常重要的作用,在对外贸易中经常要用到whatsapp软件的群组功能,下面为大家介绍一下如何抓取whatsapp群链接。 whatsapp分享群链接 相比分享whatsapp群链接,如何获取whatsapp群链接才是根本,通过Google爬虫可以实现抓取。 爬虫的需求是通过运营给定的一系列关键词从Google的搜索结果的网页中爬取WhatsApp的群链接。这就涉及到两个点,第一是对Google搜索结果网页的爬取,第二是对搜索结果网页中的群链接爬取,最后的结果只需得到群连接。 1)定义Item item的作用在我的理解上来说是将爬虫爬取到的数据暂存下来,方便以后使用。 items.py import scrapy class GrouplinkItem(scrapy.Item): link = scrapy.Field() 2)新建grouplinkspider.py文件 在grouplink项目下的spiders文件夹新建grouplinkspider.py,搭建爬虫程序的基础架子。 import scrapy from scrapy.http import Request class GrouplinkspiderSpider(scrapy.Spider): name = 'grouplinkspider' allowed_domains = [] start_urls = [] def parse(self, response): pass 2)分析Google搜索结果页,编写对应爬虫 通过对Google搜素结果页源码的分析,发现我们所需要的网页a标签并没有任何特殊性的标识,所以用最粗暴的办法将所有的a标签都爬下来然后对href字段进行过滤。 def parse(self, response): urls = response.xpath('//a/@href') for url in urls: strurl = url.extract() //筛选除链接中包含http且不包含google字段的链接 if 'http' in strurl and 'google' not in strurl: //使用Request方法执行进一步爬虫 yield Request(strurl,callback=self.getGroup) 数据保存 现在我们需要的群链接已经爬取下来,然后只需要保存就行了,由于业务需求暂时只保存成excel文件,接下来会保存到后台数据库中。 pipelines.py from openpyxl import Workbook class GrouplinkPipeline(object): def __init__(self): self.wb = Workbook() self.ws = self.wb.active self.ws.append(['链接']) def process_item(self, item, spider): data = [item['link']] self.ws.append(data) self.wb.save('grouplink.xlsx') return item setting.py ITEM_PIPELINES = { 'grouplink.pipelines.GrouplinkPipeline': 300, } Tags: whatsappwhatsapp whatsapp分享 转载:感谢您对网站平台的认可,以及对我们原创作品以及文章的青睐,非常欢迎各位朋友分享到个人站长或者朋友圈,但转载请说明文章出处。 上一篇:whatsapp双开ios 下一篇:如何找回whatsapp账号 |
今日新闻 |
推荐新闻 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |