python项目实践之微信公众号历史文章批量下载

您所在的位置:网站首页 怎么批量下载公众号文章 python项目实践之微信公众号历史文章批量下载

python项目实践之微信公众号历史文章批量下载

2023-09-25 00:05| 来源: 网络整理| 查看: 265

项目:

有的微信公众号文章经常会被删或者和谐,所以想有个工具能一键导出公众号文章,正逢有想学python的想法,找到下面这个python项目: vWeChatCrawl-小V公众号文章下载(开源版) 时间:2019.12.31 https://github.com/LeLe86/vWeChatCrawl

问题列表

**问题一:**跟项目中描述配置一样,用Fiddler没有抓到类似mp.weixin.qq.com/mp/profile_ext?action=getms的请求

在这里插入图片描述 原因:微信电脑端下滑公众号历史文章一直卡在加载,有的公众号可以,有的怎么试都不行,但是如果有加载成功就能抓到getmsg请求。有人说是微信服务端限制请求了,但我也没有频繁访问,为啥要限制我,这个还不清楚。

**问题二:**运行 python start.py,报错(Caused by SSLError(SSLError("bad handshake: Error([(‘SSL routines’, 'tls_pr

原因:SSL 验证默认是开启的,如果证书验证失败,Requests 会抛出 SSLError。 解决:参考 https://2.python-requests.org//zh_CN/latest/user/advanced.html#ssl 在这里插入图片描述 把start.py里的所有requests.get()语句加上verify=False,问题解决。

**问题三:**运行运行 python start.py pdf,没得到pdf

在这里插入图片描述 原因:不是很明确,但是根据解决办法看是因为路径中包含了两种斜杠,主要pdf文件路径

解决:看代码, 在这里插入图片描述 在这里插入图片描述 首先,初始化时文件路径全是/,然后在调用os.path.join时,后面的是\(关于 os.path.join的用法见https://www.cnblogs.com/an-ning0920/p/10037790.html),然后ridx = htmlpath.rindex("/") + 1(上图中是改后)获取的是最后一个/的位置,所以pdf路径中带了\htmlDir字样,所以我把/改成\,从而获取最后一个\位置。改后问题解决,得到pdf

备注:执行python start.py pdf出现的“Qt: Untested Windows version 10.0 detected!”对结果没有影响,觉得别扭可以去wkhtmltopdf官网(https://wkhtmltopdf.org/)下载一个最新的就会解决。

**问题四:**执行得到的pdf只有标题,没有正文,而html打开正常

原因:可能是微信更新了,这里会出这个问题,因为我前一天用了一个吾爱破解cs客户端软件(https://www.52pojie.cn/thread-948652-82-1.html)也是这个问题,按理之前肯定没这个问题。

初步猜测是wkhtmltopdf.exe的bug,但是最新版也同样有问题。 按照https://www.jianshu.com/p/57c897cfaa27尝试无果,自己改css标签也挺盲目的,费时间

还是等待WeChatDownload v3.265-Bate5,批量微信公众号文章下载小工具的作者内测后更新吧。

——2020.1.4继续更新 因为之前跟项目committer创的群里反馈过这个问题,他昨天及时更新了,解决了此问题,给committer点赞! 问题原因是微信公众号文章的html更改了样式,具体是哪些不清楚。看committer的解决方法也是挺简单粗暴的,直接把style给删了。 在这里插入图片描述不过我执行python start.py pdf又报了错: 在这里插入图片描述 查看发现是有的文章被删了,所以获取不到attrs, 在这里插入图片描述于是我修改成如下: 在这里插入图片描述 问题解决!

总结:

1、这个项目说实话,不是很完善,有很多不方便的地方,要手动抓取json请求。正如committer所说,学习意义大于实用意义,可以用这个项目来熟悉python,并做优化来练手。 2、优化方向:自动获取json请求、将生成的pdf合并成一个。

注:多个pdf合并,目前找到体验相对好的网址:https://www.ilovepdf.com/zh-cn/merge_pdf



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3