爬取公众号及知乎专栏文章的标题链接的方法汇总

您所在的位置:网站首页 雅菲墙布是大厂制造吗知乎文章 爬取公众号及知乎专栏文章的标题链接的方法汇总

爬取公众号及知乎专栏文章的标题链接的方法汇总

2024-07-11 22:08| 来源: 网络整理| 查看: 265

记一次最近的工作内容(奇怪的任务增加了)因为Python是去年接触并且没有过爬虫的实际学习操作,所以在出现“要收集文章标题链接”的任务是还是有点难以下手的。虽然有了解过爬虫可以方便操作,但因为经验不足导致花了不少时间进行学习查找。。。最后倒是找到了不用写代码就可以爬取这些信息的方法,并且能将这些信息自动导入excel表格中查看使用。于是这里记录一下方法以及查找思路和过程。

不需要代码,使用工具辅助的办法(0基础)

公众号文章信息的爬取方法:

使用工具"小V公众号文章下载器"

下载地址:www.xiaokuake.com

爬取中的工具爬取的结果

使用教程:网址介绍中有,按顺序做下来即可

优点:可以快速爬取需要的信息,不仅局限于标题链接,还包括文章本身以及数据分析等

缺点:要付费,试用版只能用爬一个账号并且不能怕文章本身,不过付费可以按天数购买,比其他一些买软件本身的便宜,做短期内需求的爬虫来说不错。不过只能爬取公众号的文章,加上爬取过多的话账号24小时内无法在pc端看历史记录(大约在日爬取3k文章左右后会发生这种情况,此时需要用另外的账号继续)

使用工具批量微信公众号下载小工具

下载地址:https://i.ijrou.com/p/story/WeChatDownload.html

使用教程:下载下来会有相关教程视频

优点:免费,可以下载文章为转word,pdf等,用法也简单

缺点:大概就是没有我需要的要求(指下载文章的地址以及标题并转为excel表格)吧。。。。

知乎文章信息的爬取方法:

浏览器插件web scraper

谷歌应用商店可以下载正在爬取资料,使用快捷键F12打开爬取结果

使用教程:

优点:简单易操作,免费,而且操作起来更快

缺点:爬取的资料没有那么全面

需要用代码的办法汇总(需要有python基础)

微信公众号文章:通过抓包或者自己注册一个公众号进行操作,网上的方法大同小异,这里不多赘述。附一个找到的比较完整的网址,有一定的python基础的朋友可以去试试看。

链接:https://github.com/wnma3mz/wechat_articles_spider

这里有完整的工程文件,不过没有基础的话不好理解(我基础忘了所以弄了好久还是有点问题,才会去换思路找工具的囧)

知乎文章:网上这个倒是只看到一个方法,是风变编程的一个案例,网上也有很多这个方法的总结。做法相对上面的会简单一点(但仍没有插件来的快)

链接:https://www.cnblogs.com/www1707/p/10720645.html

方法与微信公众号文章的获取方法类似,即使稍微简单点,但仍然需要一定的基础。

找这些内容时的一点心得

虽然找出来归纳后就这么多,但是当时找的时候挺麻烦的。因为只是对爬虫有点了解,加上当时只学了点皮毛,要立刻实操赶鸭子上架有点困难。一开始查找的思路是用“python爬取公众号文章链接”这个条件进行查找,但是找出来的方法我不一定能用,而且经常出bug(菜鸡的痛),之后还拜托大鸽看看怎么写,不过还是有点问题没法处理,同时对于导出成excel表没什么头绪。

后面换了种思路,网上找的时候发现不只是我有这种需求,有不少人也需要而且不一定会用python,就想着“既然网上有这种需求,说不定有相应的工具”。然后就倒真找到了一些,但是这些工具下载器五花八门的,还很贵(单买软件或者单次服务就很贵)。然后比较了几个工具后最后选择了现在分享的工具,要氪金但花的金钱比我花时间找和学习的时间比起来实惠了不少。即使是这样,我还是花了两天才导出完所有内容(如果自己做不知道要做到什么时候)

归纳在一起有五千多条

完成后也反省了下:

我一开始的思路就是有点问题的:在短时间内速成上手还是有点困难,应该换个思路找找有没有相应的工具,因为既然有这种需求那就应该有对应的市场,如果早点意识到就不会花那么多时间做无用功了。

学Python真的很重要,以后自己找资料也不会那么麻烦,更不会像几天前那样像无头苍蝇到处撞。(要学的东西增加了)

不过可喜可贺最后任务还是完成了,也学到了一些奇怪的东西(雾)

最近还要忙些事,忙完再整理下之前学的表达式知识出点内容。



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3