利用jsoup爬取百度网盘资源分享连接（多线程）

2024-06-26 15:29:30| 来源: 网络整理

突然有一天就想说能不能用某种方法把百度网盘上分享的资源连接抓取下来，于是就动手了。知乎上有人说过最好的方法就是http://pan.baidu.com/wap抓取，一看果然链接后面的uk值是一串数字，就想到能够自己拼装链接，循环不断的去抽取页面。于是自己分析了下页面结构，就開始了从一開始写的时候，发现一秒钟就抽取了一个页面，想到之前用的webmagic爬虫里抓取页面就用了java的多线程技术，于是百度。。。直接上代码。（抓取过程中发现好多无效资源，垃圾资源，广告资源特别多，所以慢慢的累积了非常多垃圾keyword，在抓取过程中过滤）

package getBaiduYunURL;import java.io.BufferedReader;import java.io.File;import java.io.FileReader;import java.io.FileWriter;import java.io.IOException;import java.io.PrintWriter;import org.jsoup.Jsoup;import org.jsoup.nodes.Document;import org.jsoup.nodes.Element;import org.jsoup.select.Elements;class mythread implements Runnable{ long count; public void run() { try{ for(;this.count

【本文地址】转载请注明