证监会行政处罚决定书爬取,从框架源代码获取url, requests 访问 xpath提取 |
您所在的位置:网站首页 › 代码10053怎么处罚 › 证监会行政处罚决定书爬取,从框架源代码获取url, requests 访问 xpath提取 |
目标 证监会行政处罚决定书为证监会发布的对证券期货市场违法违规主体进行行政处罚的相关文书。可以将这些文书按照所涉及的行为进行分类,如涉嫌财务造假、市场操纵、未尽勤勉职责等,作为相应标签下的黑样本进一步进行其他研究。本文将尝试对这些行政处罚决定书进行爬取以格式化存储。 网页分析 进入证监会网站,信息披露,按体裁文种查看,点击行政处罚决定,可以查看到下述页面,初步分析可用requests直接取得页面源码再进行元素提取,但发现如此得到的源码中仅含左侧的标题栏,不含右侧的具体内容等信息。 爬取思路 通过以上分析得出以下爬虫思路:在每一页通过xpath提取页面的文书名称、发文日期、文号以及文书内容url,然后访问该url得到文书的文本内容;然后更换页面url进行换页操作,更换页面url需要获取页面总页数,但是通过requests得到的首页源码中不含有总页数信息,可能是有些信息隐藏了,所以对首页采用webdrvier访问得到页面html获取包含总页数在内的关键信息。然后更换页面url后直接通过requests进行访问获取页面源码进行信息提取。 进行爬取 实际过程中会发现几个页面提取之后会报connection error的错,这是爬虫被限制了,可以通过变化headers 的形式进行访问,每次随机选择一个headers。 代码 ps:每个文书的文本内容提取还存在不足,包括未清洗干净未提取完全等问题。 |
今日新闻 |
推荐新闻 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |