清华大学出版社

您所在的位置:网站首页 爬虫python案例 清华大学出版社

清华大学出版社

2022-03-27 15:25| 来源: 网络整理| 查看: 265

《Python网络爬虫案例实战》介绍如何利用Python开发网络爬虫,实用性较强。《Python网络爬虫案例实战》以案例项目为驱动,由浅入深地讲解爬虫开发中所需要的知识和技能。从静态网站到动态网站,从单机爬虫到分布式爬虫,既包含基础知识点,又讲解了关键问题和重难点问题,包含从入门到进阶的所有知识。《Python网络爬虫案例实战》主要包括爬虫网络概述、Web前端、静态网络抓取、动态网页抓取、解析网页、Python并发、数据库、反爬虫、乱码问题、登录与验证码、采集服务器、基础爬虫、App爬取、分布式爬虫、爬虫的综合实战等内容。 《Python网络爬虫案例实战》适合Python初学者,也适合研究Python的广大科研人员、学者、工程技术人员。

more >

前言 人类社会已经进入大数据时代,大数据深刻改变着人们的工作和生活。随着互联网、移动互联网社交网络等的迅猛发展,各种数量庞大、种类繁多、随时随地产生和更新的大数据,蕴含着前所未有的社会价值和商业价值。对大数据的获取、处理和分析,以及基于大数据的智能应用,已成为提高未来竞争力的关键要素。 但如何获取这些宝贵数据呢?网络爬虫就是一种高效的信息采集技术,利用它可以快速、准确地采集人们想要的各种数据资源。因此,可以说,网络爬虫技术已成为大数据时代IT从业者的必修课程。 在互联网时代,强大的爬虫技术造就了很多伟大的搜索引擎公司,使人类的搜索能力得到了巨大的延展。今天在移动互联网时代,爬虫技术仍然是支撑一些信息融合应用(如“今日头条”)的关键技术。但是,今天爬虫技术面临着更大的挑战,与互联网的共享机制不同,很多资源只有在登录之后才能访问,还采取了各种反爬虫措施,这就让爬虫不那么容易访问这些资源。网络爬虫与反爬虫措施是矛与盾的关系,网络爬虫技术就是在这种针锋相对、见招拆招的不断斗争中,逐渐完善和发展起来的。无论是产品还是研究,都需要大量的优质数据来使机器更加智能。因此,在这个时代,从业者急需一本全面介绍爬虫技术的书,因此本书就诞生了。 本书介绍了基于Python 3进行网络爬取的各项技术,如环境配置、理论基础进阶实战、分布式规模采集等,详细介绍了网络爬虫开发过程中需要了解的知识点,并通过多个案例介绍了不同场景下采用不同爬虫技术实现数据爬取的过程。 1. 本书特色  深入浅出。本书是一本适合初学者的书箱,既有对基础知识点的讲解,也涉及关键问题和重点难点的分析和解决。  图文并茂。本书每章节都是理论与实践相结合,通过文字与图片介绍完相关理论知识点后,都会通过相关实战来演示总结,产生结果,并对结果进行说明。  具有完整的源代码,应用价值高。书中所有的代码都提供了免费资源,使读者学习更方便,而且随着图书内容的推进,项目不断趋近于工程化,具有很高的应用价值和参考性。 2. 本书主要内容 全书共15章。 第1章介绍了爬虫网络的基本概述,主要包括HTTP基本原理、网页基础知识、网络爬虫合法性、网络爬虫技术等内容。 第2章介绍了Python平台及Web前端,主要包括Python软件的介绍及安装、数据类型、面向对象编程及Web前端等内容。 第3章介绍了静态网页抓取,主要包括Requests的安装、获取响应内容、JSON、传递URL参数等内容。 第4章介绍了动态网页抓取,主要包括动态的抓取实例、Ajax抓取、 Selenium抓取动态网页等内容。 第5章介绍了解析网页,主要包括正则表达式解析网页、BeautifulSoup解析网页、 lxml解析网页等内容。 第6章介绍了Python并发与Web,主要包括并发和并行、同步和异步、阻塞与非阻塞、线程、队列、进程、协程等内容。 第7章介绍了Python数据库存储,主要包括几种保存方法、JSON文件存储、存储到MongoDB数据库等内容。 第8章介绍了Python反爬虫,主要包括为什么会被反爬虫、反爬虫的方式有哪些、怎样“反反爬虫”等内容。 第9章介绍了Python中文乱码问题,主要包括什么是字符编码、Python的字符编码、解决中文编码问题等内容。 第10章介绍了Python登录与验证码,主要包括处理登录表单、验证码处理等内容。 第11章介绍了Python采集服务器,主要包括使用服务器采集原因、动态IP拨号服务器、Tor代理服务器等内容。 第12章介绍了Python基础爬虫,主要包括架构及流程、URL管理器、HTML下载器及HTML解析器等内容。 第13章介绍了Python的App爬取,主要包括Charles爬取、Appium爬取、API爬取等内容。 第14章介绍了Python分布式爬虫,主要包括主从模式、爬虫节点Redis、操作RabbitMQ等内容。 第15章介绍了爬虫的综合实战,主要包括Email提醒、爬取mp3资源信息、创建“云起书院”爬虫以及使用代理爬取微信公众号文章等内容。 由于时间仓促,加之作者水平有限,错误和疏漏之处在所难免。在此,诚恳地期望得到各领域的专家和广大读者的批评指正,请发送邮件到[email protected]。本书提供的程序代码、习题答案等资料,请扫描下方二维码或者在清华大学出版社官方网站本书页面下载。 程序代码 习题答案 编者 2020年10月

more > 课件下载 样章下载 暂无网络资源 扫描二维码 下载APP了解更多

版权图片链接



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3