[教程][授人予渔]Python太复杂?试试易语言吧,纯新手教程教你爬图。。。

您所在的位置:网站首页 易语言怎么post [教程][授人予渔]Python太复杂?试试易语言吧,纯新手教程教你爬图。。。

[教程][授人予渔]Python太复杂?试试易语言吧,纯新手教程教你爬图。。。

2023-10-10 14:49| 来源: 网络整理| 查看: 265

首先,这是面对不懂编程的人的简易编程教程,主要是让更多人学会爬图之类的操作,请不要讨论不和谐内容

网络爬虫这玩意很常见,也很方便,能极大提高资源获取的便利性。很多时候,网络上一些图片帖子都会让人想要全部保存,尤其是各种写真啊、美女啊什么的,大家都能理解。可是一张张存效率太低,全部保存又会多出很多其他乱七八糟的小图片。这种时候,如果会编程,手写一个针对性的爬虫,就能解决问题了。

那么要说现在新手学编程,肯定会一致推荐Python。 不!PHP才是世界上。。。 但是,对于很多人,Python也还是太复杂,英文这一项就能劝退很多人,那一行行的代码让许多人根本无法提起兴趣。

所以这总时候我总会推荐易语言,全中文和图形化的界面,加上各种现成的库和模块,只要会画PPT,基本上就能自己编写简单的程序。当然基于VB的易语言到底算不算编程语言一直有争论,正规程序猿对这玩意通常嗤之以鼻。但对于普通人来说,只要能完成目标就可以了,毕竟并不打算把这当工作嘛。

关于易语言的下载和安装,百度就可以了,这个不存在难度。新手教程,B站上也有完整的课程,但我想大多人不会有耐心去听。当然如果能看完前几节课程最好,因为无论什么语言的课程,前几节的内容基本都是让你建立编程的逻辑概念。所以直接开始吧。

在这个例子里,在下载易语言之后,你还需要去下载一个“精易模块”,这是一个包含了众多常用子程序的模块包,你可以理解为CCQ的插件,通过插件你可以轻松实现很多的功能。类似的模块有很多,这里使用精易模块。

首先启动易语言,直接新建一个“WINDOWS窗口程序”。就会出现下面这样一个界面。有一个空白的画板一样的东西,而右侧有许多的按钮,跟绝大多数工具软件差不多。这就是你的程序主界面了,你往上添加你想要的组件即可。这些界面组件的大小和位置都是随意调节的,真的跟PPT差不多。在这里,我只添加了3样。一个编辑框用来输入目标网址,一个按钮用来启动程序,一个标签栏用来显示程序运行状态。双击左边的模块引用表,把你下载的模块导入就可以了。

然后,双击你刚才画上去的按钮,就会进入代码编写界面了。他会自动创建一个“_按钮1_被单击”的子程序,意思就是,当你单击这个按钮后,会进行的操作。代码如下。全中文,是不是看起来很舒服。在这里可以看到第一个变量出现了,程序句柄1,这个名字你可以随便定,类型为整数型,把他放在顶端的程序集变量下面。这样你就可以在这一整个程序集里面引用他。相应的还有全局变量和局部变量。在这个例子里,除了这里,其他地方都是用局部变量,变量名放在子程序的下面,表示只能在这个子程序下引用。这个变量的作用是,指向一个子程序,用来方便你随时结束那个子程序。在这里介绍一下,“判断”这两个字。对于所有编程来说,核心都是“如果。。。 则。。。” 这个概念。易语言里用来做条件表达的通常使用  如果,如果真,判断 这三个。在易语言里,“判断”的意思是,判断后面括号内的条件是否成立,如果成立,则执行下一行内容,否则跳到箭头指的地方去。易语言的这个箭头,可以很明确的告诉你程序会往哪里执行,这个直观的箭头非常方便。在这里,判断的条件很简单,就是那个按钮上面的字是不是等于“开始”,在代码就用等号表达。

上面是点击按钮的操作,点了之后就会启动一个名为“线程1”的线程,这个名字也是你自己取的。只要点一下上方的“插入”,然后选择子程序,就可以新建一个空白的子程序代码编写区域了。这个“线程1”里面的内容,就是我们真正要进行的爬图操作。

在这里,首先明确,我们要爬取什么样的图片。这里以总舵的帖子为例。首先随便查看一个帖子的源代码。找到我们要爬取的图片在哪里。因为每个帖子的格式都是固定的,通过一个帖子就可以确定格式了。找到代表图片的代码很简单。那么,我们的第一步的目标就是,把这些图片地址全部提取出来。通常来说,正规的程序员,会使用正则表达式。但是正则这个东西嘛,真的又会劝退一批人。*!?%#......所以这里用模块提供的功能,提取两个标识符中间的文字来实现。首先网页源码如下。

注意看图中画圈的两个位置,这就是我确定下来的两个标记。第一个圈的代码在整个源码中是第一次出现在这里,并且距离图片代码不远。第二个圈则是图片源码区域后第一次出现的,没有出现在图片区域内的代码。现在我们在易语言里建立两个文本常量。在常量界面,右键单击,选择新建文本常量就可以了。这样你在代码中就可以通过引用这个常量,来引用里面的文字。由于一个网页源码里,因为重复的代码非常多,所以用来做标记的代码,要么具有唯一性,要么第一次出现,否则可能会导致你提取到错误的内容。

设定好常量后,就可以开始获取图片了。我在每一行代码后做了详细的解释。这里说一下易语言里常用变量的类型。整数型,只能是整数的数字,可以直接用来做加减乘除,如果要显示在界面上,那必须先转换为文本型。文本型,可以在易语言的代码里直接使用,只要加上双引号,就表示双引号内的内容是一行文字。几个文本型的变量,用加号连在一起。字节集,理解为二进制代码吧,直接修改字节集是比较高深的内容,大多时候转换为其他类型进行操作。数组,任何类型的变量都可以成为一个数组,一般使用一维数组,理解为一个有很多行内容的文本,每一行就是数组里的一串数据。在变量名称里,把数组那一列,写上一个0,这个变量就成为一个数组了。因为图片有很多,必须放到数组里,依次取出。

其实代码很简单是不是,一共也没有几行,而且是可以继续精简的,这里因为要详细解释,就没有精简。

整个流程就是。1、获取帖子的源代码。2、精简源代码,提取图片所在的一小块代码。3、提取图片地址4、把图片全部下载下来。

运行一下看看。

然后进入D盘,找到它建立的那个随机文件夹,图片就全部在里面了。。在这里可以更换为旗帜里任意一个帖子的地址。而文件夹的命名,可以使用文本取中间的办法,取出帖子标题来命名,会更加方便识别。

大MM.JPG 不和谐

所以这就是一个简单的图片爬虫,它适用于不同的场景。核心就是从网页源码里找出图片地址。换一个网站,只要更换要提取的标识符就可以。当然找出图片地址后的下载,还有更加科学的方式。但这里只是初级教程,不考虑易读性,不考虑效率,不考虑稳定性。只要能用就可以。易语言的优势就是这种轻量级的,不用考虑效率和稳定性的程序,很轻松就能写出一个图形化界面。只要你会做PPT,就应该可以做的出一个这样的爬虫。如果这个帖子正常存活的话,我再继续更新获取列表,预览,批量下载等操作吧。

http://nga.178.com/read.php?tid=17080239&_ff=-7



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3