莘羽科技资讯网
首页 > 科技 > 20行Python程式码爬取网站美女图 哇太多了 我U盘装满了

20行Python程式码爬取网站美女图 哇太多了 我U盘装满了

20行Python程式码爬取网站美女图 哇太多了 我U盘装满了

淘女郎爬虫,可动态抓取淘女郎的资讯和照片。

需要额外安装的第三方库

requestspip install requestspymongopip install pymongo

模组功能

TaoLady.py:负责传送POST请求和抓取个人资讯和图片地址并储存到MongoDB中。Download_Pic.py:负责从MongoDB中抽取出淘女郎照片的网址,并下载。想要全部完整源代码,以及python爬虫资料的,关注,转发,后台私信小编“01”获取哦

原理

淘女郎的网站使用了AJAX技术。通过在后台与服务器进行少量资料交换,AJAX 可以使网页实现异步更新。这意味着可以在不重新载入整个网页的情况下,对网页的某部分进行更新。这意味着通过直接抓取网页源代码然后分析出资讯的方式是行不通的,因为网站是动态载入的,直接抓取的方式只能抓到网页原始的源代码,并不能抓到动态加载出的淘女郎的资讯。

对于这一类网站,一般有两种抓取办法:

利用selenium库来模拟浏览器的使用者行为,让服务器以为是真正的使用者在浏览网页,从而获得完整的网页源代码利用Chrome等浏览器自带的分析工具,对网页的Network进行监控,分析出资料交换的API,从而利用API抓取到资料交换的JSON资料,从而进行抓取。一般来讲,第一种方法速度较慢,并且执行时占用较多的系统资源,所以,条件允许的情况下,尽量使用第二种方法。

在Chrome浏览器中开启淘女郎:https://mm.taobao.com/search_tstar_model.htm? 按F12切换到开发者模式,在Network一栏选择XHR可以看到目前没有网络活动,但是,在网页中按下一页的时候,会出现一个POST活动,当再次按下下一页的时候,会再次出现一次该活动,所以,可以断定,资料交换使用的就是这个API。

然后我们再来对比这两次请求,在Headers框的FromData栏中,可以看到两次请求的差别在currentPage的不同,一个是2,一个是3,这说明,要想得到第几页的资料,这个currentPage的值就是多少。所以我们就根据这个,来编写请求,从而得到全部淘女郎资讯的JSON档案。

传送请求,得到JSON资料,将其加工并转化为Python的字典型别返回

连线到MongoDB, 将资讯储存

抽取出照片的网址,下载,储存在pic资料夹中

爬完了,成果斐然啊

最后想要全部完整源代码,以及python爬虫资料的,关注,转发,后台私信小编“01”获取哦

标签:

上一篇 目录 下一章

猜你喜欢

儿童科技手工又简单又好做 拼板胶浮头式换...
在工业领域,换热器(heat exchanger)扮演着不可或缺的角色,它们将热流体的一部分热量传递给冷流体,这一过程中,一个不起眼但却至关重要的配角——...
科技巨头小说 使用电子取景器...
在摄影领域,随着科技的不断进步,各种新型设备层出不穷。电子取景器作为一种创新技术,它通过高分辨率的电子显示屏来帮助摄影师更直观、更精确地控制拍摄过程。然而...
未来 光影舞动掌握基...
理解光与影的重要性 在摄影艺术中,光线是创作中的关键因素。它不仅决定了画面的整体氛围,也直接影响着照片的色彩和对比度。学会如何利用自然或人造光源,可以让你...
四川工业科技学院 星辰之光YJD...
一. 工作原理 星型卸料器,又称旋转给料器、关风器,是由带有数个叶片的转子在圆筒形机壳内旋转。从上部料斗落入的物料,充塞在叶片间的空格内,随叶片的旋转而卸...

强力推荐