淘女郎爬虫,可动态抓取淘女郎的资讯和照片。
需要额外安装的第三方库
requestspip install requestspymongopip install pymongo模组功能
TaoLady.py:负责传送POST请求和抓取个人资讯和图片地址并储存到MongoDB中。Download_Pic.py:负责从MongoDB中抽取出淘女郎照片的网址,并下载。想要全部完整源代码,以及python爬虫资料的,关注,转发,后台私信小编“01”获取哦原理
淘女郎的网站使用了AJAX技术。通过在后台与服务器进行少量资料交换,AJAX 可以使网页实现异步更新。这意味着可以在不重新载入整个网页的情况下,对网页的某部分进行更新。这意味着通过直接抓取网页源代码然后分析出资讯的方式是行不通的,因为网站是动态载入的,直接抓取的方式只能抓到网页原始的源代码,并不能抓到动态加载出的淘女郎的资讯。对于这一类网站,一般有两种抓取办法:
利用selenium库来模拟浏览器的使用者行为,让服务器以为是真正的使用者在浏览网页,从而获得完整的网页源代码利用Chrome等浏览器自带的分析工具,对网页的Network进行监控,分析出资料交换的API,从而利用API抓取到资料交换的JSON资料,从而进行抓取。一般来讲,第一种方法速度较慢,并且执行时占用较多的系统资源,所以,条件允许的情况下,尽量使用第二种方法。