20行Python程式码爬取网站美女图哇太多了我U盘装满了

淘女郎爬虫，可动态抓取淘女郎的资讯和照片。

需要额外安装的第三方库

requestspip install requestspymongopip install pymongo

模组功能

TaoLady.py：负责传送POST请求和抓取个人资讯和图片地址并储存到MongoDB中。Download_Pic.py：负责从MongoDB中抽取出淘女郎照片的网址，并下载。想要全部完整源代码，以及python爬虫资料的，关注，转发，后台私信小编“01”获取哦

原理

淘女郎的网站使用了AJAX技术。通过在后台与服务器进行少量资料交换，AJAX 可以使网页实现异步更新。这意味着可以在不重新载入整个网页的情况下，对网页的某部分进行更新。这意味着通过直接抓取网页源代码然后分析出资讯的方式是行不通的，因为网站是动态载入的，直接抓取的方式只能抓到网页原始的源代码，并不能抓到动态加载出的淘女郎的资讯。

对于这一类网站，一般有两种抓取办法：

利用selenium库来模拟浏览器的使用者行为，让服务器以为是真正的使用者在浏览网页，从而获得完整的网页源代码利用Chrome等浏览器自带的分析工具，对网页的Network进行监控，分析出资料交换的API，从而利用API抓取到资料交换的JSON资料，从而进行抓取。一般来讲，第一种方法速度较慢，并且执行时占用较多的系统资源，所以，条件允许的情况下，尽量使用第二种方法。

在Chrome浏览器中开启淘女郎：https://mm.taobao.com/search_tstar_model.htm? 按F12切换到开发者模式，在Network一栏选择XHR可以看到目前没有网络活动，但是，在网页中按下一页的时候，会出现一个POST活动，当再次按下下一页的时候，会再次出现一次该活动，所以，可以断定，资料交换使用的就是这个API。

然后我们再来对比这两次请求，在Headers框的FromData栏中，可以看到两次请求的差别在currentPage的不同，一个是2，一个是3，这说明，要想得到第几页的资料，这个currentPage的值就是多少。所以我们就根据这个，来编写请求，从而得到全部淘女郎资讯的JSON档案。