爬虫简单学习

1.原理

如果我们把互联网比作一张大的蜘蛛网，数据便是存放于蜘蛛网的各个节点，而爬虫就是一只小蜘蛛，

沿着网络抓取自己的猎物（数据）爬虫指的是：向网站发起请求，获取资源后分析并提取有用数据的程序；

从技术层面来说就是通过程序模拟浏览器请求站点的行为，把站点返回的HTML代码/JSON数据/二进制数据（图片、视频）爬到本地，进而提取自己需要的数据，存放起来使用；

用户获取网络数据的方式：

方式1：浏览器提交请求—>下载网页代码—>解析成页面

方式2：模拟浏览器发送请求(获取网页代码)->提取有用的数据->存放于数据库或文件中

1、发起请求

2、获取响应内容

3、解析内容

4、保存数据

语言：python3.6

工具：pycharm

存储：mysql,mongodb

urllib, 用途：获取

requests, 用途：获取

re, 用途：正则表达式

beautifulsoup, 用途：解析

pyquery, 用途：解析

selenium 用途：驱动浏览器

1.猫眼电影特色：requests+正则表达式

2.今日头条图片特色：requests+re+ajax

3.淘宝商品特色：selenium+requests

4.代理池，cookies池特色：redis+flask

5.微信文章特色：代理池+requests