1.原理
如果我们把互联网比作一张大的蜘蛛网,数据便是存放于蜘蛛网的各个节点,而爬虫就是一只小蜘蛛,
沿着网络抓取自己的猎物(数据)爬虫指的是:向网站发起请求,获取资源后分析并提取有用数据的程序;
从技术层面来说就是 通过程序模拟浏览器请求站点的行为,把站点返回的HTML代码/JSON数据/二进制数据(图片、视频) 爬到本地,进而提取自己需要的数据,存放起来使用;
流程
用户获取网络数据的方式:
方式1:浏览器提交请求—>下载网页代码—>解析成页面
方式2:模拟浏览器发送请求(获取网页代码)->提取有用的数据->存放于数据库或文件中
1、发起请求
2、获取响应内容
3、解析内容
4、保存数据
工具:
语言:python3.6
工具:pycharm
存储:mysql,mongodb
库
urllib, 用途:获取
requests, 用途:获取
re, 用途:正则表达式
beautifulsoup, 用途:解析
pyquery, 用途:解析
selenium 用途:驱动浏览器
实战
1.猫眼电影 特色:requests+正则表达式
2.今日头条图片 特色:requests+re+ajax
3.淘宝商品 特色:selenium+requests
4.代理池,cookies池 特色:redis+flask
5.微信文章 特色:代理池+requests