ZK 重复重复再重复

爬虫简单学习

2019-01-17
朱锟

1.原理

如果我们把互联网比作一张大的蜘蛛网,数据便是存放于蜘蛛网的各个节点,而爬虫就是一只小蜘蛛,

沿着网络抓取自己的猎物(数据)爬虫指的是:向网站发起请求,获取资源后分析并提取有用数据的程序;

从技术层面来说就是 通过程序模拟浏览器请求站点的行为,把站点返回的HTML代码/JSON数据/二进制数据(图片、视频) 爬到本地,进而提取自己需要的数据,存放起来使用;

流程

用户获取网络数据的方式:

方式1:浏览器提交请求—>下载网页代码—>解析成页面

方式2:模拟浏览器发送请求(获取网页代码)->提取有用的数据->存放于数据库或文件中

1、发起请求

2、获取响应内容

3、解析内容

4、保存数据

工具:

语言:python3.6

工具:pycharm

存储:mysql,mongodb

urllib, 用途:获取

requests, 用途:获取

re, 用途:正则表达式

beautifulsoup, 用途:解析

pyquery, 用途:解析

selenium 用途:驱动浏览器

实战

1.猫眼电影 特色:requests+正则表达式

2.今日头条图片 特色:requests+re+ajax

3.淘宝商品 特色:selenium+requests

4.代理池,cookies池 特色:redis+flask

5.微信文章 特色:代理池+requests

参考博客

原理参考

大神博客


下一篇 重大问题

评论区

Content