Python学习之路-初识爬虫:基础知识

2021-03-20 2021-03-21 约 1189 字预计阅读 3 分钟次阅读

什么是爬虫

网络爬虫（又被称为网页蜘蛛，网络机器人）就是模拟客户端发送网络请求，接收请求响应，一种按照一定的规则，自动地抓取互联网信息的程序。

原则上,只要是浏览器(客户端)能做的事情，爬虫都能够做

如今，人工智能，大数据离我们越来越近，很多公司在开展相关的业务，但是人工智能和大数据中有一个东西非常重要，那就是数据，但是数据从哪里来呢？这时候爬虫的用途就凸显出来了，他可以做到以下几个方面

不仅仅是以上用途，爬虫用途非常广泛。

一般情况下我们会通过一个起始URL去获取到响应内容，根据响应内容提取我们需要的数据与需要爬取的URL，数据可以入库保存，提取到的URL进行进一步爬取。

搜索引擎爬虫会通过抓取网页将获取到的数据存储，并进行预处理，然后对外提供检索服务，并对抓取到的网页进行排名。

Robots协议：网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取，但它仅仅是道德层面上的约束

浏览器会主动请求js，css等内容，js会修改页面的内容，js也可以重新发送请求，最后浏览器渲染出来的内容在elements中，其中包含css，图片，js，url地址对应的响应等。

但是在爬虫中，爬虫只会请求url地址，对应的拿到url地址对应的响应

浏览器渲染出来的页面和爬虫请求的页面并不一样

所以在爬虫中，需要以url地址对应的响应为准来进行数据的提取

url的形式：scheme://host[:port#]/path/…/[?query-string][#anchor]

scheme：协议(例如：http, https, ftp)
host：服务器的IP地址或者域名
port：服务器的端口（如果是走协议默认端口，80 or 443）
path：访问资源的路径
query-string：参数，发送给http服务器的数据
anchor：锚（跳转到网页的指定锚点位置）
- http://localhost:4000/file/part01/1.2.html
- url地址中是否包含锚点对响应没有影响

常见的状态码：