我们已经准备好了,你呢?

2024我们与您携手共赢,为您的企业形象保驾护航!

1.Name:请求的名称,一般使用URL的最后部分作为名称。

2、状态码:200为正常,状态码用于判断发送请求后,是否收到正常响应。

3. Type:请求的文档的类型。这意味着我们请求的是 HTML 文档,内容是一些 HTML 代码。

4.请求源:用来标记哪个对象或者进程发起了请求。

5. Size:从服务器下载的文件和请求的资源的大小。如果资源是从缓存中获取的,则此列将显示:来自缓存

6.时间:从发起请求到获得响应的时间。

7.网络请求的可视化瀑布流。

2.1.5 请求

请求:由客户端向服务器发送,分为四个部分:

1. 请求方式

2. 请求的 URL

3. 请求头

4. 请求正文

1.请求方法:GET和POST

GET:输入URL并按回车,即为GET请求。

POST:多在提交表单时发起,比如输入用户名和密码后,点击登录,就会发起一个POST请求。

GET与POST方法的区别:

GET请求中的参数会包含在URL中,在URL中可以看到数据。

POST 请求的 URL 不会包含该数据,数据以表单形式传输,并包含在请求体中。

GET请求提交的最大字节数为1024字节,而POST则没有限制。

2. 请求的 URL:URL

3.请求头:用于描述服务器要使用的附加信息。

以下是一些常用的头信息:

4.请求正文:

对于 POST 请求,请求体通常为表单数据。对于 GET 请求,请求体为空。

在爬虫中,如果要构造POST请求,那么需要使用正确的-Type,并且了解在设置各个请求库的各个参数时,使用的是哪种-Type,否则可能会导致POST提交后没有响应。

请添加图片描述

2.1.6 响应

(响应):由服务端返回给客户端,可以分为响应状态码、响应头、响应正文三个部分。

1.响应状态码:

表示服务器的响应状态,常见的响应状态码有:

请添加图片描述

请添加图片描述

2. 响应头

响应头中包含了服务器请求的响应信息。

请添加图片描述

3.响应体:响应的主体数据全部在响应体中。

在做爬虫的时候我们主要通过响应体来获取网页源代码,JSON数据等,然后从中提取内容。

2.2 网页基础 2.2.1 网页组件

一个网页可以分为三个部分:HTML,CSS。

1. HTML:

网页包含文本、按钮、图片、视频等各种复杂元素,其基本架构为HTML,不同类型的元素由不同类型的标签表示。

2.CSS:(层叠样式表)

级联:当HTML中引用多个样式文件,样式发生冲突时,浏览器可以按照级联顺序进行处理。

样式:文字大小、颜色、元素间距以及其他格式。

通过引入CSS,页面会更加美观。

3.

HTML与CSS配合使用,只能给用户提供静态的信息,缺乏交互性。比如下载进度条,提示框,轮播图片等等,都是功能,实现了页面与用户之间的实时、动态、交互。页面功能。

2.2.2 网页的结构

网页的标准形式:head和body标签嵌套在html标签中,head定义了网页的配置和引用,body定义了网页的主体内容。

2.2.3 节点树及节点间关系

在HTML中,所有标签定义的内容都是节点,这些节点构成了HTML DOM树。

DOM:文档对象模型。它定义了 HTML 和 XML 文档的标准:DOM 是一个与平台和语言无关的接口,允许程序和脚本动态访问和更新文档的内容、结构和格式。

W3C DOM 标准分为三个不同的部分:

核心 DOM:任何结构化文档的标准模型。

XML DOM:XML 文档的标准模型。

HTML DOM:HTML 文档的标准模型。

HTML DOM 将 HTML 文档视为树结构,称为节点树。

请添加图片描述

通过HTML DOM,可以通过JS访问树中的所有节点,并可以修改,创建和删除所有HTML节点元素。

节点之间的关系可以用树形数据结构来描述:

请添加图片描述

2.2.4 选择器

一个网页是由节点组成的,CSS选择器会根据不同的节点设置不同的样式规则,下面列出了CSS选择器定位节点的语法规则。

CSS 选择器还支持嵌套选择,例如:

# . p

首先选择 id 为 的节点,然后选择 class 为 的节点,然后进一步选择其中的 p 节点。

如果中间没有空格的话,就表示是AND关系。

请添加图片描述

2.3 爬虫的基本原理 2.3.1 爬虫概述:

爬虫是一种获取、提取和存储信息的自动化程序。

1.获取网页(获取网页源代码)

流程:向网站的服务器发送请求,返回的响应体就是网页的源代码。

关键部分是构造一个请求发送到服务器,然后接收响应并解析它。

方法:有很多库可以帮助完成这个过程。例如:,等等。这些库可以帮助我们完成HTTP请求操作。请求和响应都可以用类库提供的数据结构来表示。拿到响应之后,我们只需要解析数据结构的Body部分就可以了。

2.提取信息(分析网页源代码,提取数据)

方法:

1.最常见的是正则表达式(通用),但是复杂,容易出错。

2.使用一些库根据网页节点属性、CSS选择器或者XPath提取网页信息:Soup、、lxml

3.保存数据:

可以简单保存为TXT文本或者JSON文本

也可以保存在数据库、MySQL 和

它也可以存储在远程服务器上,例如使用 SETP。

2.3.2 可以捕获哪些类型的数据

HTML代码、JSON字符串(大部分API接口采用此形式)、各种二进制数据(图片、视频、音频)、各种扩展文件(CSS、JS、配置文件)。

上述内容都对应着各自的URL,这些URL都是基于HTTP或者HTTPS协议的,只要是这种数据,爬虫都可以爬取到。

2.4 () 和 2.4.1 静态和动态网页

静态网页:文本、图片等内容通过HTML代码指定,加载速度快,编写简单,但无法根据URL动态显示内容。

动态网页:可以动态解析URL参数的变化,并与数据库关联并显示不同的页面内容。

动态网页还可以实现用户登录、注册的功能,输入用户名和密码之后,就好比获得了一个凭证,可以让你一直保持登录状态,并且可以访问登录后才能看到的页面,这个凭证就是and的结果。

二维码
扫一扫在手机端查看

本文链接:https://by928.com/6470.html     转载请注明出处和本文链接!请遵守 《网站协议》
我们凭借多年的网站建设经验,坚持以“帮助中小企业实现网络营销化”为宗旨,累计为4000多家客户提供品质建站服务,得到了客户的一致好评。如果您有网站建设、网站改版、域名注册、主机空间、手机网站建设、网站备案等方面的需求,请立即点击咨询我们或拨打咨询热线: 13761152229,我们会详细为你一一解答你心中的疑难。

项目经理在线

我们已经准备好了,你呢?

2020我们与您携手共赢,为您的企业形象保驾护航!

在线客服
联系方式

热线电话

13761152229

上班时间

周一到周五

公司电话

二维码
微信
线