HTTP 报文头也叫报文首部。

HTTP 头部字段是构成 HTTP 报文的要素之一。在客户端与服务器之间以 HTTP 协议进行通信的过程中,无论是请求还是响应都会使用头部字段,它能起到传递额外重要信息的作用。

HTTP 首部字段是由首部字段名和字段值构成的,中间用冒号: 分隔,下面是一个 HTTP 报文头的例子:

GET / HTTP/1.1
Host: hackr.jp
User-Agent: Mozilla/5.0 (Windows NT 6.1; WOW64; rv:13.0) Ge 
Accept: text/html,application/xhtml+xml,application/xml;q=0 
Accept-Language: ja,en-us;q=0.7,en;q=0.3
Accept-Encoding: gzip, deflate
Connection: keep-alive
If-Modified-Since: Fri, 31 Aug 2007 02:02:20 GMT 
If-None-Match: "45bae1-16a-46d776ac"
Cache-Control: max-age=0

看不懂这些字段代表什么意思对吧?读完本文就全弄懂了。

通用首部字段

通用首部字段是指:请求报文和响应报文双方都会使用的字段。

Cache-Control

Cache-Control 通过设置不同的指令可以控制缓存的行为,指令格式为:

Cache-Control: no-cache 
Cache-Control: no-store
Cache-Control: max-age=<seconds>

指令参数大概可以分为三类:

  1. 控制可缓存性。
  2. 控制到期时间。
  3. 控制重新验证 & 重新加载。

控制缓存

  1. no-cache 会强制验证数据的有效期,以防止获取到过期资源。
  2. no-store 会禁止缓存服务器缓存数据。(一般意味着数据中含有机密信息
  3. only-if-cached:仅从缓存服务器获取数据,保证请求绝不会达到源服务器,如果缓存服务器没有该资源,则返回状态码 504(GateWay Timeout)。
  4. public:表明响应可以被任何对象(包括:发送请求的客户端,代理服务器,等等)缓存
  5. private:表明响应只能被单个用户缓存,不能作为共享缓存(即代理服务器不能缓存它)。

控制到期时间

  1. max-age:设置缓存存储的最大周期,超过这个时间缓存被认为过期 (单位秒)。客户端只接收缓存时间<max-age 的数据。
  2. s-maxage:覆盖 max-age 或 Expires 字段,但它只适用于共享缓存(例如代理服务器),私有服务器会忽略这个字段。
  3. max-stale:表示客户端愿意接收一个过期的资源,只要资源的过期时间<max-stale的值
  4. min-fresh:表示客户想要的资源至少在指定的秒数内仍然是新鲜的。

HTTP/1.1 版本的缓存服务器遇到同时存在 Expires 首部字段的情况时,会优先处理 max-age 指令,而忽略掉 Expires 首部字段。而 HTTP/1.0 版本的缓存服务器的情况却相反,max-age 指令会被忽略

重新验证和重新加载#

  1. proxy-revalidate 指令要求所有的缓存服务器在接收到客户端带有该指令的请求返回响应之前,必须再次验证缓存的有效性,与 must-revalidate 的功能相同。
  2. no-transform:禁止对资源进行转换。Content-Encoding ,Content-Range ,Content-Type 标头不得被代理修改。例如,一个不透明的代理可能会在图像格式之间进行转换,以节省缓存空间或减少慢速链接上的流量,而这个行为会被 no-transform 禁止。

示例#

  1. 禁止缓存:Cache-Control: no-store

  2. 缓存静态资源,例如图像,CSS 文件和 JavaScript 文件:

    Cache-Control:public, max-age=31536000 
  3. 需要重新验证

指定 no-cache 或 max-age=0, must-revalidate 表示客户端可以缓存资源,每次使用缓存资源前都必须重新验证其有效性。这意味着每次都会发起 HTTP 请求,但当缓存内容仍有效时可以跳过 HTTP 响应体的下载。

Cache-Control: no-cache 0
Cache-Control: max-age=0, must-revalidate 

Connection#

Connection 头(header)决定当前的事务完成后,是否会关闭网络连接。如果该值是 keep-alive,网络连接就是持久的,不会关闭,使得对同一个服务器的请求可以继续在该连接上完成。

从 HTTP/1.1 版本开始,所有连接默认为持久连接。

Date#

表明 HTTP 报文的创建日期和时间。日期时间格式有好几种,这里列出一种常见格式:Mon, 06 Feb 2023 01:19:14 GMT

Pragma#

Pragma 是一个在 HTTP/1.0 中规定的通用首部,在 HTTP/1.1 协议被 Cache-Control 代替。现在它用来向后兼容只支持 HTTP/1.0 协议的缓存服务器。

Trailer#

Trailer 在分块传输编码时会被用到,它用来在消息块后面添加额外的元信息。

举个例子:下面的报文中 Trailer 指定了 Expires 字段,在消息块后面出现了 Expires 字段。

HTTP/1.1 200 OK
Date: Tue, 03 Jul 2012 04:40:56 GMT 
Content-Type: text/html
...
Transfer-Encoding: chunked 
Trailer: Expires
...(报文主体)...

Expires: Tue, 28 Sep 2004 23:59:59 GMT

Transfer-Encoding#

规定传输报文时采用的编码方式,可选的编码方式如下:

  1. chunked

数据以一系列分块的形式进行发送。在每一个分块的开头需要添加当前分块的长度(十六进制),后面紧跟着 ‘\r\n’ ,之后是分块本身,后面也是’\r\n’ 。终止块是一个常规的分块,不同之处在于其长度为 0。

HTTP/1.1 200 OK
Date: Tue, 03 Jul 2012 04:40:56 GMT 
Cache-Control: public, max-age=604800 
Content-Type: text/javascript; charset=utf-8 
Expires: Tue, 10 Jul 2012 04:40:56 GMT 
X-Frame-Options: DENY
X-XSS-Protection: 1; mode=block 
Content-Encoding: gzip
Transfer-Encoding: chunked
Connection: keep-alive

cf0\r\n                                 ←16进制(10进制为3312) 
3312字节数据\r\n
392\r\n                                 ←16进制(10进制为914) 
914字节数据\r\n
0\r\n
\r\n
  1. compress

采用 Lempel-Ziv-Welch (LZW) 压缩算法。这种内容编码方式已经被大部分浏览器弃用。

  1. deflate

采用 zlib 结构,和 deflate 压缩算法。

  1. gzip

表示采用 Lempel-Ziv coding (LZ77) 压缩算法,以及 32 位 CRC 校验的编码方式。这个编码方式最初由 UNIX 平台上的 gzip 程序采用。处于兼容性的考虑,HTTP/1.1 标准提议支持这种编码方式的服务器应该识别作为别名的 x-gzip 指令。

  1. identity

用于表明自身未经过压缩和修改。

Transfer-Encoding 是一个逐跳传输消息首部,即仅应用于两个节点之间的消息传递。如果想要将压缩后的数据应用于整个连接,那么应该使用端到端传输消息首部 Content-Encoding 。

Upgrade#

用于检测是否有可用的、更高版本的 HTTP 协议。

如果使用了 Upgrade 字段,Connection 字段的值会被指定为 Upgrade,比如:
Upgrade:TLS/1.0
Connection:Upgrade

Via

Via 用于追踪客户端和服务器之间报文的传输路径,也可用于防止循环请求。格式:

Via: [ <protocol-name> "/" ] <protocol-version> <host> [ ":" <port> ]
or
Via: [ <protocol-name> "/" ] <protocol-version> <pseudonym>
  1. :所使用的协议名称,如 “HTTP”。
  2. :所使用的协议版本号,例如 “1.1”。
  3. and :公共代理的 URL 及端口号。
  4. :内部代理的名称或别名。

Warning

警告报文出现了问题,格式:Warning: <warn-code> <warn-agent> <warn-text> [<warn-date>]

请求报文字段#

Accept#

用来告知服务器可以处理的内容类型,例如:

Accept: <MIME_type>/<MIME_subtype>
Accept: <MIME_type>/*
Accept: */*
Accept: text/html, application/xhtml+xml, application/xml;q=0.9, */*;q=0.8
  1. /,比如 text/html。
  2. * 代表任意类型,比如 image/* 可以用来指代 image/png、image/svg、image/gif 以及任何其他的图片类型。
  3. q 代表权重。

Accept-Charset#

用于声明客户端可以处理的字符集类型,例如:

Accept-Charset: <charset>
Accept-Charset: utf-8, iso-8859-1;q=0.5, *;q=0.1

Accept-Encoding#

用于声明客户端能够处理的编码方式,例如:

Accept-Encoding: deflate, gzip;q=1.0, *;q=0.5
  1. gzip 表示采用 Lempel-Ziv coding (LZ77) 压缩算法,以及 32 位 CRC 校验的编码方式。
  2. compress 表示采用 Lempel-Ziv-Welch (LZW) 压缩算法。
  3. deflate 表示采用 zlib 结构和 deflate 压缩算法。
  4. br 表示采用 Brotli 算法的编码方式。
  5. identity 表示自身未经过压缩和修改。

Accept-Language#

用于声明客户端可以理解的语言,比如:

Accept-Language: <language>
Accept-Language: fr-CH, fr;q=0.9, en;q=0.8, de;q=0.7, *;q=0.5

Authorization#

用于提供给服务器验证身份的凭据,允许其访问受保护的资源,比如:

Authorization: <auth-scheme> <authorization-parameters>
Authorization: Basic YWxhZGRpbjpvcGVuc2VzYW1l

Basic 身份验证:首先将用户名和密码使用一个冒号拼接(username:password),然后将生成的字符串进行 base64 编码。
除了 Basic 编码方式,还有 Digest、Negotiate 等方式。

Expect

客户端发送带有 Expect 消息头的请求,等服务器回复后再发送消息体,例如:

Expect: 100-continue

服务器检查请求消息头,可能会返回一个状态码为 100 (Continue) 的回复来告知客户端继续发送消息体,也可能会返回一个状态码为 417 (Expectation Failed) 的回复来告知对方要求不能得到满足。

From#

附带一个电子邮箱地址,例如:

From: webmaster@example.org

Host#

指明本次请求的目标服务器主机名和端口号。

  1. 如果没有包含端口号,会自动使用被请求服务的默认端口
  2. 所有 HTTP/1.1 请求报文中必须包含一个 Host 字段。对于缺少 Host 头或者含有多个 Host 头的 HTTP/1.1 请求,可能会收到 400(Bad Request)状态码。

If-Match#

形如 If-xxx 这种样式的请求首部字段,都可称为条件请求。服务器接收到附带条件的请求后,只有判断指定条件为真时,才会执行请求。 例如:

If-Match: "bfc13a64729c4290ef5b2c2730249c88ca92d82d"

服务器会比对 If-Match 的字段值和资源的 ETag 值,仅当两者一致时,才会执行请求。反之,则返回状态码 412 Precondition Failed 的响应。

If-Modified-Since#

If-Modified-Since 用于确认客户端拥有的本地资源的有效性,例如:

If-Modified-Since: Wed, 21 Oct 2015 07:28:00 GMT

服务器在收到带有 If-Modified-Since 字段的请求后,会将该字段值和资源更新时间做比较,若资源没有更新,则返回 304 状态码(Not Modified)。

If-None-Match#

与 If-Match 的作用相反。

If-Range

If-Range HTTP 请求头字段用来使得 Range 头字段在一定条件下起作用:当字段值中的条件得到满足时,Range 头字段才会起作用,例如:

If-Range: Wed, 21 Oct 2015 07:28:00 GMT 

字段值中既可以用 Last-Modified 时间值用作验证,也可以用 ETag 标记作为验证,但不能将两者同时使用。

If-Unmodified-Since#

与 If-Modified-Since 作用相反。

Max-Forwards#

用于限制 TRACE 方法可经过的服务器(通常指代理服务器)数目。

发送包含首部字段 Max- Forwards 的请求时,该字段以十进制整数形式指定可经过的服务器最大数目。每经过一个服务器,Max-Forwards 的值减 1。当服务器接收到 Max-Forwards 值为 0 的请求时,则不再进行转发,而是直接返回响应。

Proxy-Authorization#

用于客户端和代理服务器之间的认证,例如:

Proxy-Authorization: Basic dGlwOjkpNLAGfFY5

Range#

Range 字段用于分批请求资源,下面的示例表示请求获取从第 5001 字节至第 10000 字节的资源。

Range: bytes=5001-10000

接收到附带 Range 首部字段请求的服务器,会在处理请求之后返回状态码为 206 Partial Content 的响应。无法处理该范围请求时,则会返回状态码 200 OK 的响应及全部资源。

Referer#

Referer 请求头包含了当前请求页面的来源页面的地址,即表示当前页面是通过此来源页面里的链接进入的。服务端一般使用 Referer 请求头识别访问来源,可能会以此进行统计分析、日志记录以及缓存优化等。

Referer 请求头可能暴露用户的浏览历史,涉及到用户的隐私问题,所以一般用于 HTTPS 协议。

TE#

表明客户端能够处理的传输编码方式及相对优先级,例如:

TE: gzip, deflate;q=0.5

User-Agent#

User-Agent 首部包含了一个特征字符串,用来让网络协议的对端来识别发起请求的用户代理软件的应用类型、操作系统、软件开发商以及版本号。比如 Google 的 UA 字符串:

Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.103 Safari/537.36

响应报文字段#

Accept-Ranges#

表明服务器是否支持范围请求,可以处理范围请求时指定字段值为 bytes,反之则为 none,指令格式:

Accept-Ranges: bytes

Age#

表明资源在代理服务器缓存了多久,以秒为单位,指令格式:

Age: 24

ETag#

ETag 是资源的唯一标识符,使用 ETag 能快速确定资源是否发生过变化。(可以理解为资源的 “指纹”)

ETag 有强弱之分,资源即使发生了一丁点的变化也会改变强ETag值,对应的,只有资源发生较大变化才会改变弱ETag值,此时会在字段开始处附加 W/

ETag: W/"0815"

Location#

用于将页面重定向至新的地址,一般与 3xx 状态码配合使用,例如:

Location: <url>

Proxy-Authenticate#

Proxy-Authenticate 会把由代理服务器所要求的认证信息发送给客户端,例如:

Proxy-Authenticate: Basic realm="Access to the internal site"

Retry-After#

用于告知客户端应该在多久之后再次发送请求。主要配合状态码 503 Service Unavailable,或 3xx Redirect 响应一起使用,例如:

Retry-After: 120(以秒为单位)

Server#

表明服务器的软件和版本信息,指令格式:

Server: Apache/2.2.6 (Unix) PHP/5.2.5

Vary

决定缓存能否使用,关于缓存,建议用 cache-control 而非 vary。

WWW-Authenticate#

WWW-Authenticate 定义了应该使用何种验证方式去获取对资源的连接,例如服务器利用该字段规定了 Basic 认证 :

WWW-Authenticate: Basic realm="Access to the staging site"

WWW-Authenticate header 通常会和一个 401 Unauthorized 的响应一同被发送。

报文实体字段#

Allow#

用于枚举资源所支持的 HTTP 方法的集合,指令格式:

Allow: GET, HEAD

如果 Allow 字段的值为空,说明资源不接受使用任何 HTTP 方法的请求,这可能是因为服务器需要临时禁止对资源的任何访问。

Cotent-Encoding#

消息文本的编码类型,指令格式:

Content-Encoding: deflate, gzip

指令参数:

  1. gzip 表示采用 Lempel-Ziv coding (LZ77) 压缩算法,以及 32 位 CRC 校验的编码方式。
  2. compress 表示采用 Lempel-Ziv-Welch (LZW) 压缩算法。
  3. deflate 表示采用 zlib 结构和 deflate 压缩算法。
  4. br 表示采用 Brotli 算法的编码方式。

Cotent-Language#

Content-Language 用来说明服务器希望访问者采用的语言或语言组合,例如报文的 Content-Language 字段值为 de,那么说明这份文件是为说德语的人提供的,但是这并不意味着文本是德文,它也可能是英文等其他语言:

Content-Language: de

Content-Length#

用于指明发送给客户端的消息主体的大小,用十进制数字表示,例如:

Content-Length: 15900

Content-Location#

对应资源的 URL。

Content-Range#

用来表示一个数据片段在整个文件中的位置,例如:

Content-Range: bytes 200-1000/67589

Content-Type#

用于告知客户端响应报文内容的内容类型,例如:

Content-Type: text/html; charset=utf-8
Content-Type: multipart/form-data; boundary=something

指令参数:

  1. media-type

资源的 MIME 类型,比如 text/html、multipart/form-data。

  1. charset

字符编码标准。

Expires

用于告知客户端缓存的失效日期,指令格式:

Expires: Wed, 21 Oct 2015 07:28:00 GMT

如果在 Cache-Control 响应头设置了 max-age 或者 s-max-age 指令,那么 Expires 头会被忽略。

Last-Modified#

资源最后一次修改的时间,指令格式:

Last-Modified: Wed, 21 Oct 2015 07:28:00 GMT

Cookie 相关字段#

Set-Cookie#

服务器利用 Set-Cookie 字段来告知客户端 cookie,例如设置一个永久 cookie:

Set-Cookie: id=a3fWa; Expires=Wed, 21 Oct 2015 07:28:00 GMT; Secure; HttpOnly
  1. expires: 表明 Cookie 的有效期。 当省略 expires 属性时,其有效期仅限于当前浏览器会话 (Session) 时间段内。浏览器一旦关闭则 cookie 失效。
  2. path: 指定一个 URL 路径,这个路径必须出现在要请求的资源的路径中才可以发送 Cookie 标头。
  3. domain: 指定 cookie 可以送达的主机名。
  4. secure:表明 cookie 只能在 HTTPS 使用,HTTP 不可以。
  5. HttpOnly:禁止 JS 脚本获得 Cookie。其主要目的为防止跨站脚本攻击 (Cross-site scripting,XSS) 对 Cookie 的信息窃取。

示例#

  1. 会话期 cookie

    Set-Cookie: sessionId=38afes7a8 

    会话期 cookie 将会在客户端关闭时被移除。会话期 cookie 不设置 Expires 或 Max-Age 属性。

  2. 持久化 cookie

    Set-Cookie: id=a3fWa; Expires=Wed, 21 Oct 2015 07:28:00 GMT 
    Set-Cookie: id=a3fWa; Max-Age=2592000

    持久化 cookie 不会在客户端关闭时失效,而是在特定的日期(Expires)或者经过一段特定的时间之后(Max-Age)才会失效。

Cookie#

客户端在向服务器发 HTTP 请求时附带 Cookie 以获得服务器的认证。(Cookie 值来源于上文的 Set-Cookie 字段值)

报文头部字段的转发策略#

一个 HTTP 请求要跨过多个代理服务器,经过多次代理服务器的转发才能到达目标服务器。

代理服务器做转发时,对原 HTTP 报文头部字段有两种处理方式:

  1. 逐跳策略:单次转发有效。
  2. 端到端策略:一直有效,确保字段被发送到目标服务器。

哪些字段是逐条策略?哪些又是端到端策略?

除了下面这些字段为逐跳策略外,其他字段都属于端到端策略:

  1. Connection
  2. Keep-Alive
  3. Proxy-Authenticate
  4. Proxy-Authorization
  5. Trailer
  6. TE
  7. Transfer-Encoding
  8. Upgrade

区分容易混淆的字段#

TE、Accept-Encoding、Transfer-Encoding、Content-Encoding#

  1. Transfer-Encoding:用于指定传输报文主体时使用的编码方式,属于逐跳首部,即只在两个节点间有效。
  2. TE:用于告知服务器客户端能够处理的编码方式和相对优先级,属于逐跳首部,即只在两个节点间有效。
  3. Content-Encoding:用于指定报文主体已经采用的编码方式,属于端到端首部,即在整个传输过程中有效。
  4. Accept-Encoding:用于告知服务器客户端能够处理的编码方式和相对优先级,属于端到端首部,即在整个传输过程中有效。

Loaction 与 Content-Location#

Location 指定的是一个重定向请求的目的地址(或者新创建的文件的 URL)。

Content-Location 指向的是可供访问的资源的直接地址。

Proxy-Authenticate、WWW-Authenticate#

Proxy-Authenticate 规定了客户端与代理服务器的认证方式,而 WWW-Authenticate 规定了客户端与服务器的认证方式。

有关联的字段#

ETag、If-Match、If-None-Match#

Etag 由服务器端生成,客户端通过 If-Match 或者说 If-None-Match 这个条件判断请求来验证资源是否修改。常见的是使用 If-None-Match,比如请求一个文件的流程可能如下:

第一次请求:

  1. 客户端发起 HTTP GET 请求一个文件;
  2. 服务器处理请求,返回文件内容和一堆 Header,当然包括 Etag (例如”2e681a-6-5d044840”)。

第二次请求:

  1. 客户端发起 HTTP GET 请求一个文件,注意这个时候客户端同时发送一个 If-None-Match 头,这个头的内容就是第一次请求时服务器返回的 Etag:2e681a-6-5d044840。
  2. 服务器判断发送过来的 Etag 和计算出来的 Etag 匹配,因此 If-None-Match 为 False,不返回 200,返回 304,客户端继续使用本地缓存;

Cache-Control、max-age、Expires#

当首部字段 Cache-Control 有指定 max-age 指令时,会优先处理 max-age 指令,而忽略 Expires 字段。


参考:

  1. 《图解 HTTP》
  2. developer.mozilla.org/zh-CN/docs/W...
  3. cloud.tencent.com/developer/chapte...
  4. blog.csdn.net/swt369/article/detai...
https://learnku.com/articles/75429