Web缓存大作战:常见问题解答

WindySky 2018-02-25

展开全文

什么是Web缓存，为什么要使用它？
缓存的类型：
1. 浏览器缓存；
2. 代理服务器缓存；
3. 网关缓存；
Web缓存无害吗？为什么要鼓励缓存？
Web缓存如何工作
如何控制缓存和不缓存：
1. HTML Meta标签 vs. HTTP头信息；
2. Pragma HTTP头信息（以及为什么不起作用）；
3. 使用Expires HTTP头信息控制不过期；
4. Cache-Control（缓存控制）HTTP头信息；
5. 验证器和验证；
创建支持缓存网站的小技巧；
编写支持缓存的脚本；
常见问题解答；
实现需注意的：Web服务器端；
实现需注意的：服务端脚本；
参考文档和拓展阅读；
关于本文档；

常见问题解答

缓存可用的最重要事情是？
其中一个不错的策略是找出常用的、规模较大的内容（尤其图片），然后优先处理之。

我该如何利用缓存让我的页面尽可能的快？
最应该缓存的内容设置一个较长的过期时间。验证有助于减少查看内容的时间，不过缓存仍会连接源服务器查看是不是过期了。如果缓存已经知道内容是新鲜的，直接返回。

我知道缓存是个好东西，但是我想随时知道多少人访问了我的网页！
如果你必须知道每一次页面被访问的情况，可以选择页面上的一个小元素(或页面本身)，然后给这个元素一个适当的头信息使它是不可缓存。比如，你可以在每一个页面上引用一个1像素×1像素的不可缓存（如scr地址后面加个随机数^Add）的透明图片。Referer头信息将会包含调用它的页面信息。

请注意，即使这样也不能给出你用户的精确统计，并且对通过互联网访问的用户也不是很友好：产生不必要的流量，并强迫用户等待未被缓存的内容从网络上下载回来。更多的信息可参见拓展阅读中的“解读访问统计”对应内容。

我该如何查看HTTP头？
许多浏览器可以查看Expires和Last-Modified头信息，如右键→查看页面信息或类似面板。例如，在Firefox浏览器下^Add：

表示要看到完整的头，您可以使用Telnet⑪客户端手动连接到Web服务器上。

为此，你可能需要用一个字段指定端口（默认是80），或者连接到www.:80或者www. 80(注意是空格)，更多设置请参考一下telnet客户端的文档。

一旦连接到该网站，输入请求。比如，你想查看http://www./foo.html的头信息，首先连接到www., 使用80端口，并输入：

GET /foo.html HTTP/1.1 [return]Host: www. [return][return]

[return]等同敲回车键，最后输入两次确认。这样就会输出头信息，然后跟着实际内容。如果只想看到头信息，使用HEAD来替换GET.

⑪Telnet：Telnet协议是TCP/IP协议族中的一员，是Internet远程登陆服务的标准协议和主要方式。它为用户提供了在本地计算机上完成远程主机工作的能力。在终端使用者的电脑上使用telnet程序，用它连接到服务器。终端使用者可以在telnet程序中输入命令，这些命令会在服务器上运行，就像直接在服务器的控制台上输入一样。可以在本地就能控制服务器。要开始一个telnet会话，必须输入用户名和密码来登录服务器。Telnet是常用的远程控制Web服务器的方法。

我的页面是密码保护的，代理缓存是怎么处理的？
默认情况下，HTTP验证保护的页面是私有的，共享缓存是不能保存的。然而，你可以通过Cache-Control: public头的设置使其公有。HTTP 1.1标准兼容的缓存服务器可以使之缓存。

如果你希望这些缓存的页面在用户查看之前还要验证一下，可以组合使用Cache-Control: public和no-cache头，这相对于告诉缓存器它从缓存中送出内容前必须递交客户端的验证给原始服务器。这个头信息如下所示：

Cache-Control: public, no-cache

不管怎么，这是最小化验证最好的方法；例如，你的图片不敏感，你可以把它放在分离的目录中，并配置你的服务对它们不做强制验证。这样，那些图片就会很自然的被缓存了。

如果人们通过缓存访问我的网站，我应该担心安全吗？
SSL页面不会被代理服务器缓存，所以这个你不需要担心。但是，代理服务器就好非SSL页面请求以及URL抓取这口，你懂的，这是不安全的。无良的管理员可能就会收集网站用户的信息，尤其在URL中。

事实上，任何网络管理员都可以收集你的客户端和服务器端之间的这类信息。CGI ⑫脚本有个漏洞，会把用户名和密码放在自身的URL地址中，这很容易让其他人发现用户的登陆信息。

如果你懂得互联网安全的些基本机制，就不会对代理缓存感到任何惊讶。

⑫CGI：通用网关接口(Common Gateway Interface). 用于初始化软件服务的服务器方接口。这套接口描述了Web服务器与同一计算机上的软件的通信方式。

通用网关接口，它是一段程序，运行在服务器上，提供同客户端HTML页面的接口，通俗的讲CGI就像是一座桥，把网页和WEB服务器中的执行程序连接起来，它把HTML接收的指令传递给服务器，再把服务器执行的结果返还给HTML页；用CGI可以实现处理表格，数据库查询，发送电子邮件等许多操作，最常见的CGI程序就是计数器。CGI使网页变得不是静态的，而是交互式的。

我在寻找一个集成的Web发布解决方案。哪些是可缓存的？
这个是不确定的。一般来说，越复杂的系统越难缓存。最差的情况就是所有的内容都是动态生成，并且不提供校验器，与缓存压根无缘。你可以和你供应商的技术人员沟通获取更多信息，并参考下面实现注意事项。

我的图片缓存一个月后才到期，我现在就想变动！
Expires头是绕不过去的，除非缓存（浏览器或者代理）空间不足才会删除副本，缓存副本会一直使用。

最有效的方法是修改链接，这样会从源服务器获取完整的新内容。请记住，调用图片的这个页面也会被缓存的，正因如此，我们需要让图片以及其他类似的静态资源易缓存，而页面呢可以随着自身的改变（例如改变了一个图片的URL地址^Add）即时更新。

如果你想摆脱特定缓存，重载内容，可以试试强制刷新（在FireFox中，shift键+reload按钮等同于处理Pragma: no-cache请求头）或者让缓存管理员使用某些接口删除内容。

我运行一个Web Hosting服务。我怎样才能让我的用户发布缓存友好的网页？
如果你使用apahe，可以考虑允许他们使用.htaccess文件并提供相应的文档。

否则你需要在每一个虚拟主机上为各种缓存属性建立预定的区域。比如：你可以指定一个叫/cache-1m的目录用来放读取后要缓存一个月的内容，然后再建一个/no-cache的目录，并在头信息中指定这么目录中的内容不被缓存。

不管上面你做的如何，总之最好优先给用户量大的客户做缓存处理。大部分服务器节约的流量以及负载都是来自高容量的网站。

我明明告诉网页要好好缓存，但它老是去请求，怎么破？
缓存服务器并不总是要求内容要保持并重用，某些条件下，他们是不保存不重用的，所有的缓存服务器都回基于文件的大小、类型（图片、页面…），或者服务器空间的剩余来确定如何缓存。如果你的文件比较大或很热门，可能就不会被缓存。有些缓存服务器允许管理员决定哪些内容要存储，有些缓存服务器允许内容长存缓存中，所以，它们总是可用的。

（未完待续）