• 利用proxy_store实现高效的静态文件分布缓存服务器 - Nginx实践
    时间:2009-10-23   作者:佚名   出处:night9.cn

    偶然发现 Nginx 稳定版本更新到了 0.6.31,这个版本修正的第一个 Bug 值得注意: Nginx did not process FastCGI response if header was at the end of FastCGI record

    现在国内 Nginx 的用户越来越多了,多数拥抱 Nginx 的网站都钟意其优异的性能表现,如果是相对比较大的网站,节约下来的服务器成本无疑是客观的。而有些小型网站往往服务器不多,如果采用 Apache 这类传统 Web 服务器,似乎也还能撑过去。但个人觉得有其很明显的弊端: Apache 在处理流量爆发的时候(比如爬虫或者是 Digg 效应) 很容易过载,这样的情况下采用 Nginx 不失为大胆而有效的尝试。

    当前 Ngnix 美中不足之处是相关的文档和用户经验都还是很欠缺,用户之间还很难做到可借鉴性的交流。

    最近因为朋友遇到一些技术问题,我也翻阅了不少 Nginx 的邮件列表内容,发现大量的技术细节仍然在频繁变化中,可是中文社区内相关的记录和讨论太少了。相信国内这些 Nginx 用户积攒的经验肯定是不少的,但可能是因为某些其它因素考虑而看不到相关的技术分享。

    曾经写过是否要放弃使用varnish/squid, 经过几天的实验,终于找到一种比较理想的解决方案:
    直接使用proxy模块的proxy_store来实现分布mirror.

    首先说说我的需求:

    1. 我需要将一些静态文件从应用服务器剥离, 负载到其他的节点.
    2. 这些文件主要是静态Html和图片,包括缩略图. 这些文件一旦创建,更新的频率很少.
    3. 在某些时候需要手动立即从各个分布节点删除或更新某些文件
    4. 尽可能减少应用服务器的请求, 进而减少内网的流量


    之前,我分别使用了squid和varnish.最初用的squid,还凑合.不过,squid在高负载下会出现停滞甚至crash或者是空白页,于是换成varnish,varnish也是老毛病,偶尔也会crash.

    二者的共同点,就是当cache快满的时候,效率会急剧下降, 同时,对主服务器的请求甚至都阻塞了整个内网.
    要解决这个情况,varnish需要手动重启, squid则需要清除整个缓存目录.

    对于varnish, 由于是纯内存的加速,因此,无法将cache设置太大,否则用上swap, 基本上是几倍的速度下降,而且很容易就段违例了. 于是,当bots访问网站的时段, 就是噩梦产生的时候, 由于爬虫遍历太多的文件,造成缓存很快溢出,于是频繁的invalid,此时,内网的带宽占用能达到100m以上….

    可能有人说,为什么不用NFS. NFS的问题主要是锁的问题. 很容易造成死锁, 只有硬件重启才能解决.

    为了脱离这个噩梦,我决定试验nginx的proxy_store. 如果使用Lighty,倒是非常简单,因为有mod_cache,配合lua,会很灵活. 不过nginx的proxy_store并非是一个cache,因为它不具备expires, 新的cache模块仍在开发中.不过经过仔细考量, 我惊喜的发现,其实这正是我想要的, 因为在我的需求中,绝大多数的文件都是不过期的,因而也无必要去和后端服务器验证是否过期.

    配置其实并不太复杂,但是过程有些曲折, 基本的思路是:nginx首先检查本地是否有请求的文件,如果有直接送出,没有则从后端请求,并将结果存储在本地.

    第一个方案,是基于error_page来实现的:

    upstream backend{
    server 192.168.8.10:80;
    }
    server {
    listen 80;
    access_log /logs/cache.log main;
    server_name blog.night9.cn www.night9.cn night9.cn;
    proxy_temp_path /cache/temp;
    root /cache/$host;
    location / {
    index index.shtml;
    error_page 404 = /fetch$uri;
    }
    ssi on;
    location /fetch {
    internal;
    proxy_pass http://backend;
    proxy_store on;
    proxy_store_access user:rw group:rw all:rw;
    proxy_set_header Host $host;
    proxy_set_header X-Real-IP $remote_addr;
    proxy_set_header Via "s9/nginx";
    alias /cache/$host;
    }
    #对于请求目录的情况下要特殊对待
    location ~ /$ {
    index index.shtml;
    error_page 403 404 = @fetch;
    }
    location @fetch {
    internal;
    proxy_pass http://backend;
    proxy_store /cache/$host${uri}index.shtml;
    proxy_store_access user:rw group:rw all:rw;
    proxy_set_header Host $host;
    proxy_set_header Via "s9/nginx";
    proxy_set_header X-Real-IP $remote_addr;
    }
    }

    这个方案对于普通的情况下,基本满足.

    缓存是做到了,但是如何实现更新呢?其实很简单,只要将指定url的从本地cache目录删除即可.因为proxy_store会按照实际请求的url地址建立相应的目录结构.

    于是,我写了一个fastcgi, 只要将需要清楚的url传递给它,从cache目录中删除.其实可以用perl_module实现,但是考虑到独立fastcgi服务更为稳定,还是和以前的统计一样,用perl的CGI::Fast模块实现, 替换了10几行代码就搞定了.

    事情本来就该告一段,不过,由于主服务器上使用了SSI, 新的问题就来了:
    我们希望SSI的解析是在子节点上进行,而不是在主服务器上进行, 这样我们可以独立更新相应区块的文件即可, 否则就需要清除所有的shtml文件,这是比较可怕的.

    但是,Nginx对于SSI的subrequest无法使用error_page来重定向.(不确定是否是bug,不过如果允许的确容易造成死循环).

    于是,一个更为简单的方案就诞生了:

    set $index 'index.shtml';
    set $store_file $request_filename;
    if ($uri ~ /$ ){
    set $store_file $request_filename$index;
    rewrite (.*) $1index.shtml last;
    }
    location / {
    index index.shtml;
    proxy_store on;
    proxy_temp_path /cache/temp;
    proxy_set_header Host $host;
    proxy_set_header X-Real-IP $remote_addr;
    proxy_set_header Via "s9/nginx";
    proxy_store_access user:rw group:rw all:rw;
    if ( !-e $store_file ) {
    proxy_pass http://backend;
    }
    }

    Wow! 更为简单.
    应该感谢Nginx的Rewrite模块, 这点也是我用Nginx替换Lighttpd的一个主要原因.

    好了,我可以忘掉varnish,squid了.

    如果有兴趣的人想使用, 请一定注意:这个方案对静态文件更为有效,如果要加速动态请求,还是要用varnish

    说道加速, 利用Memcached和nginx配合可以迅速提升访问动态页面的速度,有时间再说.

    网友留言/评论

    我要留言/评论