解读大型网站的演变过程



有一次去图书馆看书,遇到一个刚毕业不久,在图书馆学习php,我就和他聊天,他期间问到一个问题“如何开发一个大型网站”,这个问题吓不倒我呀,我了解一些了,当时就和他连说带比划了一次,回家了我仔细又想了想,觉得还是写篇文章记录下

任何网站都是从一个小网站 演变成 一个复杂的网站的(后面我们用成熟的网站表示大型网站)

才开始一个网站不可能非常成熟的,都是随着用户量的增长,业务功能的不断扩展逐渐完善的

第一:最初的网站架构

 这个时候应该是最简单的架构了,应用程序,文件,数据库,web软件 都放在一台服务器上了,如下图(这就是我现在的基本架构了,嗯哼,就是小网站了)

第二:应用程序,文件,数据库分离

随着业务的发展,一台服务器已经满足不了性能要求了,所以这个时候将 应用程序,文件,数据库分别放在单独的服务器上


第三:可以适当使用缓存改善网站性能

提升硬件的配置同时,我们也可以使用软件做性能优化的,这里我们重点说的是数据库缓存,目前可以使用memcache/redis等软件


第四:使用集群改善应用服务器性能

应用程序是网站的入口,业务量很多的时候,请求量很大,单台应用服务器就承受不了了,通常我们可以使用负载均衡服务器来分发请求(也可以说是应用程序集群了),我比较熟悉或者一直使用的就是nginx了,如下图


下面这段话是从别人看到的,我觉得概括的挺对的,我个人还是主要使用nginx,haproxy了解过,

常用的负载均衡技术硬件的有F5,价格比较贵,软件的有LVS、Nginx、HAProxy。LVS是四层负载均衡,根据目标地址和端口选择内部服务器,Nginx和HAProxy是七层负载均衡,可以根据报文内容选择内部服务器,因此LVS分发路径优于Nginx和HAProxy,性能要高些,而Nginx和HAProxy则更具配置性,如可以用来做动静分离(根据请求报文特征,选择静态资源服务器还是应用服务器)。

第五:数据库读写分离

 随着用户量的增加,数据库会逐渐成为瓶颈,常用的手段是读写分离(具体的含义大家可以百度google),还有常用的拆表(水平拆表和垂直拆表,我比较喜欢说 分表 和 分库),mysql数据库还有个partition,没玩过,只听DBA说过了

水平拆表:为了解决单张表的压力问题。一个表拆成多张表,例如用户表,根据uid 分表(例如 uid % 10)

垂直拆表:为了解决表与表的IO竞争,将相关表放入一个库,例如商品表和订单表放入另一库,用户表放入另一个库


第六:应用程序业务拆分

随着业务的发展,项目非常大,代码也非常臃肿了,这时候业务急需分事业部,例如问答,博客,论坛等都分成独立部门

就需要分业务了,


第七:使用CDN,squid,varnish等提高网站性能

我说下cdn,squid和varnish请各位有兴趣自己查阅相关资料

CDN就是内容分发网络,为什么存在?是因为对于网络公司,一般 自己的服务器都会在一个地方,例如上海机房,例如杭州机房了,但是网站是对全国来至全世界提供服务的,所以网站的访问速度是非常重要的指标,cdn服务商就是在全国很多地方都有机房,每当用户访问 网站 CDN会直接从最近的机房返回网页内容了


目前我个人博客有使用七牛CDN,浅谈 举家搬迁静态文件到CDN

CDN服务的详细介绍请前往 CDN服务技术架构图 



总结 成熟大型的网站都是在不断优化的,都是随着业务的发展慢慢变化的

演变 nginx haproxy 读写分离 缓存 cdn squid vanish
编程浪子走四方:CodeRonin