大型网站系统与 Java 中间件的“情缘”

万皇之皇 2018-01-11

展开全文

转载声明：本文转自【ImportNew】
原文链接：http://mp.weixin.qq.com/s/qtKcJZkcq26nsFln3OYj6A

第一章分布式系统介绍

分布式系统的定义：组件分布在网络计算机上，组件间仅仅通过消息传递来通信并协调行动。

分布式系统的意义：

升级单机处理能力的性价比越来越低
单机处理能力存在瓶颈
处于稳定性和可用性的考虑

摩尔定律：当价格不变时，每隔 18 个月，集成电路上可容纳的晶体管数目会增加一倍，性能也将提升一倍。

线程与进程的执行模式

冯诺依曼结构：输入设备、输入设备、运算器、控制器、存储器。

基于共享容器协同的多线程模式：经典如生产者消费者问题，对于存储数据的容器或对象，有线程安全和不安全之分，对于不安全的容器或对象，一般可以通过加锁或者通过 Copy On Write 的方式控制并发。

通过事件协同的多线程模式：避免死锁

多进程模式：

线程是属于进程的，一个进程内的多个线程共享了进程的内存空间；而多个进程间的内存空间是独立的，因此多个进程间通过内存共享、交换数据的方式与多个线程间就有所不同
此外，进程间通信、协调，以及通过一些事件通知或者等待一些互斥锁的释放方面也不一样
多进程相对于单进程多线程来说，资源控制会更容易实现；多进程中单个进程出现问题，不会造成整体的不可用
多进程之间可以共享数据，但其代价较大，会涉及序列化和反序列化的开销

网络通信基础知识

OSI 七层模型与 TCP/IP 模型：

Socket 套接字进行网络通信开发时，用到的三种方式：BIO、NIO 和 AIO

BIO：Blocking IO，采用阻塞的方式实现，一个线程处理一个 Socket，发生建立连接、读数据、写数据的操作时，都可能会阻塞。

NIO：Nonblocking IO，基于时间驱动思想，采用 Reactor 模式，可以在一个线程中处理多个 Socket 套接字

AIO：AsynchronousIO，异步 IO，采用 Proactor 模式，与 NIO 的差别是，AIO 在进行读写操作时，只需要调用响应的 read/write 方法，并且需要传入 CompletionHandler，在动作完成后会调用。

如何把应用从单机扩展到分布式

输入设备的变化
输出设备的变化
控制器的变化

方式 1 和 2，透明代理：对发起方和处理方都是透明的

使用硬件负载均衡
使用 LVS（或其他软件负载均衡系统）

缺点：

会增加网络的开销，一方面指流量，另一方面指延迟
这个透明代理处于请求的必经之路，如果代理出现问题，所有请求都会受到影响。我们需要考虑代理服务器的热备份

方式 3，采用名称服务器直连的方式：

请求发起方和处理方直接没有代理服务器，而是直接连接。外部多了一个“名称服务”的角色，作用有：

收集提供请求处理的服务器的地址信息
提供这些地址信息给请求发起方

名称服务只是起到一个地址交换的作用，在发起请求的机器上，需要根据从名称服务得到的地址进行负载均衡的工作。

优点如下：

名称服务器出现问题，有办法可以保证处理正常
发起方和处理方直连，减少中间路径和带宽小号

缺点就是代码升级较复杂

方式 4，采用规则服务器控制路由的请求直连调用

与名称服务器不同的是，规则服务器并不和请求处理的机器交互，只负责把规则提供给请求发起的机器。

方式 5，Master+Worker 的方式

存在一个 Master 节点来管理任务，由 Master 把任务分配给不同的 Worker 进行处理。

运算器的变化

通过 DNS 服务器进行调度和控制

增加负载均衡设备，DNS 返回的永远是负载均衡地址

存储器的变化

同控制器的变化，加代理服务器、or 名称服务器、or 规则服务器

分布式系统的难点

缺乏全局时钟
面对故障独立性
处理单点故障，如果不能把单点变为集群，则需要给单点做好备份，降低单点故障影响范围
事务的挑战：2PC、最终一致、BASE、CAP、Paxos 等

第二章大型网站及其架构演进过程

大型网站：访问量（PV）、数据量、业务复杂度

单机负载告警，数据库与应用分离

应用服务器负载告警，走向集群

服务器选择问题：DNS、集群前加负载均衡设备
Session 的问题

Session 保存会话状态，在 Web 服务器上，各个会话独立存储，多台服务器不能保证每次请求都落在同一边的服务器上。解决方案如下：

1、Session Sticky：负载均衡根据会话标识进行转发，让同样的 Session 请求每次都发送到同一个服务器端处理

缺点：

如果一台 Web 服务器宕机或重启，会话数据会丢失，用户要重新登录
会话标识是应用层信息，则负载均衡要在应用层进行解析，开销比在第四层大
负载均衡变为了有状态的节点，要将会话保存到具体 Web 服务器的映射。内存消耗会变大，容灾更麻烦

2、Session Replication：会话在多态服务器上复制同步

缺点：

同步 Session 数据造成了网络带宽的开销
每台 Web 服务器都要保存所有的 Session 数据，数据量容易很大

3、Session 数据集中存储

Session 数据不再 Web 服务器上，而是放在另一个集中存储的地方。

缺点：

读写 Session 数据引入了网络操作，存在时延和不稳定性
如果集中存储 Session 的机器或者集群有问题，就会影响我们的应用

4、Cookie Based：把 Session 数据放在 Cookie 中

缺点：

Cookie 长度的限制
安全性：外部访问和修改
带宽消耗
性能影响：每次 HTTP 请求都带有 Session 数据

数据读压力变大，读写分离

1、采用数据库作为读库

缺点：

数据复制问题；
应用对于数据源的选择问题：写操作和事务走主库，考虑从库相对主库的延迟

2、搜索引擎其实是一个读库

3、加速数据读取的利器——缓存

数据缓存，Key-Value，“热数据”，容量不够时清除缓存
页面缓存，ESI 标签页面缓存

弥补关系型数据库的不足，引入分布式存储系统

分布式文件系统，解决小文件和大文件的存储问题

分布式 key-value 系统，提供高性能的半结构化支持

分布式数据库提供一个支持大数据、高并发的数据库系统

读写分离后，数据库又遇到瓶颈

尽管读写分离以及分布式存储系统，能够降低主库的压力，但是交易、商品、用户的数据都还在一个数据库中，压力还在继续增加，我们有数据垂直拆分和水平拆分两种选择；

1、专库专用，数据垂直拆分

垂直拆分即把不同的业务数据分到不同的数据库中。

问题：

应用需要多个数据源，带来的是每个数据库连接池的隔离
单机跨业务事务，一种方法是使用分布式事务，性能较低；另一种办法就是去掉事务

2、单表达到瓶颈，数据水平拆分

水平拆分就是把同一个表的数据拆到两个数据库中。

问题：

SQL 路由问题，选择哪个数据表
主键处理等机制不同，如自增主键
一些查询需要从两个数据库中取数据，加上分页操作，比较难处理

数据库问题解决后，应用面对的新挑战

拆分应用

根据业务特性，还可以根据用户注册、登陆、用户信息维护等再拆分。
走服务化的路，共享代码放在各个服务中心，如商品中心、用户中心、交易中心

初识消息中间件

消息中间件是在分布式系统中完成消息发送和接收的基础软件。两个明显好处：异步、解耦。

第三章构建 Java 中间件

三个领域的中间件：

远程过程调用和对象访问中间件：主要解决分布式环境下应用的互相访问问题。是支撑应用服务化的基础
消息中间件：解决应用之间的消息传递、解耦、异步的问题
数据访问中间件：解决应用访问数据库的共性问题

构建 Java 中间件的基础知识

JVM 中堆分为三块：Young/Tenured/Perm，新生代 / 年老代 / 持久代

一般来说，新对象分配在新生代的 Eden 区，也可能直接分配在年老代，在进行新生代垃圾回收时，Eden 区存活的对象被复制到空的 Survivor 区，在下次新生代回收时，Eden 区存活的对象和这个 Survivor 存活的对象被复制到另外那个 Survivor 区，并且清空当前 Survivor 区，经过多次新生代垃圾回收，还存活的对象会被移动到年老代。

线程池

ThreadPoolExecutor tp = new ThreadPoolExecutor(1, 1, 60, TimeUnit, SECONDS, new LinkedBlockingQueue(count));

tp.execute(new Runnable(){

public void run(){}

});

使用线程池的方式是复用线程的，不用每次都创建线程。而创建线程的开销占比较大。

synchronized

synchronized 修饰静态方法、对象方法、代码块

ReetrantLock

** 提供 tryLock 方法，尝试调用，如果锁被其他线程持有，则 tryLock 立即返回
可以实现公平锁
ReentrantReadWriteLock：读写锁，用于读多写少并且读不需要互斥的场景
可以有多个 Condition

volatile

可见性指一个线程修改变量值后，其他线程中能够看到这个值。volatile 虽然解决了可见性问题，但是不能控制并发

Atomics

原子操作，如 AtomicInteger 内部通过 JNI 的方式使用了硬件支持的 CAS 指令

wait、notify 和 notifyAll

wait 是等待线程，notify 是唤醒一个等待线程（并不能指定，随机），notifyAll 是唤醒所有的等待线程。

CountDownLatch

java.util.concurrent 包中的一个类，主要提供的机制是当多个线程都到达了预期状态或完成预期工作时触发事件，其他线程可以等待这个事件来触发自己后续的工作。

CyclicBarrier

循环屏障，可以协同多个线程，让多个线程在这个屏障前等待，知道所有线程都到达了这个屏障时，再一起继续执行后面的动作。

Semaphore

Semaphore 是用于管理信号量的，构造时传入可供管理的信号量的数值。如果信号量只有一个，就退化到互斥锁了，如果多于一个，则主要用于控制并发数。

Exchanger

用于两个线程之间进行数据交换，线程会阻塞在 exchange 方法上，知道另外一个线程也到了同一个 Exchanger 的 exchange 方法时，二者进行交换。

Future 和 FutureTask

Future 是一个接口，FutureTask 是一个具体实现类

Future future = getDataFromRemote2();

……

HashMap data = (HashMap) future.get();

public Future getDataFromRemote2(){

return threadPool.submit(new Callable(){

public HashMap call()throws Exception{ return getDataFromRemote();}

});

}

getDataFromRemote2 还是使用率 getDataFromRemote 完成操作，并且用到了线程池：把任务加入线程池中，把 Future 对象返回出去。

并发容器

CopyOnWrite：更改容器时，把容器复制一份进行修改，用于读多写少

Concurrent：尽量保证读不加锁，并且修改时不影响读，所以比读写锁更高的并发性能

动态代理

继承 InvocationHandler

反射

Java 反射机制是指在运行状态，对于任意一个类，都能知道这个类所有属性和方法；对于任意一个对象，都能够调用它的任意一个方法和属性。

Class clazz = Object.getClass();

String className = clazz.getName();

Method[] methods = clazz.getDeclaredMethods();

Field[] fields = clazz.getDeclaredFields();

// 构建对象

Class.forName(“ClassName”).newInstance();

// 动态执行方法

Method method = clazz.getDeclaredMethod(“add”, int.class, int.class);

method.invoke(this, 1, 1);

// 动态操作方法

Field field = clazz.getDeclaredField(“name”);

field.set(this, “test”);