可靠消息最终一致性分布式事务实现方案

January 25, 2019

2239 views

1770 words

提到分布式应用，就不得不考虑分布式事务。在分布式事务中，常见的有 CAP，BASE 理论，解决方案也有很多种，比如：2PC、TCC 、最终一致性等。

2PC（两阶段提交）比较适合单块应用，跨多个库的分布式事务。因为严重依赖于数据库层面来搞定复杂的事务，效率很低，绝对不适合高并发的场景，而且，对于微服务而言，不推荐一个服务出现跨多个数据库操作，如果需要操作其它数据库数据，推荐通过调用别的服务接口来实现。

TCC 属于强一致性事务的方案，适用资金流转业务相关业务，比如：支付、交易等场景。根据 CAP 理论，这种实现需要牺牲可用性。

如果是一般的分布式事务场景，比如：订单插入之后要调用库存服务更新库存，库存数据没有资金那么的敏感，可以用可靠消息最终一致性方案。

下面是一种可靠消息最终一致性事务方案的实现流程：

正常流程：

A 系统发送预发送消息给消息服务系统。
消息服务系统存储预发送的消息到消息数据库。
消息服务系统返回存储预发送消息的结果到 A 系统。
如果第 3 步返回的结果是成功的， A 系统则执行业务操作，否则不执行。
A 系统业务操作成功后，通知消息服务系统 。
消息服务系统发送消息到 MQ ，并且更新预发送消息状态为已发送（但不是已消费）。
MQ 发送消息到 B 系统。
B 系统执行业务操作，保证幂等性，防止同一个消息重复执行。
B 系统向 MQ ack 此条消息，并向消息服务系统进行确认成功消费消息，让消息服务系统将消息状态置为已消费。
消息恢复系统定时去消息服务系统查一下消息数据，查看有没有状态为非已消费（预发送和已发送）状态的超时（比如 2 分钟以上还未消费的）消息。
如果第 10 步发现有非已消费状态的超时消息，调用 A 系统提供的查询接口，查询次条消息对应的业务数据是否为处理成功。
如果业务数据是处理成功的状态，那么就再次调用确认并发送消息，即进入第 6 步。如果业务数据是处理失败的，那么就调用消息服务系统进行删除该条消息数据。

再来看看有错（比如说网络断了或者服务器挂了）的时候，这个系统是怎么保证一致性的：

第 1 步失败，相当于什么都没做。
第 2 步失败，第 3 步会返回失败结果，A 系统不执行业务操作。
第 3 步失败，A 系统不执行业务操作，消息恢复系统在第 12 步判断业务处理失败。
第 4 步失败，A 系统回滚业务，同样消息恢复系统在第 12 步判断业务处理失败。
第 5、6、7、8、9 步失败，消息恢复系统在第 12 步判断业务处理成功，重试第 6 步直到成功为止。如果在第 9 步失败了，B 系统会重复消费某条消息，所以 B 系统要设计成幂等操作，对于同一操作发起的一次请求或者多次请求的结果是一致的，不会因为多次调用而产生了副作用。