MySQL 8.0.23中复制架构从节点自动故障转移的问题

吾爱主题阅读：305 2024-04-02 07:59:30 评论：0

接触mgr有一段时间了，mysql 8.0.23的到来，基于mysql group replicaion（mgr）的高可用架构又提供了新的架构思路。

灾备机房的slave，如何更好的支持主机房的mgr？

mgr 到底可以坏几个节点？

这次我就以上2个问题，和大家简单聊下mgr的一些思想和功能。

一、mysql group relication 成员数量的容错能力

上面的表格相信大家不会陌生了，我经常在面试里会问：“4个节点的mgr，最多坏几个呢？” ，多数人回答：“最多坏1个，坏2个就脑裂不能工作了。”

那我们来看看mgr的处理方式，是不是这个答案呢？

1）我们具有一个4节点mgr

埋一个问题：这个图一看就是single模式，但箭头不是单向，是不是画错了？

2）此时，second-04突然宕机了，那么mgr集群会成什么样子呢？

集群此时状态会变成：

每个节点会固定时间交换各自信息。
当没有收到second-04节点信息后，其他成员会等待5秒。
这个期间second-04肯定没有发出来消息，于是健康成员认为second-04是可疑状态，标记unreachable状态。
然后健康成员按照参数：group_replication_member_expel_timeout，继续等待（此时second-04依然是unreachable状态）。
当超过了group_replication_member_expel_timeout时间，健康成员就把second-04节点驱逐出集群了。

那么重点来了，敲黑板

在second-04，没有被驱逐出去时：

此时集群是（4节点-3健康-1坏）,这个期间如果继续坏1个节点，那么集群变成（4节点-2健康-2坏），集群没有满足多数原则，每个节点都无法写入了（除非人工干预，强制指定集群成员list）。

在second-04，被驱逐出去后：

此时集群是（3节点-3健康-0坏），4节点集群退化成3节点健康集群了，这个时候，集群依然可以继续坏一个节点，变成（3节点-2健康-1坏）

所以4节点集群是否可以坏1个还是2个，具体要看集群处理过程哪个阶段哦。

ps：

我们说说刚才埋的问题：这个图一看就是single模式，但箭头不是单向，是不是画错了？

首先single模式，second节点默认是不能写入的，但只是由于second节点的super-read-only开启了。

将second节点super-read-only = 0，second节点可以正常写入，并可以同步其他节点（primary和其他second），传输还是基于paxos协议的。

跑个火车：second节点反向同步其他节点，是不会经过冲突检测阶段（理论效率要高于多写模式），没有验证，大家有兴趣可以研究下。

二、 asynchronous connection failover

mysql 8.0.22,推出了异步复制连接故障转移，很多朋友都发文做了介绍，这里我只简单描述下：

1）同机房1主1从，异地机房单独放一个slave节点

2）master 故障，将slave-01变成master，slave-02无法连接原master

3）如果对slave-02配置了“异步连接故障转移配置”，那么slave-02在识别原master故障后，会自动尝试按照预先定义好的配置，与原slave-01（新master）建立复制关系：

这个功能非常好，引用三方工具（例如mha的修复主从关系）已经可以被mysql原生功能代替了。

但我测试完，又有了几点疑虑：

1. “异步”复制故障转移，难道不支持半同步架构？不能确保数据不丢失，还是无法完全代替mha啊？
答：其实是支持增强半同步的。

2. 要预先配置故障转移的master list，那么a机房架构变更，还要去维护机房b的节点吗？
答：是的。

3. 如果a机房是mgr，那么mgr的节点（master）异常，但服务没有关，可以访问，机房b节点岂不是一直连接着？
答：是的

然后,mysql 8.0.23发布了，带来了此功能的增强：

slave可以支持mgr集群，并且可以动态识别mgr成员，来建立master-slave关系了

最后让我们跑一圈：

1）首先我们有3节点的mgr集群，版本8.0.22（异步连接故障转移，是作用在slave的io thread上的，所以slave是8.0.23版本就成）

1 2 3 4 5 6 7 + ----------------------------+-------------+--------------+-------------+---------------------+ | now(6) | member_host | member_state | member_role | view_id | + ----------------------------+-------------+--------------+-------------+---------------------+ | 2021-01-22 13:41:27.902251 | mysql-01 | online | secondary | 16112906030396799:9 | | 2021-01-22 13:41:27.902251 | mysql-02 | online | primary | 16112906030396799:9 | | 2021-01-22 13:41:27.902251 | mysql-03 | online | secondary | 16112906030396799:9 | + ----------------------------+-------------+--------------+-------------+---------------------+

2）然后我们在独立slave节点，指定slave上“对master连接故障转移列表”

1 2 3 4 5 6 7 8 9 select asynchronous_connection_failover_add_managed( 'ch1' , 'groupreplication' , 'aaaaaaaa-aaaa-aaaa-aaaa-aaaaaaaaaaa1' , 'mysql-02' , 3306, '' , 80, 60); 简单解释下参数： ch1：chanel名称 groupreplication：强制写死的参数，目前支持mgr集群 aaaaaaaa-aaaa-aaaa-aaaa-aaaaaaaaaaa1：mgr组名（参数 group_replication_group_name） mysql-02：mgr成员之一 80： primary 节点的优先级（0-100），多主相同优先级则随机选择节点充当master。 60： second 节点的优先级（0-100），基本就是给single模式准备的

3）为slave指定复制通道信息

1	`change replication source` `to` `source_user=` `'rpl_user'` `, source_password=` `'123456'` `, source_host=` `'mysql-02'` `,source_port=3306,source_retry_count=2,source_connection_auto_failover=1,source_auto_position=1` `for` `channel` `'ch1'` `;`

4）启动slave，并查看“连接的可转移列表”

不开启io thread，是不会自动识别mgr成员的。并且复制用户

rpl_user需要在mgr节点对performance_schema具有select权限

1 2 3 4 5 6 7 8 9 start slave; select * from performance_schema.replication_asynchronous_connection_failover; + --------------+----------+------+-------------------+--------+--------------------------------------+ | channel_name | host | port | network_namespace | weight | managed_name | + --------------+----------+------+-------------------+--------+--------------------------------------+ | ch1 | mysql-01 | 3306 | | 60 | aaaaaaaa-aaaa-aaaa-aaaa-aaaaaaaaaaa1 | | ch1 | mysql-02 | 3306 | | 80 | aaaaaaaa-aaaa-aaaa-aaaa-aaaaaaaaaaa1 | | ch1 | mysql-03 | 3306 | | 60 | aaaaaaaa-aaaa-aaaa-aaaa-aaaaaaaaaaa1 | + --------------+----------+------+-------------------+--------+--------------------------------------+

5）然后我们将mysql-02 stop group_replication(不是关闭服务)，

slave列表自动淘汰mysql-02，重新与其他节点建立连接-- mysql-02(primary):

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 stop group_replication; -- slave: select * from performance_schema.replication_asynchronous_connection_failover; + --------------+----------+------+-------------------+--------+--------------------------------------+ | channel_name | host | port | network_namespace | weight | managed_name | + --------------+----------+------+-------------------+--------+--------------------------------------+ | ch1 | mysql-01 | 3306 | | 80 | aaaaaaaa-aaaa-aaaa-aaaa-aaaaaaaaaaa1 | | ch1 | mysql-03 | 3306 | | 60 | aaaaaaaa-aaaa-aaaa-aaaa-aaaaaaaaaaa1 | + --------------+----------+------+-------------------+--------+--------------------------------------+ show slave status\g *************************** 1. row *************************** slave_io_state: waiting for master to send event master_host: mysql-01 master_user: rpl_user master_port: 3306 connect_retry: 60 master_log_file: mybinlog.000003 read_master_log_pos: 4904 relay_log_file: mysql-01-relay-bin-ch1.000065 relay_log_pos: 439 relay_master_log_file: mybinlog.000003 slave_io_running: yes slave_sql_running: yes ...

至此，配置完成。后面mgr节点增、减，slave都可以自动维护这个列表。不贴其他用例了。

ps:

如果想手工切换slave已建立的master节点（primary）连接到其他节点（second）上，只需要删除“复制连接的可转移列表”，重新调整second优先级加回即可。

1 2 3 4 5 6 -- 删除配置 select asynchronous_connection_failover_delete_managed( 'ch1' , 'aaaaaaaa-aaaa-aaaa-aaaa-aaaaaaaaaaa1' ); -- 重新添加，调整second优先级高于primary select asynchronous_connection_failover_add_managed( 'ch1' , 'groupreplication' , 'aaaaaaaaaaaa-aaaa-aaaa-aaaaaaaaaaa1' , 'mysql-03' , 3306, '' , 60, 80);