MySQL运维经验

1. 概要

每台机器都使用多实例的模型。每个机器放多个实例，每个实例放多个DB。

多实例之间没有进行资源隔离，这么做是让每个实例都能发挥最大性能。

目前大部分核心业务已切换成MyRocks引擎，在机器硬件配置不变的情况，约可节省一半机器。

放在MyRocks上的核心业务主要有：Feed、Post、社交图谱等读写混合业务。

MyRocks项目地址：https://github.com/facebook/mysql-5.6

另外，MariaDB 10.2版本也即将整合MyRocks引擎。

2. 高可用机制

采用基于GTID的一主多从结构，外加一个基于lossless semi-sync机制的mysqlbinlog实现的binlog server（可以理解为MySQL 5.7的loss zero replication）。

基于多数派实现自动选主。

基于配置中心实现切换，未使用VIP。

在认为semi-sync复制可保证主从数据一致性的假设前提下，发生故障切换时，利用上述的binlog server中的日志进行补全后再选新主、切换。

若个别情况下由于特殊原因，出现从库全部挂掉的情况，会将全部请求切到主库，由它扛起所有的业务服务压力。

某个从库挂掉时，可以动态摘除。

3. 备份机制

所有的备份都是基于mysqldump实现，之所以采用mysqldump逻辑备份好处有：

上面提到，因为采用多实例、多DB结构，备份时可以多DB并行备份。当然了，也会控制并行备份的数量，避免影响在线业务性能。

备份放在集中存储（HDFS）上，据说已达EB级别容量。

关于备份的作用定位：

4. 如何快速部署从库

可使用xtrabackup在现有存活的SLAVE实例上备份，也可在主库上发起备份，再利用WDT（或者是BT）协议传输到异地，用于拉起从库。

关于WDT项目：https://github.com/facebook/wdt

5. 高度自动化

面对大规模的数据库实例，手工处理完全不现实。目前在facebook主要是利用Python开发内部DB运维平台，所以Python技能方面要求比较高。

采用他们自已的osc工具执行Online DDL（也是本次DTCC大会上lulu的分享主题），它最早用PHP开发，虽早已开源，但实在不好用，所以几乎只在内部使用。这个工具不同于pt-osc，相对来说更有优势，比如可以避免使用pt-osc最常遇到的主从数据延迟问题。

6. 团队结构及技能树

DBA团队更多的是负责私有DB云平台的建设。

Schema设计及DB拆分等由性能优化团队负责。

在线表结构变更：数据库资源申请由质量服务团队负责，做到资源的合理分布、分配，如果某个业务只需要个位数级别的DB实例，可以自行在私有DB云平台中申请部署，当数量比较大时，需要先经过质量服务团队评估通过。

数据库资源申请由质量服务团队负责，做到资源的合理分布、分配。如果某个业务需要小量DB实例，可以自行在私有DB云平台中申请部署；当数量比较大时，需要先经过质量服务团队评估通过才可以。

原创文章，作者：ItWorker，如若转载，请注明出处：https://blog.ytso.com/118489.html