linux_11

文章目录[隐藏]

1、简述redis特点及其应用场景
- redis特点
- Redis的应用场景
2、对比redis的RDB、AOF模式的优缺点
3、实现redis哨兵，模拟master故障场景
4、简述redis集群的实现原理
5、基于redis5的redis cluster部署
6、部署Zabbix监控
7、实现Nginx、Mysql的监控
8、实现故障和恢复的邮件通知

1、简述redis特点及其应用场景

redis特点

速度快

说到Redis的速度快，大家的第一反应一定是内存读取，那是肯定的，但如果面试的时候仅仅说到这点，那还是远远不够的，至少还有以下三点要补充：

Redis是用C语言实现的，而众所周知，C语言是“距离”操作系统最近的的编程语言，执行速度快
Redis采用了单线程的架构(这点很容易遗忘，但是是Redis的最重要特性)，避免了多线程的资源竞争问题
Redis的源码非常精简，可以说是集性能和优雅于一身的代码

基于键值对的服务器

Redis的全程是Remote Dictionary Server，是集合了五种数据结构：字符串、列表、哈希、集合、有序集合，可以说五种数据结构都是围绕于key-value的形式，而value不仅仅可以是值，还能是具体的数据结构，这给予了Redis强大的变化性和灵活能力。

丰富的功能

除了数据结构的强大，另外就是Redis所提供的丰富的功能了：

提供了key过期的功能，这能运用于实现缓存
提供了发布订阅的功能，可运用于消息队列，如celery
支持lua脚本功能，当觉得Redis的命令实现功能不够时，就能利用lua来创建新的功能
提供了简单的事务功能，不过不能支持回滚，但也能一定程度上保持事务的特性
提供了pipeling功能，这样客户端可以将多条命令一次io，减少了网络的开销

简单稳定

Redis的简单表现在两方面，一方面是在3.0版本之前源代码仅3万行，后面3.0加入了集群后代码加到了5万行，而5万行的源代码对于开发人员来说，要理解掌握它也显得并不是那么难；另一方面就是Redis是单线程的结构，这使得Redis的服务端处理模型变得简单，客户端开发也显得简单。Redis虽然代码少，并且是单线程的，但是它又非常的稳定，很少会出现因为自身bug而down掉的情况。

客户端语言多

Redis目前基本可以说和MySQL的知名度一样高了，太多的运用场景，太多的支持语言，常见的比如：java的jedis，Python的redis、PHP、C、C++等等。

持久化

Redis还支持两种方式的持久化，即将数据写入磁盘的方法，RDB和AOF，两种方法各有利弊，这里就不详细介绍了。

主从复制

那数据库的主从复制、集群功能是非常重要的，可以在Redis异常挂了后不影响客户端的使用，而Redis也是支持主从复制功能。

高可用和分布式

Redis从2.8版本后提供了高可用实现的Redis Sentinel，即Redis的“哨兵机制”，可以保证Redis节点的故障发现和自动转移，这实现了Redis强大的分布式功能。

Redis的应用场景

缓存

缓存可以说是Redis最常用的功能之一了，合理的缓存不仅可以加快速度的访问速度，以及可以减少后端的压力(通常就是MySQL的压力)。可以说，一个合理的缓存可以极大地提高网站的性能。

排行榜系统

利用Redis的列表和有序集合的特点，可以制作排行榜系统，而排行榜系统目前在商城类、新闻类、博客类等等，都是比不可缺的。

计数器应用

计数器的应用基本和排行榜系统一样，都是多数网站的普遍需求，如视频网站的播放计数，电商网站的浏览数等等，但这些数量一般比较庞大，如果存到关系型数据库，对MySQL或者其他关系型数据库的挑战还是很大的，而Redis基本可以说是天然支持计数器应用。

消息队列系统

Redis支持发布订阅系统和阻塞队列的功能，可以充当一般的消息队列功能，虽然和专业的消息队列MQ比如RebbitMQ比起来还优点差距，但也基本够用了，比如celery的异步模型，Redis也是celery官方指定的2种队列的一种。

社交网络

对于社交网络来说，一般用户量是及其庞大的，此时的关系型数据库就捉襟见肘了，比如好有点赞、关注、推送等等功能，用Redis就能比较轻松地实现这些功能

2、对比redis的RDB、AOF模式的优缺点

redis虽然是一个内存级别的缓存程序，但是它可以将内存的数据按照一定的策略保存到硬盘中，从而实现数据的持久化保持。目前，redis支持两种不同方式的数据持久化保存机制，分别是RDB和AOF，这两种模式分别类似于MySQL备份中dump和二进制日志方式。

linux_11

RDB模式RDB模式工作原理

RDB（Redis DataBase，redis数据库）：基于时间的快照，默认只保留当前最新的一次快照，优点是执行速度比较快，缺点是可能会丢失上一次快照到当前快照时间点之间的数据。其工作原理如下图所示，首先redis将内存中的数据备份到二进制RDB文件中，之后如果redis处于关闭状态，则内存中的数据将不复存在，但是redis重启后，会自动加载之前备份的RDB文件，重新读取数据。

linux_11

要想将redis内存中的数据备份到RDB文件中，我们可以使用到save指令（同步，会阻赛其它命令，不推荐使用）、bgsave指令（异步后台执行，不影响其它命令的执行）或者自动（制定规则，自动执行）的方式。例如RDB bgsave的方式，其实现快照的具体过程如下图所示：

linux_11

RDB bgsave实现快照时，redis会从master主进程先fork一个子进程，使用写时复制机制，子进程将内存中的数据保存为一个临时RDB文件，当所有数据保存完毕之后再将上一次的RDB文件替换掉，然后关闭子进程，从而保证每一次做RDB快照所保存的数据都是完整的。

RDB模式的优缺点

RDB模式优点

RDB模式的优点主要表现为以下几点：

①RDB快照保存了某个时间点的数据，可以通过脚本执行redis指令bgsave(非阻塞，后台执行)或者save(会阻塞写操作，不推荐)命令自定义时间点备份，可以保留多个备份，当出现问题可以恢复到不同时间点的版本，很适合备份，并且此文件格式也支持有不少第三方工具可以进行后续的数据分析。

②RDB可以最大化Redis的性能，父进程在保存RDB文件时唯一要做的就是fork出一个子进程，然后这个子进程就会处理接下来的所有保存工作，父进程无须执行任何磁盘I/O操作。

③RDB在大量数据,比如几个G的数据，恢复的速度比AOF的快。

RDB模式缺点

RDB模式的缺点表现在两方面：

①不能实时保存数据，可能会丢失自上一次执行RDB备份到当前的内存数据。如果需要尽量避免在服务器故障时丢失数据，那么RDB并不适合。虽然Redis允许设置不同的保存点（save point）来控制保存RDB文件的频率，但RDB文件需要保存整个数据集的状态，所以它并不是一个轻松快速的操作，因此一般会超过5分钟以上才保存一次RDB文件，在这种情况下，一旦发生故障停机就可能会丢失好几分钟的数据。

②当数据量非常大的时候，从父进程fork子进程进行保存至RDB文件时需要一点时间，可能是毫秒或者秒，取决于磁盘IO性能。在数据集比较庞大时，fork()可能会非常耗时，造成服务器在一定时间内停止处理客户端，如果数据集非常巨大，并且CPU时间非常紧张的话，那么这种停止时间甚至可能会长达整整一秒或更久。虽然AOF重写也需要进行fork()，但无论AOF重写的执行间隔有多长，数据的持久性都不会有任何损失。

AOF模式AOF模式工作原理

linux_11

AOF（Append Only File）：按照操作顺序依次将操作追加到指定的日志文件末尾。AOF模式和RDB模式一样使用了写时复制机制，AOF默认为每秒钟fsync一次，即将执行的命令保存到AOF文件当中，这样即使redis服务器发生故障最多只丢失1秒钟之内的数据，也可以设置不同的fsync策略always，即设置每次执行命令的时候执行fsync，fsync会在后台执行线程，所以主线程可以继续处理用户的正常请求而不受到写入AOF文件的I/O影响。同时启用RDB和AOF进行恢复时，默认AOF文件优先级高于RDB文件，即会使用AOF文件进行恢复。

注意：AOF模式默认是关闭并且没有数据文件存在的，第一次开启AOF并重启服务生效后，会因为AOF的优先级高于RDB而导致所有数据丢失。

AOF模式的优缺点

AOF模式优点

AOF模式的优点表现为：

①数据安全性相对较高，根据所使用的fsync策略(fsync是同步内存中redis所有已经修改的文件到存储设备)，默认是appendfsync everysec，即每秒执行一次fsync，在这种配置下，redis仍然可以保持良好的性能，并且就算发生故障停机，也最多只会丢失一秒钟的数据( fsync会在后台线程执行，所以主线程可以继续努力地处理命令请求)。

②由于该机制对日志文件的写入操作采用的是append模式，因此在写入过程中不需要seek，即使出现宕机现象也不会破坏日志文件中已经存在的内容。如果本次操作只是写入了一半数据就出现了系统崩溃问题，在redis下次启动之前，可以通过redis-check-aof工具来解决数据一致性的问题。

③redis可以在AOF文件体积变得过大时自动地在后台对AOF进行重写，重写后的新AOF文件包含了恢复当前数据集所需的最小命令集合。整个重写操作是绝对安全的，因为redis在创建新AOF文件的过程中，append模式不断的将修改数据追加到现有的AOF文件里面，即使重写过程中发生停机，现有的 AOF文件也不会丢失。而一旦新AOF文件创建完毕，redis就会从旧AOF文件切换到新AOF文件，并开始对新AOF文件进行追加操作。

④AOF包含一个格式清晰、易于理解的日志文件用于记录所有的修改操作，事实上也可以通过该文件完成数据的重建。AOF文件有序地保存了对数据库执行的所有写入操作，这些写入操作以redis协议的格式保存，因此AOF文件的内容非常容易被人读懂，对文件进行分析(parse)也很轻松。

AOF模式缺点

AOF模式的缺点表现为：

①即使有些操作是重复的也会全部记录，因此AOF的文件大小要大于RDB格式的文件。

②AOF在恢复大数据集时的速度比RDB的恢复速度要慢。

③根据fsync策略不同，AOF速度可能会慢于RDB。

④在AOF模式中，bug出现的可能性会更多。

RDB和AOF的选择选择何种模式要依据实际情况来定：

①如果主要充当缓存功能，或者可以承受数分钟数据的丢失，通常生产环境中只开启RDB即可，这也是默认设置。

②如果数据需要持久保存，一点都不能丢失，可以同时开启RDB和AOF。

③一般不建议只开启AOF。

3、实现redis哨兵，模拟master故障场景

redis 哨兵(Sentinel)

redis 集群介绍

主从架构无法实现master和slave角色的自动切换，即当master出现redis服务异常、主机断电、磁盘损坏等问题导致master无法使用，而redis主从复制无法实现自动的故障转移(将slave 自动提升为新master)，需要手动修改环境配置，才能切换到slave redis服务器，另外当单台Redis服务器性能无法满足业务写入需求的时候，也无法横向扩展Redis服务的并行写入性能

需要解决以上的两个核心问题：

master和slave角色的无缝切换，让业务无感知从而不影响业务使用可横向动态扩展Redis服务器，从而实现多台服务器并行写入以实现更高并发的目的。Redis 集群实现方式：

客户端分片：由应用决定将不同的KEY发送到不同的Redis服务器代理分片：由代理决定将不同的KEY发送到不同的Redis服务器，代理程序如：codis，twemproxy等Redis Cluster：着眼于扩展性，在单个redis内存不足时，使用Cluster进行分片存储。

哨兵 (Sentinel) 工作原理Redis Sentinal：着眼于高可用，在master宕机时会自动将slave提升为master，继续提供服务。

Sentinel 故障转移：

（1）多个sentinel发现并确认master有问题（2）选举出一个sentinel作为领导（3）选出一个slave作为master（4）通知其余slave成为新master的slave（5）通知客户端主从变化（6）等待老的master复活成为新master的slave

Sentinel 进程是用于监控redis集群中Master主服务器工作的状态，在Master主服务器发生故障的时候，可以实现Master和Slave服务器的切换，保证系统的高可用，此功能在redis2.6+的版本已引用，Redis的哨兵模式到了2.8版本之后就稳定了下来。一般在生产环境也建议使用Redis的2.8版本的以后版本

哨兵(Sentinel) 是一个分布式系统，可以在一个架构中运行多个哨兵(sentinel) 进程，这些进程使用流言协议(gossip protocols)来接收关于Master主服务器是否下线的信息，并使用投票协议(Agreement Protocols)来决定是否执行自动故障迁移，以及选择哪个Slave作为新的Master

每个哨兵(Sentinel)进程会向其它哨兵(Sentinel)、Master、Slave定时发送消息，以确认对方是否”活”着，如果发现对方在指定配置时间(此项可配置)内未得到回应，则暂时认为对方已离线，也就是所谓的”主观认为宕机” (主观：是每个成员都具有的独自的而且可能相同也可能不同的意识)，英文名称：Subjective Down，简称SDOWN

有主观宕机，对应的有客观宕机。当“哨兵群”中的多数Sentinel进程在对Master主服务器做出SDOWN的判断，并且通过 SENTINEL is-master-down-by-addr 命令互相交流之后，得出的Master Server下线判断，这种方式就是“客观宕机”(客观：是不依赖于某种意识而已经实际存在的一切事物)，英文名称是：Objectively Down，简称 ODOWN

通过一定的vote算法，从剩下的slave从服务器节点中，选一台提升为Master服务器节点，然后自动修改相关配置，并开启故障转移（failover）

Sentinel 机制可以解决master和slave角色的自动切换问题，但单个 Master 的性能瓶颈问题无法解决，类似于MySQL中的MHA功能

Redis Sentinel中的Sentinel节点个数应该为大于等于3且最好为奇数

客户端初始化时连接的是Sentinel节点集合，不再是具体的Redis节点，但Sentinel只是配置中心不是代理。

Redis Sentinel 节点与普通redis 没有区别，要实现读写分离依赖于客户端程序

redis 3.0 之前版本中，生产环境一般使用哨兵模式，3.0后推出redis cluster功能，可以支持更大规模的生产环境

sentinel中的三个定时任务：

每10秒每个sentinel对master和slave执行info
- 发现slave节点
- 确认主从关系
每2秒每个sentinel通过master节点的channel交换信息(pub/sub)
- 通过sentinel__:hello频道交互
- 交互对节点的“看法”和自身信息
每1秒每个sentinel对其他sentinel和redis执行ping

实现redis哨兵

由于主从架构无法实现master和slave角色的自动切换，所以在发送master节点宕机时，redis主从复制无法实现自动的故障转移，即将slave 自动提升为新的master。因此，需要配置哨兵来"盯"着它们干活，一旦发现master节点宕机，会快速的将slave节点提升为新master节点。

关闭防火墙 systemctl disable --now firewalld

系统版本 CentOS 7.9

master服务器 10.0.0.131（主机名：centos7-01）

salve服务器1 10.0.0.132（主机名：centos7-02）

salve服务器2 10.0.0.133（主机名：centos7-03）

哨兵的准备实现主从复制架构

#需要安装wget包
[root@centos7-01 ~]# yum -y install wget
#在所有节点都脚本编译安装redis 6.2.4
[root@centos7-01 ~]# ls
install_redis.sh
[root@centos7-01 ~]# cat install_redis.sh 
#!/bin/bash
VERSION=redis-6.2.4
PASSWORD=123456
INSTALL_DIR=/apps/redis

color () {
    RES_COL=60
    MOVE_TO_COL="echo -en //033[${RES_COL}G"
    SETCOLOR_SUCCESS="echo -en //033[1;32m"
    SETCOLOR_FAILURE="echo -en //033[1;31m"
    SETCOLOR_WARNING="echo -en //033[1;33m"
    SETCOLOR_NORMAL="echo -en /E[0m"
    echo -n "$1" && $MOVE_TO_COL
    echo -n "["
    if [ $2 = "success" -o $2 = "0" ] ;then
        ${SETCOLOR_SUCCESS}
        echo -n $"  OK  "    
    elif [ $2 = "failure" -o $2 = "1"  ] ;then 
        ${SETCOLOR_FAILURE}
        echo -n $"FAILED"
    else
        ${SETCOLOR_WARNING}
        echo -n $"WARNING"
    fi
    ${SETCOLOR_NORMAL}
    echo -n "]"
    echo 
}


install() {
yum  -y install gcc jemalloc-devel || { color "安装软件包失败，请检查网络配置" 1 ; exit; }

wget http://download.redis.io/releases/${VERSION}.tar.gz || { color "Redis 源码下载失败" 1 ; exit; }



tar xf ${VERSION}.tar.gz
cd ${VERSION}
make -j 4 PREFIX=${INSTALL_DIR} install && color "Redis 编译安装完成" 0 || { color "Redis 编译安装失败" 1 ;exit ; }


ln -s ${INSTALL_DIR}/bin/redis-*  /usr/bin/
mkdir -p ${INSTALL_DIR}/{etc,log,data,run}
cp redis.conf  ${INSTALL_DIR}/etc/

sed -i -e 's/bind 127.0.0.1/bind 0.0.0.0/'  -e "/# requirepass/a requirepass $PASSWORD"  -e "/^dir .*/c dir ${INSTALL_DIR}/data/"  -e "/logfile .*/c logfile ${INSTALL_DIR}/log/redis-6379.log"  -e  "/^pidfile .*/c  pidfile ${INSTALL_DIR}/run/redis_6379.pid" ${INSTALL_DIR}/etc/redis.conf


if id redis &> /dev/null ;then 
    color "Redis 用户已存在" 1 
else
    useradd -r -s /sbin/nologin redis
    color "Redis 用户创建成功" 0
fi

chown -R redis.redis ${INSTALL_DIR}

cat >> /etc/sysctl.conf <<EOF
net.core.somaxconn = 1024
vm.overcommit_memory = 1
EOF
sysctl -p 

echo 'echo never > /sys/kernel/mm/transparent_hugepage/enabled' >> /etc/rc.d/rc.local
chmod +x /etc/rc.d/rc.local
/etc/rc.d/rc.local

cat > /usr/lib/systemd/system/redis.service <<EOF
[Unit]
Description=Redis persistent key-value database
After=network.target

[Service]
ExecStart=${INSTALL_DIR}/bin/redis-server ${INSTALL_DIR}/etc/redis.conf --supervised systemd
ExecStop=/bin/kill -s QUIT /$MAINPID
#Type=notify
User=redis
Group=redis
RuntimeDirectory=redis
RuntimeDirectoryMode=0755

[Install]
WantedBy=multi-user.target

EOF
systemctl daemon-reload 
systemctl enable --now  redis &> /dev/null && color "Redis 服务启动成功,Redis信息如下:"  0 || { color "Redis 启动失败" 1 ;exit; } 
sleep 2
redis-cli -a $PASSWORD INFO Server 2> /dev/null

}

install 

#运行脚本开始安装redis
[root@centos7-01 ~]# bash install_redis.sh 
#安装完成查看端口是否启动
[root@centos7-01 ~]# ss -ntl
State       Recv-Q Send-Q                Peer Address:Port         Local Address:Port                                                                             
LISTEN      0      511                   *:6379                    *:*    
...省略...


#修改主节点配置文件如下：
[root@centos7-01 ~]# vim /apps/redis/etc/redis.conf
masterauth 123456
requirepass 123456
#修改两个从节点配置文件如下：
[root@centos7-01 ~]# vim /apps/redis/etc/redis.conf
replicaof 10.0.0.131 6379 
masterauth 123456 
#重启redis
[root@centos7-01 ~]# systemctl restart redis
#在master节点查看查看主从复制状态如下内容:
[root@centos7-01 ~]# redis-cli -a 123456 info replication
Warning: Using a password with '-a' or '-u' option on the command line interface may not be safe.
# Replication
role:master
connected_slaves:2
slave0:ip=10.0.0.133,port=6379,state=online,offset=0,lag=1
slave1:ip=10.0.0.132,port=6379,state=online,offset=0,lag=1
master_failover_state:no-failover
master_replid:5ecf0dd2e3af50946750a2f892bc84b1a4d57d0f
master_replid2:0000000000000000000000000000000000000000
master_repl_offset:0
second_repl_offset:-1
repl_backlog_active:1
repl_backlog_size:1048576
repl_backlog_first_byte_offset:1
repl_backlog_histlen:0

#查看salve服务器1从节点状态
[root@centos7-02 ~]# redis-cli -a 123456 info replication
Warning: Using a password with '-a' or '-u' option on the command line interface may not be safe.
# Replication
role:slave
master_host:10.0.0.131
master_port:6379
master_link_status:up
master_last_io_seconds_ago:1
master_sync_in_progress:0
slave_repl_offset:504
slave_priority:100
slave_read_only:1
replica_announced:1
connected_slaves:0
master_failover_state:no-failover
master_replid:5ecf0dd2e3af50946750a2f892bc84b1a4d57d0f
master_replid2:0000000000000000000000000000000000000000
master_repl_offset:504
second_repl_offset:-1
repl_backlog_active:1
repl_backlog_size:1048576
repl_backlog_first_byte_offset:1
repl_backlog_histlen:504
#查看salve服务器2从节点状态
[root@centos7-03 ~]# redis-cli -a 123456 info replication
Warning: Using a password with '-a' or '-u' option on the command line interface may not be safe.
# Replication
role:slave
master_host:10.0.0.131
master_port:6379
master_link_status:up
master_last_io_seconds_ago:8
master_sync_in_progress:0
slave_repl_offset:560
slave_priority:100
slave_read_only:1
replica_announced:1
connected_slaves:0
master_failover_state:no-failover
master_replid:5ecf0dd2e3af50946750a2f892bc84b1a4d57d0f
master_replid2:0000000000000000000000000000000000000000
master_repl_offset:560
second_repl_offset:-1
repl_backlog_active:1
repl_backlog_size:1048576
repl_backlog_first_byte_offset:1
repl_backlog_histlen:560

编辑哨兵的配置文件

Sentinel实际上是一个特殊的redis服务器，有些redis指令支持，但很多指令并不支持。默认监听在26379/tcp端口

哨兵可以不和Redis服务器部署在一起，但一般部署在一起以节约成本

所有redis节点使用相同的以下示例的配置文件

#在master服务器源码目录有sentinel.conf，复制到安装目录即可，如:/apps/redis/etc/sentinel.conf
[root@centos7-01 ~]# cd redis-6.2.4
[root@centos7-01 redis-6.2.4]# ls
00-RELEASENOTES  CONDUCT       COPYING  INSTALL   MANIFESTO  redis.conf  runtest-cluster    runtest-sentinel  src    TLS.md
BUGS             CONTRIBUTING  deps     Makefile  README.md  runtest     runtest-moduleapi  sentinel.conf     tests  utils
#拷贝sentinel到目录
[root@centos7-01 redis-6.2.4]# cp sentinel.conf /apps/redis/etc/
#编辑sentinel文件
[root@centos7-01 redis-6.2.4]# vim /apps/redis/etc/sentinel.conf
bind 0.0.0.0
port 26379
daemonize yes
pidfile /apps/redis/run/redis-sentinel.pid
logfile /apps/redis/log/sentinel_26379.log
dir /tmp

sentinel monitor mymaster 10.0.0.131 6379 2
#mymaster是集群的名称，此行指定当前mymaster集群中master服务器的地址和端口
#2为法定人数限制(quorum)，即有几个sentinel认为master down了就进行故障转移，一般此值是所有sentinel节点(一般总数是>=3的奇数，如：3，5，7等)的一半以上的整数值，比如，总数是3，即3/2=1.5，取整为2，是master的ODOWN客观下线的依据

sentinel auth-pass mymaster 123456
#mymaster集群中master的密码，注意此行要在上面行的下面

sentinel down-after-milliseconds mymaster 3000
#(SDOWN)判断mymaster集群中所有节点的主观下线的时间，单位：毫秒，建议3000

sentinel parallel-syncs mymaster 1
#发生故障转移后，可以同时向新master同步数据的slave的数量，数字越小总同步时间越长，但可以减轻新master的负载压力

sentinel failover-timeout mymaster 180000
#所有slaves指向新的master所需的超时时间，单位：毫秒

sentinel deny-scripts-reconfig yes  #禁止修改脚本
#将配置文件拷贝到两台从节点上
[root@centos7-01 redis-6.2.4]# scp /apps/redis/etc/sentinel.conf 10.0.0.132:/apps/redis/etc/
[root@centos7-01 redis-6.2.4]# scp /apps/redis/etc/sentinel.conf 10.0.0.133:/apps/redis/etc/
#三个哨兵服务器的配置都如下
[root@centos7-01 redis-6.2.4]# grep -vE "^#|^$" /apps/redis/etc/sentinel.conf
bind 0.0.0.0
port 26379
daemonize yes
pidfile /apps/redis/run/redis-sentinel.pid
logfile "/apps/redis/log/sentinel_26379.log"
dir /tmp
sentinel monitor mymaster 10.0.0.131 6379 2
sentinel auth-pass mymaster 123456
sentinel down-after-milliseconds mymaster 3000
acllog-max-len 128
sentinel parallel-syncs mymaster 1
sentinel failover-timeout mymaster 180000
sentinel deny-scripts-reconfig yes
SENTINEL resolve-hostnames no
SENTINEL announce-hostnames no

#三台哨兵服务器都要启动
[root@centos7-01 redis-6.2.4]# vim /lib/systemd/system/redis-sentinel.service
[Unit]
Description=Redis Sentinel
After=network.target

[Service]
ExecStart=/apps/redis/bin/redis-sentinel /apps/redis/etc/sentinel.conf --supervised systemd

ExecStop=/bin/kill -s QUIT $MAINPID
User=redis
Group=redis
RuntimeDirectory=redis
RuntimeDirectoryMode=0755

[Install]
WantedBy=multi-user.target

#拷贝redis-sentinel.service到从服务器
[root@centos7-01 redis-6.2.4]# scp /lib/systemd/system/redis-sentinel.service 10.0.0.132:/lib/systemd/system/redis-sentinel.service
[root@centos7-01 redis-6.2.4]# scp /lib/systemd/system/redis-sentinel.service 10.0.0.133:/lib/systemd/system/redis-sentinel.service
#注意所有节点的目录权限，否则无法启动服务
[root@centos7-01 redis-6.2.4]# chown -R redis.redis /apps/redis/
[root@centos7-01 redis-6.2.4]# ll /apps/redis/etc/sentinel.conf
-rw-r--r-- 1 redis redis 13858 Jul  3 10:35 /apps/redis/etc/sentinel.conf

[root@centos7-02 redis-6.2.4]# chown -R redis.redis /apps/redis/
[root@centos7-02 redis-6.2.4]# ll /apps/redis/etc/sentinel.conf
-rw-r--r-- 1 redis redis 13858 Jul  3 10:35 /apps/redis/etc/sentinel.conf

[root@centos7-03 redis-6.2.4]# chown -R redis.redis /apps/redis/
[root@centos7-03 redis-6.2.4]# ll /apps/redis/etc/sentinel.conf
-rw-r--r-- 1 redis redis 13858 Jul  3 10:35 /apps/redis/etc/sentinel.conf
#所有节点重新加载配置文件
[root@centos7-01 ~]# systemctl daemon-reload
[root@centos7-02 ~]# systemctl daemon-reload
[root@centos7-03 ~]# systemctl daemon-reload
#如果是编译安装，在所有哨兵服务器执行下面操作启动哨兵
[root@centos7-01 redis-6.2.4]# /apps/redis/bin/redis-sentinel /apps/redis/etc/sentinel.conf
#所有节点都可以看到26379端口
[root@centos7-01 redis-6.2.4]# ss -ntl
State       Recv-Q Send-Q                       Peer Address:Port          Local Address:Port                                                                                    
LISTEN      0      511                             *:*                *:26379                               

#查看哨兵日志
[root@centos7-01 redis-6.2.4]# tail -f /apps/redis/log/sentinel_26379.log
7043:X 03 Jul 2022 10:46:05.337 # Configuration loaded
7043:X 03 Jul 2022 10:46:05.338 * Increased maximum number of open files to 10032 (it was originally set to 1024).
7043:X 03 Jul 2022 10:46:05.338 * monotonic clock: POSIX clock_gettime
7043:X 03 Jul 2022 10:46:05.339 * Running mode=sentinel, port=26379.
7043:X 03 Jul 2022 10:46:05.341 # Sentinel ID is 083f0611260042946e0766c35d1f7dbe7f991748
7043:X 03 Jul 2022 10:46:05.341 # +monitor master mymaster 10.0.0.131 6379 quorum 2
7043:X 03 Jul 2022 10:46:05.342 * +slave slave 10.0.0.133:6379 10.0.0.133 6379 @ mymaster 10.0.0.131 6379
7043:X 03 Jul 2022 10:46:05.344 * +slave slave 10.0.0.132:6379 10.0.0.132 6379 @ mymaster 10.0.0.131 6379
7043:X 03 Jul 2022 10:46:05.748 * +sentinel sentinel a99bf07a5f70522f095c742349f0bbed84516e51 10.0.0.132 26379 @ mymaster 10.0.0.131 6379
7043:X 03 Jul 2022 10:46:06.689 * +sentinel sentinel fa168d6a97026eb2216771164a3e8d5362298d7d 10.0.0.133 26379 @ mymaster 10.0.0.131 6379


slave的哨兵日志
[root@centos7-02 ~]# tail -f /apps/redis/log/sentinel_26379.log
5916:X 03 Jul 2022 10:46:01.632 # Configuration loaded
5916:X 03 Jul 2022 10:46:01.633 * Increased maximum number of open files to 10032 (it was originally set to 1024).
5916:X 03 Jul 2022 10:46:01.633 * monotonic clock: POSIX clock_gettime
5916:X 03 Jul 2022 10:46:01.634 * Running mode=sentinel, port=26379.
5916:X 03 Jul 2022 10:46:01.638 # Sentinel ID is a99bf07a5f70522f095c742349f0bbed84516e51
5916:X 03 Jul 2022 10:46:01.638 # +monitor master mymaster 10.0.0.131 6379 quorum 2
5916:X 03 Jul 2022 10:46:01.640 * +slave slave 10.0.0.133:6379 10.0.0.133 6379 @ mymaster 10.0.0.131 6379
5916:X 03 Jul 2022 10:46:01.641 * +slave slave 10.0.0.132:6379 10.0.0.132 6379 @ mymaster 10.0.0.131 6379
5916:X 03 Jul 2022 10:46:02.515 * +sentinel sentinel fa168d6a97026eb2216771164a3e8d5362298d7d 10.0.0.133 26379 @ mymaster 10.0.0.131 6379
5916:X 03 Jul 2022 10:46:07.261 * +sentinel sentinel 083f0611260042946e0766c35d1f7dbe7f991748 10.0.0.131 26379 @ mymaster 10.0.0.131 6379

#查看sentinel状态，在sentinel状态中尤其是最后一行，涉及到master IP是多少，有几个slave，有几个sentinels，必须是符合全部服务器数量

[root@centos7-01 redis-6.2.4]# redis-cli -p 26379 INFO sentinel
# Sentinel
sentinel_masters:1
sentinel_tilt:0
sentinel_running_scripts:0
sentinel_scripts_queue_length:0
sentinel_simulate_failure_flags:0
master0:name=mymaster,status=ok,address=10.0.0.131:6379,slaves=2,sentinels=3

#测试数据同步，主节点写入数据
[root@centos7-01 redis-6.2.4]# redis-cli
127.0.0.1:6379> AUTH 123456
OK
127.0.0.1:6379> set date 20220703
OK
#从节点查看数据
[root@centos7-02 ~]# redis-cli
127.0.0.1:6379> AUTH 123456
OK
127.0.0.1:6379> get date
"20220703"

[root@centos7-03 ~]# redis-cli
127.0.0.1:6379> AUTH 123456
OK
127.0.0.1:6379> get date
"20220703"


#停止主节点测试故障转移
[root@centos7-01 redis-6.2.4]# systemctl stop redis.service
#查看从节点上哨兵信息，发现已经转移到了10.0.0.132：
[root@centos7-02 ~]# redis-cli -p 26379 INFO sentinel
# Sentinel
sentinel_masters:1
sentinel_tilt:0
sentinel_running_scripts:0
sentinel_scripts_queue_length:0
sentinel_simulate_failure_flags:0
master0:name=mymaster,status=ok,address=10.0.0.132:6379,slaves=2,sentinels=3

#故障转移时sentinel的信息：
[root@centos7-02 ~]# tail -f /apps/redis/log/sentinel_26379.log
5916:X 03 Jul 2022 10:54:54.423 # +sdown master mymaster 10.0.0.131 6379
5916:X 03 Jul 2022 10:54:54.524 # +new-epoch 1
5916:X 03 Jul 2022 10:54:54.525 # +vote-for-leader 083f0611260042946e0766c35d1f7dbe7f991748 1
5916:X 03 Jul 2022 10:54:55.552 # +odown master mymaster 10.0.0.131 6379 #quorum 3/2
5916:X 03 Jul 2022 10:54:55.553 # Next failover delay: I will not start a failover before Sun Jul  3 11:00:55 2022
5916:X 03 Jul 2022 10:54:55.685 # +config-update-from sentinel 083f0611260042946e0766c35d1f7dbe7f991748 10.0.0.131 26379 @ mymaster 10.0.0.131 6379
5916:X 03 Jul 2022 10:54:55.685 # +switch-master mymaster 10.0.0.131 6379 10.0.0.132 6379
5916:X 03 Jul 2022 10:54:55.686 * +slave slave 10.0.0.133:6379 10.0.0.133 6379 @ mymaster 10.0.0.132 6379
5916:X 03 Jul 2022 10:54:55.686 * +slave slave 10.0.0.131:6379 10.0.0.131 6379 @ mymaster 10.0.0.132 6379
5916:X 03 Jul 2022 10:54:58.730 # +sdown slave 10.0.0.131:6379 10.0.0.131 6379 @ mymaster 10.0.0.132 6379

#故障转移后哨兵配置文件的sentinel monitor IP 会被修改
[root@centos7-02]# grep "monitor mymaster" /apps/redis/etc/sentinel.conf
sentinel monitor mymaster 10.0.0.132 6379 2  #自动修改此行

[root@centos7-03]# grep "monitor mymaster" /apps/redis/etc/sentinel.conf
sentinel monitor mymaster 10.0.0.132 6379 2

[root@centos7-01]# grep "monitor mymaster" /apps/redis/etc/sentinel.conf
sentinel monitor mymaster 10.0.0.132 6379 2

#查看当前 redis状态
#新的master 状态
[root@centos7-02 ~]#  redis-cli -a 123456 info replication
Warning: Using a password with '-a' or '-u' option on the command line interface may not be safe.
# Replication
role:master
connected_slaves:2
slave0:ip=10.0.0.133,port=6379,state=online,offset=286899,lag=0
slave1:ip=10.0.0.131,port=6379,state=online,offset=286764,lag=1
master_failover_state:no-failover
master_replid:43391e35ece748aa653500c971b8dca36d388161
master_replid2:5ecf0dd2e3af50946750a2f892bc84b1a4d57d0f
master_repl_offset:286899
second_repl_offset:108246
repl_backlog_active:1
repl_backlog_size:1048576
repl_backlog_first_byte_offset:1
repl_backlog_histlen:286899



#恢复故障的原master重新加入redis集群
#启动redis
[root@centos7-01 redis-6.2.4]# systemctl start redis.service
#查看状态，目前role:slave，主节点指向了10.0.0.132
[root@centos7-01 redis-6.2.4]# redis-cli -a 123456 info replication
Warning: Using a password with '-a' or '-u' option on the command line interface may not be safe.
# Replication
role:slave
master_host:10.0.0.132
master_port:6379
master_link_status:up
master_last_io_seconds_ago:0
master_sync_in_progress:0
slave_repl_offset:274800
slave_priority:100
slave_read_only:1
replica_announced:1
connected_slaves:0
master_failover_state:no-failover
master_replid:43391e35ece748aa653500c971b8dca36d388161
master_replid2:0000000000000000000000000000000000000000
master_repl_offset:274800
second_repl_offset:-1
repl_backlog_active:1
repl_backlog_size:1048576
repl_backlog_first_byte_offset:231554
repl_backlog_histlen:43247

[root@centos7-01 redis-6.2.4]# redis-cli -p 26379 INFO sentinel
# Sentinel
sentinel_masters:1
sentinel_tilt:0
sentinel_running_scripts:0
sentinel_scripts_queue_length:0
sentinel_simulate_failure_flags:0
master0:name=mymaster,status=ok,address=10.0.0.132:6379,slaves=2,sentinels=3

4、简述redis集群的实现原理

在哨兵sentinel机制中，可以解决redis高可用问题，即当master故障后可以自动将slave提升为master，从而可以保证redis服务的正常使用，但是无法解决redis单机写入的瓶颈问题，即单机redis写入性能受限于单机的内存大小、并发数量、网卡速率等因素。

早期Redis 分布式集群部署方案：

客户端分区：由客户端程序决定key写分配和写入的redis node，但是需要客户端自己处理写入分配、高可用管理和故障转移等
代理方案：基于三方软件实现redis proxy，客户端先连接之代理层，由代理层实现key的写入分配，对客户端来说是有比较简单，但是对于集群管节点增减相对比较麻烦，而且代理本身也是单点和性能瓶颈。

redis 3.0版本之后推出了无中心架构的redis cluster机制，在无中心的redis集群当中，其每个节点保存当前节点数据和整个集群状态,每个节点都和其他所有节点连接

Redis Cluster特点如下：

所有Redis节点使用(PING机制)互联
集群中某个节点的是否失效，是由整个集群中超过半数的节点监测都失效，才能算真正的失效
客户端不需要proxy即可直接连接redis，应用程序中需要配置有全部的redis服务器IP
redis cluster把所有的redis node 平均映射到 0-16383个槽位(slot)上，读写需要到指定的redis node上进行操作，因此有多少个redis node相当于redis 并发扩展了多少倍，每个redis node 承担16384/N个槽位
Redis cluster预先分配16384个(slot)槽位，当需要在redis集群中写入一个key -value的时候，会使用CRC16(key) mod 16384之后的值，决定将key写入值哪一个槽位从而决定写入哪一个Redis节点上，从而有效解决单机瓶颈。

5、基于redis5的redis cluster部署

关闭防火墙 systemctl disable --now firewalld

系统版本 CentOS 7.9

redis服务器1 10.0.0.131（主机名：node1）

redis服务器2 10.0.0.132（主机名：node2）

redis服务器3 10.0.0.133（主机名：node3）

redis服务器4 10.0.0.134（主机名：node4）

redis服务器5 10.0.0.135（主机名：node5）

redis服务器6 10.0.0.136（主机名：node6）

部署redis

#安装需要wget包
[root@node1 ~]# yum -y install wget
#在所有节点都脚本编译安装redis-5.0.3
[root@node1 ~]# ls
install_redis.sh
[root@node1 ~]# cat install_redis.sh 
#!/bin/bash
VERSION=redis-5.0.3
PASSWORD=123456
INSTALL_DIR=/apps/redis

color () {
    RES_COL=60
    MOVE_TO_COL="echo -en //033[${RES_COL}G"
    SETCOLOR_SUCCESS="echo -en //033[1;32m"
    SETCOLOR_FAILURE="echo -en //033[1;31m"
    SETCOLOR_WARNING="echo -en //033[1;33m"
    SETCOLOR_NORMAL="echo -en /E[0m"
    echo -n "$1" && $MOVE_TO_COL
    echo -n "["
    if [ $2 = "success" -o $2 = "0" ] ;then
        ${SETCOLOR_SUCCESS}
        echo -n $"  OK  "    
    elif [ $2 = "failure" -o $2 = "1"  ] ;then 
        ${SETCOLOR_FAILURE}
        echo -n $"FAILED"
    else
        ${SETCOLOR_WARNING}
        echo -n $"WARNING"
    fi
    ${SETCOLOR_NORMAL}
    echo -n "]"
    echo 
}


install() {
yum  -y install gcc jemalloc-devel || { color "安装软件包失败，请检查网络配置" 1 ; exit; }

wget http://download.redis.io/releases/${VERSION}.tar.gz || { color "Redis 源码下载失败" 1 ; exit; }



tar xf ${VERSION}.tar.gz
cd ${VERSION}
make -j 4 PREFIX=${INSTALL_DIR} install && color "Redis 编译安装完成" 0 || { color "Redis 编译安装失败" 1 ;exit ; }


ln -s ${INSTALL_DIR}/bin/redis-*  /usr/bin/
mkdir -p ${INSTALL_DIR}/{etc,log,data,run}
cp redis.conf  ${INSTALL_DIR}/etc/

sed -i -e 's/bind 127.0.0.1/bind 0.0.0.0/'  -e "/# requirepass/a requirepass $PASSWORD"  -e "/^dir .*/c dir ${INSTALL_DIR}/data/"  -e "/logfile .*/c logfile ${INSTALL_DIR}/log/redis-6379.log"  -e  "/^pidfile .*/c  pidfile ${INSTALL_DIR}/run/redis_6379.pid" ${INSTALL_DIR}/etc/redis.conf


if id redis &> /dev/null ;then 
    color "Redis 用户已存在" 1 
else
    useradd -r -s /sbin/nologin redis
    color "Redis 用户创建成功" 0
fi

chown -R redis.redis ${INSTALL_DIR}

cat >> /etc/sysctl.conf <<EOF
net.core.somaxconn = 1024
vm.overcommit_memory = 1
EOF
sysctl -p 

echo 'echo never > /sys/kernel/mm/transparent_hugepage/enabled' >> /etc/rc.d/rc.local
chmod +x /etc/rc.d/rc.local
/etc/rc.d/rc.local

cat > /usr/lib/systemd/system/redis.service <<EOF
[Unit]
Description=Redis persistent key-value database
After=network.target

[Service]
ExecStart=${INSTALL_DIR}/bin/redis-server ${INSTALL_DIR}/etc/redis.conf --supervised systemd
ExecStop=/bin/kill -s QUIT /$MAINPID
#Type=notify
User=redis
Group=redis
RuntimeDirectory=redis
RuntimeDirectoryMode=0755

[Install]
WantedBy=multi-user.target

EOF
systemctl daemon-reload 
systemctl enable --now  redis &> /dev/null && color "Redis 服务启动成功,Redis信息如下:"  0 || { color "Redis 启动失败" 1 ;exit; } 
sleep 2
redis-cli -a $PASSWORD INFO Server 2> /dev/null

}

install 

#运行脚本开始安装redis
[root@node1 ~]# bash install_redis.sh 
#安装完成查看端口是否启动
[root@node1 ~]# ss -ntl
State       Recv-Q Send-Q                Peer Address:Port         Local Address:Port                                                                             
LISTEN      0      511                   *:6379                    *:*    
...省略...

配置redis cluster

[root@node1 ~]# redis-server --version
Redis server v=5.0.3 sha=00000000:0 malloc=jemalloc-5.1.0 bits=64 build=5fc1b390c8531b09
#每个节点修改redis配置，必须开启cluster功能的参数
#执行下面命令，批量修改
[root@node1 ~]# sed -i.bak -e '/masterauth/a masterauth 123456' -e '/# cluster-enabled yes/a cluster-enabled yes' -e '/# cluster-config-file nodes-6379.conf/a cluster-config-file nodes-6379.conf' -e '/cluster-require-full-coverage yes/ccluster-require-full-coverage no' /apps/redis/etc/redis.conf

#重新加载配置文件
[root@node1 ~]# systemctl daemon-reload

#重启redis服务
[root@node1 ~]# systemctl restart redis.service
[root@node1 ~]# ss -ntl
State       Recv-Q Send-Q                  Peer Address:Port                  Local Address:Port       
LISTEN      0      511                        *:*                              *:16379            
#注意进程有[cluster]状态
[root@node1 ~]# ps aux|grep redis
redis      5850  0.2  0.1 153980  3  Ssl  20:17   0:00 /apps/redis/bin/redis-server 0.0.0.0:6379 [cluster]
root       5858  0.0  0.0 112808   968 pts/0    S+   20:19   0:00 grep --color=auto redis

创建集群

#命令redis-cli的选项 --cluster-replicas 1 表示每个master对应一个slave节点
[root@node1 ~]# redis-cli -a 123456 --cluster create 10.0.0.131:6379 10.0.0.132:6379 10.0.0.133:6379 10.0.0.134:6379 10.0.0.135:6379 10.0.0.136:6379 --cluster-replicas 1
Warning: Using a password with '-a' or '-u' option on the command line interface may not be safe.
>>> Performing hash slots allocation on 6 nodes...
Master[0] -> Slots 0 - 5460
Master[1] -> Slots 5461 - 10922
Master[2] -> Slots 10923 - 16383
Adding replica 10.0.0.134:6379 to 10.0.0.131:6379
Adding replica 10.0.0.135:6379 to 10.0.0.132:6379
Adding replica 10.0.0.136:6379 to 10.0.0.133:6379
M: 13466080cae98b5e86eb6a1a3444c96d4e3110ec 10.0.0.131:6379    #带M的为master
   slots:[0-5460] (5461 slots) master                          #当前master的槽位起始和结束位
M: 0bed8d397b9288b0f78dfbbd1abd93e99dddc709 10.0.0.132:6379
   slots:[5461-10922] (5462 slots) master
M: 001cee9baf30a2d16f210789e0032fd2d0c595b7 10.0.0.133:6379
   slots:[10923-16383] (5461 slots) master
S: 1e934bf301f2ffc08e6fbbdbcc7caab3b1040e8f 10.0.0.134:6379    #带S的slave
   replicates 13466080cae98b5e86eb6a1a3444c96d4e3110ec
S: 4fa633be7f5dce581040067b31af15a735144940 10.0.0.135:6379
   replicates 0bed8d397b9288b0f78dfbbd1abd93e99dddc709
S: b6e1bbd3c09a73bdb756e4b066d8215af2a0763a 10.0.0.136:6379
   replicates 001cee9baf30a2d16f210789e0032fd2d0c595b7
Can I set the above configuration? (type 'yes' to accept): yes #输入yes自动创建集群
>>> Nodes configuration updated
>>> Assign a different config epoch to each node
>>> Sending CLUSTER MEET messages to join the cluster
Waiting for the cluster to join
........
>>> Performing Cluster Check (using node 10.0.0.131:6379)
M: 13466080cae98b5e86eb6a1a3444c96d4e3110ec 10.0.0.131:6379
   slots:[0-5460] (5461 slots) master
   1 additional replica(s)
M: 001cee9baf30a2d16f210789e0032fd2d0c595b7 10.0.0.133:6379
   slots:[10923-16383] (5461 slots) master                     #已经分配的槽位
   1 additional replica(s)                                     #分配了一个slave
S: 4fa633be7f5dce581040067b31af15a735144940 10.0.0.135:6379
   slots: (0 slots) slave                                      #slave没有分配槽位
   replicates 0bed8d397b9288b0f78dfbbd1abd93e99dddc709         #对应的master的10.0.0.132的ID   
S: b6e1bbd3c09a73bdb756e4b066d8215af2a0763a 10.0.0.136:6379
   slots: (0 slots) slave
   replicates 001cee9baf30a2d16f210789e0032fd2d0c595b7         #对应的master的10.0.0.133的ID
M: 0bed8d397b9288b0f78dfbbd1abd93e99dddc709 10.0.0.132:6379
   slots:[5461-10922] (5462 slots) master
   1 additional replica(s)
S: 1e934bf301f2ffc08e6fbbdbcc7caab3b1040e8f 10.0.0.134:6379
   slots: (0 slots) slave
   replicates 13466080cae98b5e86eb6a1a3444c96d4e3110ec         #对应的master的10.0.0.131的ID
[OK] All nodes agree about slots configuration.                #所有节点槽位分配完成
>>> Check for open slots...                                    #检查打开的槽位
>>> Check slots coverage...                                    #检查插槽覆盖范围
[OK] All 16384 slots covered.                                  #所有槽位(16384个)分配完成

#观察以上结果，可以看到3组master/slave
#master:10.0.0.131---slave:10.0.0.134
#master:10.0.0.132---slave:10.0.0.135
#master:10.0.0.133---slave:10.0.0.136

查看六台服务器的主从状态

[root@node1 ~]# redis-cli -a 123456 -c INFO replication
Warning: Using a password with '-a' or '-u' option on the command line interface may not be safe.
# Replication
role:master
connected_slaves:1
slave0:ip=10.0.0.134,port=6379,state=online,offset=588,lag=1
master_replid:466d2c27ec444c6029568fc5c2061b0c42624b63
master_replid2:0000000000000000000000000000000000000000
master_repl_offset:588
second_repl_offset:-1
repl_backlog_active:1
repl_backlog_size:1048576
repl_backlog_first_byte_offset:1
repl_backlog_histlen:588

[root@node2 ~]# redis-cli -a 123456 INFO replication
Warning: Using a password with '-a' or '-u' option on the command line interface may not be safe.
# Replication
role:master
connected_slaves:1
slave0:ip=10.0.0.135,port=6379,state=online,offset=672,lag=0
master_replid:cd2d0407eb96492af69adcfee231ee1b4c3d6136
master_replid2:0000000000000000000000000000000000000000
master_repl_offset:672
second_repl_offset:-1
repl_backlog_active:1
repl_backlog_size:1048576
repl_backlog_first_byte_offset:1
repl_backlog_histlen:672

[root@node3 ~]# redis-cli -a 123456 INFO replication
Warning: Using a password with '-a' or '-u' option on the command line interface may not be safe.
# Replication
role:master
connected_slaves:1
slave0:ip=10.0.0.136,port=6379,state=online,offset=700,lag=1
master_replid:bae53e2d5fa70c1c6f3e9c209cb1a1470f180996
master_replid2:0000000000000000000000000000000000000000
master_repl_offset:700
second_repl_offset:-1
repl_backlog_active:1
repl_backlog_size:1048576
repl_backlog_first_byte_offset:1
repl_backlog_histlen:700

[root@node4 ~]# redis-cli -a 123456 INFO replication
Warning: Using a password with '-a' or '-u' option on the command line interface may not be safe.
# Replication
role:slave
master_host:10.0.0.131
master_port:6379
master_link_status:up
master_last_io_seconds_ago:3
master_sync_in_progress:0
slave_repl_offset:756
slave_priority:100
slave_read_only:1
connected_slaves:0
master_replid:466d2c27ec444c6029568fc5c2061b0c42624b63
master_replid2:0000000000000000000000000000000000000000
master_repl_offset:756
second_repl_offset:-1
repl_backlog_active:1
repl_backlog_size:1048576
repl_backlog_first_byte_offset:1
repl_backlog_histlen:756


[root@node5 ~]# redis-cli -a 123456 INFO replication
Warning: Using a password with '-a' or '-u' option on the command line interface may not be safe.
# Replication
role:slave
master_host:10.0.0.132
master_port:6379
master_link_status:up
master_last_io_seconds_ago:9
master_sync_in_progress:0
slave_repl_offset:784
slave_priority:100
slave_read_only:1
connected_slaves:0
master_replid:cd2d0407eb96492af69adcfee231ee1b4c3d6136
master_replid2:0000000000000000000000000000000000000000
master_repl_offset:784
second_repl_offset:-1
repl_backlog_active:1
repl_backlog_size:1048576
repl_backlog_first_byte_offset:1
repl_backlog_histlen:784


[root@node6 ~]# redis-cli -a 123456 INFO replication
Warning: Using a password with '-a' or '-u' option on the command line interface may not be safe.
# Replication
role:slave
master_host:10.0.0.133
master_port:6379
master_link_status:up
master_last_io_seconds_ago:5
master_sync_in_progress:0
slave_repl_offset:812
slave_priority:100
slave_read_only:1
connected_slaves:0
master_replid:bae53e2d5fa70c1c6f3e9c209cb1a1470f180996
master_replid2:0000000000000000000000000000000000000000
master_repl_offset:812
second_repl_offset:-1
repl_backlog_active:1
repl_backlog_size:1048576
repl_backlog_first_byte_offset:1
repl_backlog_histlen:812

#查看集群node对应关系

[root@node6 ~]# redis-cli -a 123456  cluster nodes
Warning: Using a password with '-a' or '-u' option on the command line interface may not be safe.
4fa633be7f5dce581040067b31af15a735144940 10.0.0.135:6379@16379 slave 0bed8d397b9288b0f78dfbbd1abd93e99dddc709 0 1656880556608 5 connected
1e934bf301f2ffc08e6fbbdbcc7caab3b1040e8f 10.0.0.134:6379@16379 slave 13466080cae98b5e86eb6a1a3444c96d4e3110ec 0 1656880557622 4 connected
b6e1bbd3c09a73bdb756e4b066d8215af2a0763a 10.0.0.136:6379@16379 myself,slave 001cee9baf30a2d16f210789e0032fd2d0c595b7 0 1656880555000 6 connected
001cee9baf30a2d16f210789e0032fd2d0c595b7 10.0.0.133:6379@16379 master - 0 1656880556000 3 connected 10923-16383
0bed8d397b9288b0f78dfbbd1abd93e99dddc709 10.0.0.132:6379@16379 master - 0 1656880557000 2 connected 5461-10922
13466080cae98b5e86eb6a1a3444c96d4e3110ec 10.0.0.131:6379@16379 master - 0 1656880556000 1 connected 0-5460

验证集群状态

[root@node6 ~]# redis-cli -a 123456 CLUSTER INFO
Warning: Using a password with '-a' or '-u' option on the command line interface may not be safe.
cluster_state:ok
cluster_slots_assigned:16384
cluster_slots_ok:16384
cluster_slots_pfail:0
cluster_slots_fail:0
cluster_known_nodes:6   #6个节点
cluster_size:3          #3个集群
cluster_current_epoch:6
cluster_my_epoch:3
cluster_stats_messages_ping_sent:672
cluster_stats_messages_pong_sent:646
cluster_stats_messages_meet_sent:5
cluster_stats_messages_sent:1323
cluster_stats_messages_ping_received:646
cluster_stats_messages_pong_received:677
cluster_stats_messages_received:1323
#查看任意节点的集群状态
[root@node5 ~]# redis-cli -a 123456 --cluster info 10.0.0.135:6379
Warning: Using a password with '-a' or '-u' option on the command line interface may not be safe.
10.0.0.133:6379 (001cee9b...) -> 0 keys | 5461 slots | 1 slaves.
10.0.0.132:6379 (0bed8d39...) -> 0 keys | 5462 slots | 1 slaves.
10.0.0.131:6379 (13466080...) -> 0 keys | 5461 slots | 1 slaves.
[OK] 0 keys in 3 masters.
0.00 keys per slot on average.

#查看集群状态文件
[root@node5 ~]# cat /apps/redis/data/nodes-6379.conf
4fa633be7f5dce581040067b31af15a735144940 10.0.0.135:6379@16379 myself,slave 0bed8d397b9288b0f78dfbbd1abd93e99dddc709 0 1656879927000 5 connected
001cee9baf30a2d16f210789e0032fd2d0c595b7 10.0.0.133:6379@16379 master - 0 1656879924000 3 connected 10923-16383
0bed8d397b9288b0f78dfbbd1abd93e99dddc709 10.0.0.132:6379@16379 master - 0 1656879927000 2 connected 5461-10922
13466080cae98b5e86eb6a1a3444c96d4e3110ec 10.0.0.131:6379@16379 master - 0 1656879928000 1 connected 0-5460
b6e1bbd3c09a73bdb756e4b066d8215af2a0763a 10.0.0.136:6379@16379 slave 001cee9baf30a2d16f210789e0032fd2d0c595b7 0 1656879928768 6 connected
1e934bf301f2ffc08e6fbbdbcc7caab3b1040e8f 10.0.0.134:6379@16379 slave 13466080cae98b5e86eb6a1a3444c96d4e3110ec 0 1656879925000 4 connected
vars currentEpoch 6 lastVoteEpoch 0

模拟master故障，对应的slave节点自动提升为新master

[root@node1 ~]# redis-cli -a 123456 -c INFO replication
Warning: Using a password with '-a' or '-u' option on the command line interface may not be safe.
# Replication
role:master
connected_slaves:1
slave0:ip=10.0.0.134,port=6379,state=online,offset=1120,lag=0
master_replid:466d2c27ec444c6029568fc5c2061b0c42624b63
master_replid2:0000000000000000000000000000000000000000
master_repl_offset:1120
second_repl_offset:-1
repl_backlog_active:1
repl_backlog_size:1048576
repl_backlog_first_byte_offset:1
repl_backlog_histlen:1120
#模拟node1节点出故障，需要相应的数秒故障转移时间
[root@node1 ~]# redis-cli -a 123456  shutdown
[root@node1 ~]# tail -f /apps/redis/log/redis-6379.log
5850:M 03 Jul 2022 20:25:27.576 * Background saving started by pid 5863
5863:C 03 Jul 2022 20:25:27.579 * DB saved on disk
5863:C 03 Jul 2022 20:25:27.580 * RDB: 0 MB of memory used by copy-on-write
5850:M 03 Jul 2022 20:25:27.612 * Background saving terminated with success
5850:M 03 Jul 2022 20:25:27.613 * Synchronization with replica 10.0.0.134:6379 succeeded
5850:M 03 Jul 2022 20:39:45.801 # User requested shutdown...
5850:M 03 Jul 2022 20:39:45.801 * Saving the final RDB snapshot before exiting.
5850:M 03 Jul 2022 20:39:45.801 * DB saved on disk
5850:M 03 Jul 2022 20:39:45.801 * Removing the pid file.
5850:M 03 Jul 2022 20:39:45.802 # Redis is now ready to exit, bye bye...
#查看集群node对应关系
[root@node4 ~]# redis-cli -a 123456  cluster nodes
Warning: Using a password with '-a' or '-u' option on the command line interface may not be safe.
001cee9baf30a2d16f210789e0032fd2d0c595b7 10.0.0.133:6379@16379 master - 0 1656880839163 3 connected 10923-16383
4fa633be7f5dce581040067b31af15a735144940 10.0.0.135:6379@16379 slave 0bed8d397b9288b0f78dfbbd1abd93e99dddc709 0 1656880838135 5 connected
1e934bf301f2ffc08e6fbbdbcc7caab3b1040e8f 10.0.0.134:6379@16379 myself,master - 0 1656880839000 7 connected 0-5460
13466080cae98b5e86eb6a1a3444c96d4e3110ec 10.0.0.131:6379@16379 master,fail - 1656880785519 1656880783000 1 disconnected
0bed8d397b9288b0f78dfbbd1abd93e99dddc709 10.0.0.132:6379@16379 master - 0 1656880838000 2 connected 5461-10922
b6e1bbd3c09a73bdb756e4b066d8215af2a0763a 10.0.0.136:6379@16379 slave 001cee9baf30a2d16f210789e0032fd2d0c595b7 0 1656880840185 6 connected
#10.0.0.134自动提升为新的master
[root@node4 ~]# redis-cli -a 123456 INFO replication
Warning: Using a password with '-a' or '-u' option on the command line interface may not be safe.
# Replication
role:master
connected_slaves:0
master_replid:40dc16bb51ac8230e511b1edfaa7e572ef54823e
master_replid2:466d2c27ec444c6029568fc5c2061b0c42624b63
master_repl_offset:1176
second_repl_offset:1177
repl_backlog_active:1
repl_backlog_size:1048576
repl_backlog_first_byte_offset:1
repl_backlog_histlen:1176
[root@node4 ~]# tail -f /apps/redis/log/redis-6379.log
6575:S 03 Jul 2022 20:40:00.965 * FAIL message received from 0bed8d397b9288b0f78dfbbd1abd93e99dddc709 about 13466080cae98b5e86eb6a1a3444c96d4e3110ec
6575:S 03 Jul 2022 20:40:00.987 # Start of election delayed for 538 milliseconds (rank #0, offset 1176).
6575:S 03 Jul 2022 20:40:01.292 * Connecting to MASTER 10.0.0.131:6379
6575:S 03 Jul 2022 20:40:01.293 * MASTER <-> REPLICA sync started
6575:S 03 Jul 2022 20:40:01.293 # Error condition on socket for SYNC: Connection refused
6575:S 03 Jul 2022 20:40:01.600 # Starting a failover election for epoch 7.
6575:S 03 Jul 2022 20:40:01.607 # Failover election won: I'm the new master.
6575:S 03 Jul 2022 20:40:01.607 # configEpoch set to 7 after successful failover
6575:M 03 Jul 2022 20:40:01.607 # Setting secondary replication ID to 466d2c27ec444c6029568fc5c2061b0c42624b63, valid up to offset: 1177. New replication ID is 40dc16bb51ac8230e511b1edfaa7e572ef54823e
6575:M 03 Jul 2022 20:40:01.608 * Discarding previously cached master state.
#查看集群状态文件10.0.0.131:6379@16379 master,fail
[root@node4 ~]# cat /apps/redis/data/nodes-6379.conf
001cee9baf30a2d16f210789e0032fd2d0c595b7 10.0.0.133:6379@16379 master - 0 1656880801193 3 connected 10923-16383
4fa633be7f5dce581040067b31af15a735144940 10.0.0.135:6379@16379 slave 0bed8d397b9288b0f78dfbbd1abd93e99dddc709 0 1656880800000 5 connected
1e934bf301f2ffc08e6fbbdbcc7caab3b1040e8f 10.0.0.134:6379@16379 myself,master - 0 1656880799000 7 connected 0-5460
13466080cae98b5e86eb6a1a3444c96d4e3110ec 10.0.0.131:6379@16379 master,fail - 1656880785519 1656880783000 1 disconnected
0bed8d397b9288b0f78dfbbd1abd93e99dddc709 10.0.0.132:6379@16379 master - 0 1656880800178 2 connected 5461-10922
b6e1bbd3c09a73bdb756e4b066d8215af2a0763a 10.0.0.136:6379@16379 slave 001cee9baf30a2d16f210789e0032fd2d0c595b7 0 1656880799000 6 connected
vars currentEpoch 7 lastVoteEpoch 0

恢复故障节点node1可以自动成为slave节点

[root@node1 ~]# systemctl start redis
#查看集群状态文件，可以查看node1自动成为slave节点，10.0.0.131:6379@16379 myself,slave 
[root@node1 ~]# cat /apps/redis/data/nodes-6379.conf
001cee9baf30a2d16f210789e0032fd2d0c595b7 10.0.0.133:6379@16379 master - 0 1656881054170 3 connected 10923-16383
0bed8d397b9288b0f78dfbbd1abd93e99dddc709 10.0.0.132:6379@16379 master - 0 1656881054170 2 connected 5461-10922
b6e1bbd3c09a73bdb756e4b066d8215af2a0763a 10.0.0.136:6379@16379 slave 001cee9baf30a2d16f210789e0032fd2d0c595b7 0 1656881054170 6 connected
13466080cae98b5e86eb6a1a3444c96d4e3110ec 10.0.0.131:6379@16379 myself,slave 1e934bf301f2ffc08e6fbbdbcc7caab3b1040e8f 0 1656881054166 1 connected
1e934bf301f2ffc08e6fbbdbcc7caab3b1040e8f 10.0.0.134:6379@16379 master - 0 1656881054171 7 connected 0-5460
4fa633be7f5dce581040067b31af15a735144940 10.0.0.135:6379@16379 slave 0bed8d397b9288b0f78dfbbd1abd93e99dddc709 0 1656881054171 5 connected
vars currentEpoch 7 lastVoteEpoch 0
#自动变为10.0.0.134的slave
[root@node1 ~]# redis-cli -a 123456 INFO replication
Warning: Using a password with '-a' or '-u' option on the command line interface may not be safe.
# Replication
role:slave
master_host:10.0.0.134
master_port:6379
master_link_status:up
master_last_io_seconds_ago:3
master_sync_in_progress:0
slave_repl_offset:1260
slave_priority:100
slave_read_only:1
connected_slaves:0
master_replid:40dc16bb51ac8230e511b1edfaa7e572ef54823e
master_replid2:0000000000000000000000000000000000000000
master_repl_offset:1260
second_repl_offset:-1
repl_backlog_active:1
repl_backlog_size:1048576
repl_backlog_first_byte_offset:1177
repl_backlog_histlen:84
#查看集群node对应关系
[root@node1 ~]# redis-cli -a 123456  cluster nodes
Warning: Using a password with '-a' or '-u' option on the command line interface may not be safe.
001cee9baf30a2d16f210789e0032fd2d0c595b7 10.0.0.133:6379@16379 master - 0 1656881195000 3 connected 10923-16383
0bed8d397b9288b0f78dfbbd1abd93e99dddc709 10.0.0.132:6379@16379 master - 0 1656881196832 2 connected 5461-10922
b6e1bbd3c09a73bdb756e4b066d8215af2a0763a 10.0.0.136:6379@16379 slave 001cee9baf30a2d16f210789e0032fd2d0c595b7 0 1656881197848 6 connected
13466080cae98b5e86eb6a1a3444c96d4e3110ec 10.0.0.131:6379@16379 myself,slave 1e934bf301f2ffc08e6fbbdbcc7caab3b1040e8f 0 1656881195000 1 connected
1e934bf301f2ffc08e6fbbdbcc7caab3b1040e8f 10.0.0.134:6379@16379 master - 0 1656881195816 7 connected 0-5460
4fa633be7f5dce581040067b31af15a735144940 10.0.0.135:6379@16379 slave 0bed8d397b9288b0f78dfbbd1abd93e99dddc709 0 1656881197000 5 connected

6、部署Zabbix监控

关闭防火墙 systemctl disable --now firewalld

系统版本 CentOS 7.9

Zabbix服务器 10.0.0.131（主机名：node1）

数据库服务器 10.0.0.132（主机名：node2）

数据库服务器安装MariaDB 10.5.16

#yum源配置
[root@node2 ~]# vim /etc/yum.repos.d/mariadb.repo
[mariadb]
name = MariaDB
baseurl = https://mirrors.nju.edu.cn/mariadb/yum/10.5/centos7-amd64
gpgkey=https://mirrors.nju.edu.cn/mariadb/yum/RPM-GPG-KEY-MariaDB
gpgcheck=1
#安装mysql数据库
yum -y install mariadb-server
#启动数据库
[root@node2 ~]# systemctl start  mysqld
#创建初始数据库
[root@node2 ~]# mysql
Welcome to the MariaDB monitor.  Commands end with ; or /g.
Your MariaDB connection id is 5
Server version: 10.5.16-MariaDB MariaDB Server

Copyright (c) 2000, 2018, Oracle, MariaDB Corporation Ab and others.

Type 'help;' or '/h' for help. Type '/c' to clear the current input statement.

MariaDB [(none)]>  create database zabbix character set utf8 collate utf8_bin;
Query OK, 1 row affected (0.000 sec)

MariaDB [(none)]> create user zabbix@'10.0.0.%' identified by 'zabbix';
Query OK, 0 rows affected (0.001 sec)

MariaDB [(none)]> grant all privileges on zabbix.* to zabbix@'10.0.0.%';
Query OK, 0 rows affected (0.001 sec)

MariaDB [(none)]> FLUSH PRIVILEGES;
Query OK, 0 rows affected (0.000 sec)
MariaDB [(none)]> quit
Bye
#重启数据库
[root@node2 ~]# systemctl restart mysqld.service

安装zabbix

[root@node1 ~]# rpm -Uvh https://mirrors.aliyun.com/zabbix/zabbix/5.0/rhel/7/x86_64/zabbix-release-5.0-1.el7.noarch.rpm
[root@node1 ~]# rpm -Uvh https://mirrors.aliyun.com/zabbix/zabbix/5.0/rhel/7/x86_64/zabbix-release-5.0-1.el7.noarch.rpm
Retrieving https://mirrors.aliyun.com/zabbix/zabbix/5.0/rhel/7/x86_64/zabbix-release-5.0-1.el7.noarch.rpm
warning: /var/tmp/rpm-tmp.lBeUuA: Header V4 RSA/SHA512 Signature, key ID a14fe591: NOKEY
Preparing...                          ################################# [100%]
Updating / installing...
   1:zabbix-release-5.0-1.el7         ################################# [100%]
[root@node1 ~]# sed -i 's#http://repo.zabbix.com#https://mirrors.aliyun.com/zabbix#' /etc/yum.repos.d/zabbix.repo
[root@node1 ~]# yum clean all
Loaded plugins: fastestmirror
Repository epel is listed more than once in the configuration
Cleaning repos: BaseOS epel zabbix zabbix-non-supported
Cleaning up list of fastest mirrors
Other repos take up 135 M of disk space (use --verbose for details)
#安装zabbix server和agent
[root@node1 ~]# yum install -y zabbix-server-mysql zabbix-agent
#安装Zabbix前端
[root@node1 ~]# yum install -y centos-release-scl
#如果报错No package centos-release-scl available，执行以下可解决，再重新安装centos-release-scl
[root@node1 ~]# rpm -ivh https://cbs.centos.org/kojifiles/packages/centos-release-scl-rh/2/3.el7.centos/noarch/centos-release-scl-rh-2-3.el7.centos.noarch.rpm
[root@node1 ~]# rpm -ivh https://cbs.centos.org/kojifiles/packages/centos-release-scl/2/3.el7.centos/noarch/centos-release-scl-2-3.el7.centos.noarch.rpm
#编辑配置文件 /etc/yum.repos.d/zabbix.repo
[root@node1 ~]# vim /etc/yum.repos.d/zabbix.repo
[zabbix-frontend]
enabled=1
#安装Zabbix前端软件包
[root@node1 ~]# yum install -y zabbix-web-mysql-scl zabbix-apache-conf-scl
#导入初始架构和数据
[root@node1 ~]# ll /usr/share/doc/zabbix-server-mysql*/create.sql.gz
-rw-r--r-- 1 root root 2034736 Jun 27 08:14 /usr/share/doc/zabbix-server-mysql-5.0.25/create.sql.gz
[root@node1 ~]# zcat /usr/share/doc/zabbix-server-mysql*/create.sql.gz | mysql -uzabbix -pzabbix -h 10.0.0.132 zabbix
#如果报错ERROR 1045 (28000): Access denied for user 'zabbix'@'node1' (using password: YES)，需要在数据库服务器执行命令后，再重新执行导入数据
[root@node2 ~]# mysql -uroot -e"delete from user where user=' ';" #删掉空用户
[root@node2 ~]# mysql -uroot -e"flush privileges;"　　　　　　　　　#刷新权限
#在数据库服务器查看是否导入成功
[root@node2 ~]# mysql
MariaDB [(none)]> show databases;
+--------------------+
| Database           |
+--------------------+
| information_schema |
| mysql              |
| performance_schema |
| test               |
| zabbix             |
+--------------------+
MariaDB [(none)]> use zabbix;
Reading table information for completion of table and column names
You can turn off this feature to get a quicker startup with -A

Database changed
MariaDB [zabbix]> show tables;
+----------------------------+
| Tables_in_zabbix           |
+----------------------------+
| acknowledges               |
| actions                    |
| alerts                     |
| application_discovery      |
| application_prototype      |
| application_template       |
| applications               |
| auditlog                   |
| auditlog_details           |
| autoreg_host               |
| conditions                 |
.......................................

#为Zabbix server配置数据库,需要改动以下内容
[root@node1 ~]# vim /etc/zabbix/zabbix_server.conf
ListenPort=10051
DBHost=10.0.0.132
DBName=zabbix
DBUser=zabbix
DBPassword=zabbix
DBPort=3306
#为Zabbix前端配置PHP，更改时区
[root@node1 ~]# vim /etc/opt/rh/rh-php72/php-fpm.d/zabbix.conf
php_value[date.timezone] = Asia/Shanghai

#启动Zabbix server和agent进程，并设置开机自启：
[root@node1 ~]# systemctl restart zabbix-server zabbix-agent httpd rh-php72-php-fpm
[root@node1 ~]# systemctl enable zabbix-server zabbix-agent httpd rh-php72-php-fpm

配置Zabbix前端

连接到新安装的Zabbix前端：10.0.0.131/zabbix

点击【next step】

linux_11

确认状态没问题，点击【next step】

linux_11

配置数据库连接，点击【next step】

linux_11

输入Zabbix server 详细信息，点击【next step】

linux_11

确认安装信息，点击【next step】

linux_11

完成安装【finish】

linux_11

登录zabbix，用户名为Admin，密码为zabbix

linux_11

登录成功

linux_11

配置中文语言

点击左下角【User settings】，选择【Chinese（zh_CH）】，点击【Update】更新

linux_11

监控图形出现乱码的解决办法

linux_11

在windows拷贝字体在windows上找到【C:/Windows/Fonts/楷体常规（simkai.ttf）】（或者其他个人喜欢的中文字体），然后将字体拷贝到windows系统当前用户的桌面。

上传字体上传字体到zabbix_server服务器的/usr/share/zabbix/assets/fonts/目录下。

[root@node1 ~]# cd /usr/share/zabbix/assets/fonts/
[root@node1 fonts]# ll
total 11512
lrwxrwxrwx 1 root root       33 Jul  3 22:44 graphfont.ttf -> /etc/alternatives/zabbix-web-font
-rw-r--r-- 1 root root 11787328 Jul  3 23:12 simkai.ttf
#修改权限
[root@node1 fonts]# chown zabbix.zabbix ./*
[root@node1 fonts]# ll
total 11512
lrwxrwxrwx 1 root   root         33 Jul  3 22:44 graphfont.ttf -> /etc/alternatives/zabbix-web-font
-rw-r--r-- 1 zabbix zabbix 11787328 Jul  3 23:12 simkai.ttf
#修改配置文件
[root@node1 fonts]# vim /usr/share/zabbix/include/defines.inc.php
#第81行，注释掉graphfont，加入simkai
#define('ZBX_GRAPH_FONT_NAME',      'graphfont'); // font file name
define('ZBX_GRAPH_FONT_NAME',       'simkai'); // font file name

#第122行，注释掉graphfont，加入simkai
#define('ZBX_FONT_NAME', 'graphfont');
define('ZBX_FONT_NAME', 'simkai');

验证字体是否生效

linux_11

7、实现Nginx、Mysql的监控

关闭防火墙 systemctl disable --now firewalld

系统版本 CentOS 7.9

Zabbix服务器 10.0.0.131（主机名：node1）

Nginx服务器 10.0.0.132（主机名：node2）

数据库服务器 10.0.0.133（主机名：node3）

安装nginx-1.18.0

#安装依赖包
[root@node2 ~]# yum -y install gcc pcre-devel openssl-devel zlib-devel
#创建账号
[root@node2 ~]# useradd -s /sbin/nologin nginx
#下载nginx-1.18，注意需要提前安装wget依赖包
[root@node2 ~]# wget http://nginx.org/download/nginx-1.18.0.tar.gz
#解压缩
[root@node2 ~]# ls
anaconda-ks.cfg  nginx-1.18.0.tar.gz
[root@node2 ~]# tar xf nginx-1.18.0.tar.gz
[root@node2 ~]# cd nginx-1.18.0/
[root@node2 nginx-1.18.0]# ls
auto  CHANGES  CHANGES.ru  conf  configure  contrib  html  LICENSE  man  README  src
#创建文件夹
[root@node2 nginx-1.18.0]# mkdir -p  /apps/nginx
#编译http的监控模块
[root@node2 nginx-1.18.0]# ./configure --prefix=/apps/nginx --with-http_stub_status_module --without-http_rewrite_module
[root@node2 nginx-1.18.0]# make -j 2
#安装
[root@node2 nginx-1.18.0]# make install
#修改文件夹权限
[root@node2 nginx-1.18.0]# chown -R nginx.nginx /apps/nginx/
#生成的目录
[root@node2 nginx-1.18.0]# ll /apps/nginx/
total 0
drwxr-xr-x 2 nginx nginx 333 Jun 15 06:24 conf
drwxr-xr-x 2 nginx nginx  40 Jun 15 06:24 html
drwxr-xr-x 2 nginx nginx   6 Jun 15 06:24 logs
drwxr-xr-x 2 nginx nginx  19 Jun 15 06:24 sbin
#conf：保存nginx所有的配置文件，其中nginx.conf是nginx服务器的最核心最主要的配置文件，其他的.conf则是用来配置nginx相关的功能的，例如fastcgi功能使用的是fastcgi.conf和fastcgi_params两个文件，配置文件一般都有个样板配置文件，是文件名.default结尾，使用的使用将其复制为并将default去掉即可。

#html：保存了nginx服务器的web文件，但是可以更改为其他目录保存web文件，另外还有一个50x的web文件是默认的错误页面提示页面。

#logs：用来保存nginx服务器的访问日志错误日志等日志，logs目录可以放在其他路径，比如/var/logs/nginx里面。

#sbin：保存nginx二进制启动脚本，可以接受不同的参数以实现不同的功能。

#验证版本及编译参数
[root@node2 nginx-1.18.0]# ls /apps/nginx/sbin/
nginx
#创建软连接
[root@node2 nginx-1.18.0]# ln -s /apps/nginx/sbin/nginx /usr/sbin/
#查看版本
[root@node2 nginx-1.18.0]# nginx -v
nginx version: nginx/1.18.0
#查看编译参数
nginx version: nginx/1.18.0
built by gcc 4.8.5 20150623 (Red Hat 4.8.5-44) (GCC) 
configure arguments: --prefix=/apps/nginx --with-http_stub_status_module --without-http_rewrite_module


#创建service文件
[root@node2 nginx-1.18.0]# vim /usr/lib/systemd/system/nginx.service
[Unit]
Description=nginx - high performance web server
Documentation=http://nginx.org/en/docs/
After=network-online.target remote-fs.target nss-lookup.target
Wants=network-online.target

[Service]
Type=forking
PIDFile=/apps/nginx/run/nginx.pid
ExecStart=/apps/nginx/sbin/nginx -c /apps/nginx/conf/nginx.conf
ExecReload=/bin/kill -s HUP $MAINPID
ExecStop=/bin/kill -s TERM $MAINPID
LimitNOFILE=100000

[Install]
WantedBy=multi-user.target

##创建目录存放pid
[root@node2 nginx-1.18.0]# mkdir /apps/nginx/run/
[root@node2 nginx-1.18.0]# chown -R nginx.nginx /apps/nginx/run/
#修改配置文件
[root@node2 nginx-1.18.0]# vim /apps/nginx/conf/nginx.conf
#配置文件加入pid路径
pid        /apps/nginx/run/nginx.pid;
#验证 Nginx 自启动文件
[root@node2 nginx-1.18.0]# systemctl daemon-reload
[root@node2 nginx-1.18.0]# systemctl enable --now nginx
#80端口已启动
[root@node2 nginx-1.18.0]# ss -ntl
State       Recv-Q Send-Q                                                Local Address:Port                                                               Peer Address:Port              
LISTEN      0      128                                                               *:22                                                                            *:*                  
LISTEN      0      100                                                       127.0.0.1:25                                                                            *:*                  
LISTEN      0      128                                                            [::]:80                                                                         [::]:*                  
LISTEN      0      128                                                            [::]:22                                                                         [::]:*                  
LISTEN      0      100                                                           [::1]:25                                                                         [::]:*  

#pid已自动生成
[root@node2 nginx-1.18.0]# ll /apps/nginx/run/
total 4
-rw-r--r-- 1 root root 5 Jun 15 06:38 nginx.pid
#客户端测试验证
[root@node2 nginx]# curl -I 127.0.0.1
HTTP/1.1 200 OK
Server: nginx/1.18.0
Date: Mon, 04 Jul 2022 02:03:11 GMT
Content-Type: text/html
Content-Length: 612
Last-Modified: Mon, 04 Jul 2022 01:58:54 GMT
Connection: keep-alive
ETag: "62c2495e-264"
Accept-Ranges: bytes
#修改配置文件
[root@node2 nginx]# vim /apps/nginx/conf/nginx.conf
  ##添加location
 location /nginx_status {
    stub_status on;
    allow 10.0.0.0/16;
    allow 127.0.0.1;
    deny  all;
 }
#重启服务
[root@node2 nginx]# nginx -s reload
#测试状态页
[root@node2 nginx]# curl http://127.0.0.1/nginx_status
Active connections: 1 
server accepts handled requests
 3 3 3 
Reading: 0 Writing: 1 Waiting: 0

其中信息的含义：

active connections – 活跃的连接数量
server accepts handled requests — 总共处理了3个连接 , 成功创建3次握手,总共处理了3个请求
reading — 读取客户端的连接数.
writing — 响应数据到客户端的数量
waiting — 开启 keep-alive 的情况下,这个值等于 active – (reading+writing), 意思就是 Nginx 已经处理完正在等候下一次请求指令的驻留连接.

Nginx服务器安装zabbix-agent

[root@node2 ~]# rpm -Uvh https://repo.zabbix.com/zabbix/5.0/rhel/7/x86_64/zabbix-release-5.0-1.el7.noarch.rpm
Retrieving https://repo.zabbix.com/zabbix/5.0/rhel/7/x86_64/zabbix-release-5.0-1.el7.noarch.rpm
warning: /var/tmp/rpm-tmp.YgdI7f: Header V4 RSA/SHA512 Signature, key ID a14fe591: NOKEY
Preparing...                          ################################# [100%]
Updating / installing...
   1:zabbix-release-5.0-1.el7         ################################# [100%]
#修改zabbix的repo文件中的源地址
[root@node2 ~]# vim /etc/yum.repos.d/zabbix.repo
[zabbix]
name=Zabbix Official Repository - $basearch
baseurl=http://mirrors.aliyun.com/zabbix/zabbix/4.0/rhel/7/$basearch/
enabled=1
gpgcheck=1
gpgkey=file:///etc/pki/rpm-gpg/RPM-GPG-KEY-ZABBIX-A14FE591

[zabbix-non-supported]
name=Zabbix Official Repository non-supported - $basearch
baseurl=http://mirrors.aliyun.com/zabbix/non-supported/rhel/7/$basearch/
enabled=1
gpgkey=file:///etc/pki/rpm-gpg/RPM-GPG-KEY-ZABBIX
gpgcheck=1
#安装 zabbix-agent
[root@node2 ~]# yum -y install zabbix-agent
#配置agent
[root@node2 ~]# vim /etc/zabbix/zabbix_agentd.conf
Server=10.10.0.131 #指向当前zabbix server
ListenPort=10050 #监听端口
ListenIP=0.0.0.0
startAgents=5 #被动状态时默认启动的实例数(进程数)，为0不监听任何端口
Hostname=10.0.0.132
#启动agent
[root@node2 ~]# systemctl start zabbix-agent
# 制作监控脚本
[root@node2 ~]# cd /etc/zabbix/zabbix_agentd.d/
[root@node2 zabbix_agentd.d]# vim nginx_status.sh
nginx_status_fun(){ #函数内容
	NGINX_PORT=$1 #端口，函数的第一个参数是脚本的第二个参数，即脚本的第二个参数是段端口号
	NGINX_COMMAND=$2 #命令，函数的第二个参数是脚本的第三个参数，即脚本的第三个参数是命令
	nginx_active(){ #获取nginx_active数量，以下相同，这是开启了nginx状态但是只能从本机看到
        /usr/bin/curl "http://127.0.0.1:"$NGINX_PORT"/nginx_status/" 2>/dev/null| grep 'Active' | awk '{print $NF}'
        }
	nginx_reading(){ #获取nginx_reading状态的数量
        /usr/bin/curl "http://127.0.0.1:"$NGINX_PORT"/nginx_status/" 2>/dev/null| grep 'Reading' | awk '{print $2}'
       }
	nginx_writing(){
        /usr/bin/curl "http://127.0.0.1:"$NGINX_PORT"/nginx_status/" 2>/dev/null| grep 'Writing' | awk '{print $4}'
       }
	nginx_waiting(){
        /usr/bin/curl "http://127.0.0.1:"$NGINX_PORT"/nginx_status/" 2>/dev/null| grep 'Waiting' | awk '{print $6}'
       }
	nginx_accepts(){
        /usr/bin/curl "http://127.0.0.1:"$NGINX_PORT"/nginx_status/" 2>/dev/null| awk NR==3 | awk '{print $1}'
       }
	nginx_handled(){
        /usr/bin/curl "http://127.0.0.1:"$NGINX_PORT"/nginx_status/" 2>/dev/null| awk NR==3 | awk '{print $2}'
       }
	nginx_requests(){
        /usr/bin/curl "http://127.0.0.1:"$NGINX_PORT"/nginx_status/" 2>/dev/null| awk NR==3 | awk '{print $3}'
       }
  	case $NGINX_COMMAND in
		active)
			nginx_active;
			;;
		reading)
			nginx_reading;
			;;
		writing)
			nginx_writing;
			;;
		waiting)
			nginx_waiting;
			;;
		accepts)
			nginx_accepts;
			;;
		handled)
			nginx_handled;
			;;
		requests)
			nginx_requests;
		esac 
}

main(){ #主函数内容
	case $1 in #分支结构，用于判断用户的输入而进行响应的操作
		nginx_status) #当输入nginx_status就调用nginx_status_fun，并传递第二和第三个参数
			nginx_status_fun $2 $3;
			;;
		*) #其他的输入打印帮助信息
			echo $"Usage: $0 {nginx_status key}"
	esac #分支结束符
}

main $1 $2 $3


#zabbix agent 添加自定义监控项
[root@node2 zabbix_agentd.d]# vim userparameter_nginx.conf
UserParameter=nginx_status[*],/etc/zabbix/zabbix_agentd.d/nginx_status.sh "$1" "$2" "$3"
#重启zabbix agent
[root@node2 zabbix_agentd.d]# systemctl restart zabbix-agent

Zabbix服务器测试监控数据

#zabbix的repo文件中的源地址
[root@node1 ~]# vim /etc/yum.repos.d/zabbix.repo
[zabbix]
name=Zabbix Official Repository - $basearch
baseurl=https://mirrors.aliyun.com/zabbix/zabbix/5.0/rhel/7/$basearch/
enabled=1
gpgcheck=1
gpgkey=file:///etc/pki/rpm-gpg/RPM-GPG-KEY-ZABBIX-A14FE591

[zabbix-frontend]
name=Zabbix Official Repository frontend - $basearch
baseurl=https://mirrors.aliyun.com/zabbix/zabbix/5.0/rhel/7/$basearch/frontend
enabled=1
gpgcheck=1
gpgkey=file:///etc/pki/rpm-gpg/RPM-GPG-KEY-ZABBIX-A14FE591

[zabbix-debuginfo]
name=Zabbix Official Repository debuginfo - $basearch
baseurl=https://mirrors.aliyun.com/zabbix/zabbix/5.0/rhel/7/$basearch/debuginfo/
enabled=0
gpgkey=file:///etc/pki/rpm-gpg/RPM-GPG-KEY-ZABBIX-A14FE591
gpgcheck=1
         
[zabbix-non-supported]
name=Zabbix Official Repository non-supported - $basearch
baseurl=https://mirrors.aliyun.com/zabbix/non-supported/rhel/7/$basearch/
enabled=1
gpgkey=file:///etc/pki/rpm-gpg/RPM-GPG-KEY-ZABBIX
gpgcheck=1


#安装zabbix-get
[root@node1 ~]# yum install install zabbix-get -y
#测试是否可以获取到数据;如果有报错,请仔细检查文件内容;这里的nginx.active是文件对应的UserParameter的内容
[root@node1 ~]# zabbix_get -s 10.0.0.132 -p 10050 -k "nginx_status["nginx_status",80,"active"]"
1

监控模板制作

创建主机

linux_11

创建模板

linux_11

创建监控项

linux_11

创建触发器

linux_11

设置表达式

linux_11

添加完成

linux_11

创建图形

linux_11

查看图形

linux_11

Mysql的监控

[root@node3 ~]# rpm -Uvh https://repo.zabbix.com/zabbix/5.0/rhel/7/x86_64/zabbix-release-5.0-1.el7.noarch.rpm
Retrieving https://repo.zabbix.com/zabbix/5.0/rhel/7/x86_64/zabbix-release-5.0-1.el7.noarch.rpm
warning: /var/tmp/rpm-tmp.YgdI7f: Header V4 RSA/SHA512 Signature, key ID a14fe591: NOKEY
Preparing...                          ################################# [100%]
Updating / installing...
   1:zabbix-release-5.0-1.el7         ################################# [100%]
#修改zabbix的repo文件中的源地址
[root@node3 ~]# vim /etc/yum.repos.d/zabbix.repo
[zabbix]
name=Zabbix Official Repository - $basearch
baseurl=http://mirrors.aliyun.com/zabbix/zabbix/4.0/rhel/7/$basearch/
enabled=1
gpgcheck=1
gpgkey=file:///etc/pki/rpm-gpg/RPM-GPG-KEY-ZABBIX-A14FE591

[zabbix-non-supported]
name=Zabbix Official Repository non-supported - $basearch
baseurl=http://mirrors.aliyun.com/zabbix/non-supported/rhel/7/$basearch/
enabled=1
gpgkey=file:///etc/pki/rpm-gpg/RPM-GPG-KEY-ZABBIX
gpgcheck=1
#安装 zabbix-agent
[root@node3 ~]# yum -y install zabbix-agent
#配置agent
[root@node3 ~]# vim /etc/zabbix/zabbix_agentd.conf
Server=10.10.0.131 #指向当前zabbix server
ListenPort=10050 #监听端口
ListenIP=0.0.0.0
startAgents=5 #被动状态时默认启动的实例数(进程数)，为0不监听任何端口
Hostname=10.0.0.133
#启动agent
[root@node2 ~]# systemctl start zabbix-agent
#下载安装percona
[root@node3 ~]# wget https://www.percona.com/downloads/percona-monitoring-plugins/percona-monitoring-plugins-1.1.7/binary/redhat/7/x86_64/percona-zabbix-templates-1.1.7-2.noarch.rpm
#脚本需要安装php依赖包
[root@node3 scripts]# yum install php php-mysql
#进入percona目录
[root@node3 ~]# cd /var/lib/zabbix/percona/templates
#将文件拷贝到zabbix_agentd.d目录
[root@node3 templates]# cp userparameter_percona_mysql.conf /etc/zabbix/zabbix_agentd.d/
#就改连接密码
[root@node3 scripts]# vim ss_get_mysql_stats.php 
$mysql_user = 'zabbix';
$mysql_pass = 'zabbix';
[root@node3 scripts]# systemctl restart zabbix-agent

在zabbix网页中配置主机

linux_11

添加模板

linux_11

在图像中查看

linux_11

8、实现故障和恢复的邮件通知

产生zabbix邮件通知的条件为：

有可用的相关报警媒介；
正确设置了被调用邮箱的授权；
触发的相应动作调用了该报警媒介。

这里使用QQ邮箱作为zabbix调用的邮箱，即邮件通知的发件人是设置的QQ邮箱帐户。

使用zabbix调用QQ邮箱时，需要开启POP3/SMTP服务。

登录自己的QQ邮箱（即准备作为zabbix邮件通知发件人的邮箱），设置-帐户，找到“POP3/SMTP服务”，点击开启

linux_11

点开启，并发送手机短信后点击我已发送

linux_11

获取到授权码

linux_11

（如果需要更改授权码，可以点击“生成授权码”，重新生成）

zabbix创建报警媒介

linux_11

QQ邮箱所需的信息在帮助中心的常用邮件客户端软件设置中都能找到：https://service.mail.qq.com/cgi-bin/help?subtype=1&&id=28&&no=371

linux_11

为zabbix的用户添加报警媒介

创建一个用户用来接收报警信息，当触发报警时自动发送给此用户的邮箱

linux_11

可发送邮件测试

linux_11

登录邮箱查看收到邮件

linux_11

实现zabbix报警的邮件通知

实现：当被监控主机的Nginx服务80端口监听故障时，通过邮件通知到xiaoming用户。最多进行3次通知，每次通知间隔60s。

创建主机监控项，监听80端口故障

linux_11

创建触发器

linux_11

创建动作

基于触发器“Nginx监听80端口异常”，当触发器告警时，则激活动作。

linux_11

#主题 
#新Zabbix恢复通知: {TRIGGER.NAME}:{TRIGGER.STATUS}
#消息  
#告警商户: {TRIGGER.HOSTGROUP.NAME}
#告警主机: {HOST.NAME}
#主机 IP: {IPADDRESS}
#告警时间: {EVENT.DATE} {EVENT.TIME}
#恢复时间: {DATE} {TIME}
#告警等级: {TRIGGER.SEVERITY}
#告警信息: {TRIGGER.NAME}
#问题详情: {ITEM.NAME}:{ITEM.VALUE}
#当前状态: {TRIGGER.STATUS}:{ITEM.VALUE1}
#事件 ID: {EVENT.ID}

关闭nginx测试邮件发送

[root@node2 zabbix_agentd.d]# systemctl stop nginx

邮件已经发送

linux_11

打开邮件查看邮件

linux_11

恢复nginx服务

root@node2 zabbix_agentd.d]# systemctl start nginx

打开邮件查看邮件

linux_11

原创文章，作者：3628473679，如若转载，请注明出处：https://blog.ytso.com/tech/aiops/271615.html

linux_11

1、简述redis特点及其应用场景

redis特点

Redis的应用场景

2、对比redis的RDB、AOF模式的优缺点

3、实现redis哨兵，模拟master故障场景

4、简述redis集群的实现原理

5、基于redis5的redis cluster部署

6、部署Zabbix监控

7、实现Nginx、Mysql的监控

8、实现故障和恢复的邮件通知

相关推荐

发表回复