文章目录[隐藏]

业务崩溃！

现象：某大客户集群部分服务器出站流量飙高，集群cpu整体水平在持续上涨，客户业务出现崩溃。

溯源时间线

（1）18：51，客户侧因远程运维需求，变更安全组策略：

客户侧为方便异地工程师远程登录调试，变更安全组策略，安全组开放TCP：20~22端口，来源0.0.0.0/24

临时开启20-22端口源地址不受限访问

因为这一条策略，有了下面的故事

（2）12分钟破防，测试网段跳板机jumpserver01首先沦陷，测试网段病毒扩散（AAA.AA.A.0/24）：

19:03:29，主机安全控制台收到测试网段跳板机jumpserver01告警：

jumpserver01跳板机（AAA.AA.A.14）发出异常告警，该服务器对外请求了可疑域名https://xxx.xxx.xxx

19:03:29，主机安全发出告警消息

主机安全告警记录

19:03:03，恶意进程开始启动：/etc/secure_ssh.sh

19:03:03 首恶意进程开始启动

测试网段跳板机jumpserver01恶意进程启动记录

26秒完成外部病毒植入，感染

19:03:29 ，使用curl从外部下载植入恶意病毒： http://xxx.xxx.xx/b2f628/b.sh

19:03:29 对外请求下载恶意病毒

因测试网段(AAA.AA.A.0/24)子机间ssh互通，病毒遍历跳板机/root/.ssh/know_hosts记录，实现远程登录，病毒植入。

测试网段其余子机感染。子机感染逻辑：

病毒内网横移逻辑

恶意进程执行入侵路径复现

（3）生产网段感染（BB.B.B.0/24）：

19:03:29, 生产网段跳板机jumpserver02（内网IP：BB.B.B.11）首先沦陷，最早发起对外链接，发起2次外部请求，下载病毒：

19:03:29 生产跳板机沦陷

生产网段内网横向移动，同理测试网段扩散逻辑，不再赘述

（4）扩散成功后，沦陷机器发起15起对外攻击，其中14起为redis对外爆破，占比93.33%，1起为ssh对外爆破，占比6.67%。

对外攻击占比

对外攻击行为，服务器流量打满，CPU占用过高，业务崩溃。

紧急恢复！

杀毒脚本

入侵路径复现：

入侵路径复现

问题根因：安全组异常变更

安全组变更，导致该安全组里70+CVM连带策略变更，暴露ssh服务于公网，为入侵提供了条件

因安全组策略开放TCP：20~22端口，来源0.0.0.0/24,该安全组规则下绑定的70+cvm暴露了22端口于公网，而跳板机同时在该安全组策略下，跳板机暴露沦陷导致集群沦陷，攻击发起，业务瘫痪。

安全优化方案

业务快速恢复同溯源留痕往往在业务瘫痪的紧急情况下略有冲突，为什么？

技术与成本的矛盾点

因涉及客户成本等其他因素，公有云客户快照备份情况较低，结合客户容灾需求及入侵溯源需求，针对此case场景，在不考虑大量成本追加前提下的优化方案：

1.生产网核心集群及入口跳板机配置主机安全专业版，开启爆破阻断策略

2.入口跳板机Jumpserver设置全量快照策略

低成本追加下安全优化架构

原创文章，作者：carmelaweatherly，如若转载，请注明出处：https://blog.ytso.com/tech/pnotes/212356.html

忽视的12分钟，破防！

业务崩溃！

溯源时间线

26秒完成外部病毒植入，感染

紧急恢复！

入侵路径复现：

问题根因：安全组异常变更

安全优化方案

发表回复

忽视的12分钟，破防！

业务崩溃！

溯源时间线

26秒完成外部病毒植入，感染

紧急恢复！

入侵路径复现：

问题根因：安全组异常变更

安全优化方案

相关推荐

发表回复