无间道,你比黑客还厉害!

congtou 2017-2-3 原创推荐 0 3

事件简述是这样的,一个运维想删除不用的文件,给公司主数据库删除了,现在网站还关着呢,说应当有备份吧?都还原不了。

我觉得社会工程学,去他们公司面试个运维吧,没准能拿到root权限。

你删裤,还直播?

GITLAB从删裤到直播   http://live.bilibili.com/19398

如果有个兄弟是内鬼,一切都解释的通了。

 

太平洋时间周二晚上,这家初创公司发布了一系列令人不安的推特消息,我们在下面列了出来。幕后原因是,一名疲惫不堪的系统管理员在荷兰工作到深夜,他在令人沮丧的数据库复制过程中不小心删除了一台不该删除的服务器上的目录:他彻底删除了一个含有300GB活动生产数据的文件夹,而这些数据还没有完全复制过来。

 

这家后起之秀声称发展势头迅猛,其云已跟不上形势,现在五个恢复工具已全部失效。

 

源代码托管中心GitLab.com在数据遭遇丢失后崩溃,而数据丢失归咎于它突然发现备份的内容是无效的。

 

等到他取消rm -rf命令时,已只剩下了区区4.5GB数据。上一套可能切实可行的备份是在事先六个小时所做的。

 

  • 我们正在执行紧急数据库维护,https://t.co/r11UmmDLDE将处于离线状态。
    — GitLab.com状态(@gitlabstatus)2017年1月31日
  • 我们的生产数据库遇到了问题,正在努力恢复。
    — GitLab.com状态(@gitlabstatus)2017年2月1日
  • 我们不小心删除了生产数据,可能不得不从备份系统来恢复。带活动说明(live note)的Google Doc https://t.co/EVRbHzYlk8
    — GitLab.com状态(@gitlabstatus)2017年2月1日

 

在最后一则推特消息说明中提到了那个Google Doc:“这起事件影响了数据库(包括问题和合并请求),但是没有影响git代码库(代码库和维基)。”

 

所以对用户来说多少有点安慰,因为并非所有数据全部丢失。但是文档在结尾处是这样写道:

 

所以换句话说,在部署的5套备份/复制方法中,没有一套在可靠运行或当初设置正确。

 

下面华盟君给你们讲几个笑话,全是亲身经历

 

配置防火墙给自己墙外面了
有一位安全运维,给系统都搞好了,配置防火墙,忘记给远程访问ip加上,管理都上不去了,影响8个小时。

 

 

恢复数据时删除了更多数据

线上有豆列被误删了,从备份紧急恢复时,使用 mysqldump 导出需要恢复的那部分数据,但是遗憾的是连 DROP TABLE ... 也一起 dump 了,并且在线上执行之前都没有意识到。结果,原本需要恢复的只是一个豆列,恢复之后只剩下了一个豆列,豆列功能紧急只读,重新恢复数据并做数据合并…

 

误操作并误删数据文件(陪了客户150万人民币)

在一次主从切换之后,我突然发现新的 slave 同步在继续,但是 binlog 却停止写入了,之后惊讶地发现 master 上的 SQL_LOG_BIN 竟然是一个 global 级别的变量,并且值是 0。原来是之前在 slave 上调整索引时,本该 SET SQL_LOG_BIN=0,却无意识地执行了 SET GLOBAL SQL_LOG_BIN=0,禁用了整个 slave 实例而不只是当前 session 的 binlog,主从切换之后,整个集群就只剩下了一个节点有完整的数据,在我发现并修复这个问题之前,新 slave 上已经缺失了 3 分钟的数据。尝试了各种方法,想要准确无误地修复这 3 分钟的数据还是挺有难度的,尤其是在承受巨大精神压力的情况下,只好选择了从 master 重建。然而在我备份完 master 节点,重建新 slave 时又误删了 slave 上的数据文件,这下更刺激了,在新的 slave 重建完成之前,如果 master 宕机,我就真的连一个可以应付线上压力的节点都没有了,哪怕是一个缺少了 3 分钟数据的实例。

在发生这些事情时,真的是想死的心都有,支撑我的还有一个信念:无论如何把这个烂摊子收拾完了再死!而有过这样的经历,我就非常感激那些本来有绝对权利责难我,但在事情发生时立刻马上挽起袖子和我一起解决问题,事后帮我一起想办法如何避免这样的问题再发生的人。

 

数据备份要用的时候总是找不到

有一天虚拟主机硬盘坏了,找备份半年前的,
有一天华盟论坛出故障,说找个备份吧,一个月前的,丢了N多贴子,

备份有专人,每年可能有两次做用上备份,2010年到现在,备份正常只用过两次,我常常跟运维人员说,备份就相当于后悔药,可能一年也不用上一次,有它关键时候能救命。所以不论公司大小,数据备份一定要做好。

安全运维或者是IT运维,经验很重要,只要他踩过这些坑,才会成长为一名优秀的运维人员,所以出错不可怕,犯过很多错误的运维,好好培养。你给开除了换一个全部坑又要走一遍。

只有误操作过的运维,才有可能成长为优秀运维。

转载请注明来自华盟网,本文标题:《无间道,你比黑客还厉害!》

喜欢 (3) 发布评论