你见过哪些离谱的运维事故?
作者:卡卷网发布时间:2024-11-30 16:10浏览数量:128次评论数量:0次
我把这个案例分享出来不是让各位“董师傅”教我怎么做事的。 o 不 ok?
灭霸的响指!
你们见过随机杀进程的脚本吗?而且还贼难发现的那种。
起因是隔壁一个哥们写了一个 shell 脚本,但里面有一行代码是杀掉指定进程大概是 ps | grep | xargs kill 这个样子的。
本意是 kill 符合条件的进程。
这哥们写完还在他自己的开发容器里面测试了一下,嗯,没有问题,进程被杀掉了。
然后就发上线了。到线上机器执行脚本。
执行之前,ps | grep 了一下,确认了一下,那个待宰的进程还撒欢地跑着。
“看我不弄死你”哥们嘴角轻蔑一提,
熟练地默默敲下了
> chmod +x script
> ./script
最后,哥们还用 ps| grep 确认了一下,那个进程大抵是凉了,透透的。
“哼!就这?”
哥们干完活就愉快的吃烧烤去了。
话说,这哥烧烤吃到正欢的时候,突然这哥电话响了,定睛一看 +2 老板打来的,也顾不上手上的油了,赶紧划拉手机。
“歪歪歪。。。唉,老板,是我。。。啊?没有呀。。。购物车全空了?也无法加购?哦。。。哦。。。那肯定跟我没关系呀,我没动购物车的 pod 呀,唉。。。是。。。唉唉好好“
挂了电话之后,这哥继续跟我们愉快地吃烧烤,又是吃到正爽,突然这哥像是被雷给劈了,大腿一拍。
“哎呀,我操!!!”。
说完拔腿就往回跑。我们一脸懵逼,但感觉应该是粗了大事,我们也都顾不上吃了,赶紧也跟着这哥往回跑。
事后听复盘分享,简直笑尿。
因为,漏了一个 awk 把进程号那一列提取,而把符合条件的那一行的每一列都当做 pid 给 kill 了一下。好死不死,这个进程的执行参数里面就有--Memory 8088 --Cpu 24 --xxx 192391 等各种数字。又特么偏偏这么巧,有一个数字刚好跟当时某重要中间件容器有关,结果直接给 kill 了。但当时流量又特别大,就造成连锁反应了。
他自己的开发机上面总共就没跑几个进程,所以脚本大概率没有问题,但服务器上可跑了一大堆容器的,偏偏就中奖了。
免责声明:本文由卡卷网编辑并发布,但不代表本站的观点和立场,只提供分享给大家。
相关推荐

你 发表评论:
欢迎