DevOps Troubleshooting(2)-运维实战
服为何这么慢。不能进入系统,只能重启,能登录进系统就可以用工具定位问题。干我们运维这行常用工具如下。
uptimie--主要看后面load average 后面三个数字,分别代表5,10,15分钟的。
什么是系统平均负载。运行或者不可打扰的进程平均数。核心数=平均负载。表满负荷了。如果超了这个范围就要考虑调优。通常cpu密集比io响应时间要快,我见过cpu密集型的有的时候这个数超了很多但是还是好好的。如果是io密集型的就很慢了,因为大量io产生读写磁盘,需要很多内存。ram,让进程变得很慢。
top命令。终止某个进程,按下K 然后输入进程号。
详细了解top命令
top的命令和uptime命令第一行一样,负载数不能超过load average就算正常
同时呢也要明白top中每个参数含义。
us---用户时间
sy---系统时间
ni---优雅时间
id---cpu空闲时间
如果他很高,系统有很慢,那么就不是cpu高负载
wa---io等待
如果很低,那就排除磁盘和io问题了
hi--硬中断
si--软中断
st--时间流逝
如果运行虚拟机他会告诉你虚拟机执行其他任务所占的cpu时间百分比
top命令应用举例,如果us很大,而wa却很小,那么可以判断瓶颈在本机cpu上,可以
终止一下不会影响到关键服务的进程,如日志监控脚本。
iostat查看那些进程占用了大量io
iostat-d-x-k1Device:rrqm/swrqm/sr/sw/srsec/swsec/srkB/swkB/savgrq-szavgqu-szawaitsvctm%utilsda1.5628.317.8431.5043.653.1621.821.581.190.030.802.6110.29sda1.9824.75419.806.9313465.35253.476732.67126.7332.152.004.702.0085.25sda3.0641.84444.9054.0814204.082048.987102.041024.4932.572.104.211.8592.24
参数 -d 表示,显示设备(磁盘)使用状态;-k某些使用block为单位的列强制使用Kilobytes为单位;1表示,数据显示每隔1秒刷新一次,-x是与io扩展参数
声明:本站所有文章资源内容,如无特殊说明或标注,均为采集网络资源。如若本站内容侵犯了原著者的合法权益,可联系本站删除。