CPU的占用率计算,都是根据/proc/stat计数器文件而来,stat文件的内容基本格式是:
cpu 67793686 1353560 66172807 4167536491 2705057 0 195975 609768
cpu0 10529517 944309 11652564 835725059 2150687 0 74605 196726
cpu1 14380773 127146 13908869 832565666 150815 0 31780 108418
cpu是总的信息,cpu0,cpu1等是各个具体cpu的信息,共有8个值,单位是ticks,分别是:
CPU总时间=user+system+nice+idle+iowait+irq+softirq+Stl
各个状态的占用=状态的cpu时间/CPU总时间*100%
比较特殊的是CPU总使用率的计算(util),目前的算法是:
util = 1 - idle - iowait - steal
。
内存的计数器在/proc/meminfo,里面有一些关键项
MemTotal: 7680000 kB
MemFree: 815652 kB
Buffers: 1004824 kB
Cached: 4922556 kB
含义就不解释了,主要介绍一下内存使用率的计算算法:
util = (total - free - buff - cache) / total * 100%
/proc/loadavg文件中保存的有负载相关的数据:
0.00 0.01 0.00 1/271 23741
分别是1分钟负载,五分钟负载,十五分钟负载,运行进程/总进程 最大的pid
只需要采集前五个数据既可得到所有信息
注意:只有当系统负载除cpu核数>1的时候,系统负载较高
流量的计数器信息来自:/proc/net/dev
face |bytes packets errs drop fifo frame compressed multicast|bytes packets errs drop fifo colls carrier compressed
lo:1291647853895 811582000 0 0 0 0 0 0 1291647853895 811582000 0 0 0 0 0 0
eth0:853633725380 1122575617 0 0 0 0 0 0 1254282827126 808083790 0 0 0 0 0 0
字段的含义第一行已经标示出来,每一行代表一个网卡,tsar主要采集的是出口和入口的bytes/packets。
注意tsar只对以eth和em开头的网卡数据进行了采集,像lo这种网卡直接就忽略掉了,流量的单位是byte。
tcp的相关计数器文件是:/proc/net/snmp
Tcp: RtoAlgorithm RtoMin RtoMax MaxConn ActiveOpens PassiveOpens AttemptFails EstabResets CurrEstab InSegs OutSegs RetransSegs InErrs OutRsts
Tcp: 1 200 120000 -1 31702170 14416937 935062 772446 16 1846056224 1426620266 448823 0 5387732
我们主要关注其中的ActiveOpens/PassiveOpens/AttemptFails/EstabResets/CurrEstab/InSegs/OutSegs/RetransSegs
主要关注一下重传率的计算方式:
retran = (RetransSegs-last RetransSegs) / (OutSegs-last OutSegs) * 100%
UDP的数据来源文件和TCP一样,也是在/proc/net/snmp
Udp: InDatagrams NoPorts InErrors OutDatagrams
Udp: 31609577 10708119 0 159885874
IO的计数器文件是:/proc/diskstats,比如:
202 0 xvda 12645385 1235409 416827071 59607552 193111576 258112651 3679534806 657719704 0 37341324 717325100
202 1 xvda1 421 2203 3081 9888 155 63 421 1404 0 2608 11292
每一行字段的含义是:
通过这些计数器可以算出来上面的每个字段的值
double n_ios = rd_ios + wr_ios;
st_array[0] = rd_merges / (inter * 1.0);
st_array[1] = wr_merges / (inter * 1.0);
st_array[2] = rd_merges + rd_ios ? (double)rd_merges / (rd_merges + rd_ios) * 100 : 0.0;
st_array[3] = wr_merges + wr_ios ? (double)wr_merges / (wr_merges + wr_ios) * 100 : 0.0;
st_array[4] = rd_ios / (inter * 1.0);
st_array[5] = wr_ios / (inter * 1.0);
st_array[6] = rd_sectors / (inter * 1.0);
st_array[7] = wr_sectors / (inter * 1.0);
st_array[8] = n_ios ? (rd_sectors + wr_sectors) / (n_ios * 2) : 0.0;
st_array[9] = rd_ios ? rd_sectors / ((double)rd_ios * 2) : 0.0;
st_array[10] = wr_ios ? wr_sectors / ((double)wr_ios * 2) : 0.0;
st_array[11] = aveq / (inter * 1000);
st_array[12] = n_ios ? (rd_ticks + wr_ticks) / (double)n_ios : 0.0;
st_array[13] = rd_ios ? rd_ticks / (double)rd_ios : 0.0;
st_array[14] = wr_ios ? wr_ticks / (double)wr_ios : 0.0;
st_array[15] = n_ios ? ticks / n_ios : 0.0;
st_array[16] = ticks / (inter * 10.0); /* percentage! */
/*st_array分别代表tsar显示的每一个值*/
注意:
- 扇区一般都是512字节,因此有的地方除以2了
- ws是指真正落到io设备上的写次数, wrqpms是指系统调用合并的写次数, 它们之间的大小关系没有可比性,因为不知道多少请求能够被合并,比如发起了100个read系统调用,每个读4K,假如这100个都是连续的读,由于硬盘通常允许最大的request为256KB,那么block层会把这100个读请求合并成2个request,一个256KB,另一个144KB,rrqpm/s为100,因为100个request都发生了合并,不管它最后合并成几个;r/s为2,因为最后的request数为2
首先通过/etc/mtab获取到分区信息,然后通过statfs访问该分区的信息,查询文件系统相关信息,包含:
struct statfs {
long f_type; /* 文件系统类型 */
long f_bsiz
e; /* 经过优化的传输块大小 */
long f_blocks; /* 文件系统数据块总数 */
long f_bfree; /* 可用块数 */
long f_bavail; /* 非超级用户可获取的块数 */
long f_files; /* 文件结点总数 */
long f_ffree; /* 可用文件结点数 */
fsid_t f_fsid; /* 文件系统标识 */
long f_namelen; /* 文件名的最大长度 */
};
然后就可以计算出tsar需要的信息,分区的字节数=块数*块大小=f_blocks * f_bsize
计数器在/proc/stat:
ctxt 19873315174
processes 296444211
分别代表进程切换次数,以及进程数
recvq sendq est twait fwait1 fwait2 lisq lising lisove cnest ndrop edrop rdrop pdrop kdrop
分别代表
tcprecvq tcpsendq tcpest tcptimewait tcpfinwait1 tcpfinwait2 tcplistenq tcplistenincq tcplistenover tcpnconnest tcpnconndrop tcpembdrop tcprexmitdrop tcppersistdrop tcpkadrop
计数器来自:/proc/net/netstat /proc/net/snmp
里面用到的数据有:
TcpExt: SyncookiesSent SyncookiesRecv SyncookiesFailed EmbryonicRsts PruneCalled RcvPruned OfoPruned OutOfWindowIcmps LockDroppedIcmps ArpFilter TW TWRecycled TWKilled PAWSPassive PAWSActive PAWSEstab DelayedACKs DelayedACKLocked DelayedACKLost ListenOverflows ListenDrops TCPPrequeued TCPDirectCopyFromBacklog TCPDirectCopyFromPrequeue TCPPrequeueDropped TCPHPHits TCPHPHitsToUser TCPPureAcks TCPHPAcks TCPRenoRecovery TCPSackRecovery TCPSACKReneging TCPFACKReorder TCPSACKReorder TCPRenoReorder TCPTSReorder TCPFullUndo TCPPartialUndo TCPDSACKUndo TCPLossUndo TCPLoss TCPLostRetransmit TCPRenoFailures TCPSackFailures TCPLossFailures TCPFastRetrans TCPForwardRetrans TCPSlowStartRetrans TCPTimeouts TCPRenoRecoveryFail TCPSackRecoveryFail TCPSchedulerFailed TCPRcvCollapsed TCPDSACKOldSent TCPDSACKOfoSent TCPDSACKRecv TCPDSACKOfoRecv TCPAbortOnSyn TCPAbortOnData TCPAbortOnClose TCPAbortOnMemory TCPAbortOnTimeout TCPAbortOnLinger TCPAbortFailed TCPMemoryPressures
TcpExt: 0 0 0 80 539 0 0 0 0 0 3733709 51268 0 0 0 80 5583301 5966 104803 146887 146887 6500405 39465075 2562794034 0 689613557 2730596 540646233 234702206 0 44187 2066 94 240 0 114 293 1781 7221 60514 185158 2 2 3403 400 107505 5860 24813 174014 0 2966 7 168787 106151 40 32851 2 0 2180 9862 0 15999 0 0 0
具体字段找到并且获取即可
字段含义等同cpu模块,只不过能够支持采集具体的每一个cpu的信息
等同于cpu模块
字段含义等同traffic模块,只不过能够支持采集具体的每一个网卡的信息
等同于traffic模块
计数器文件
/proc/pid/stat:获取进程的cpu信息 /proc/pid/status:获取进程的mem信息 /proc/pid/io:获取进程的读写IO信息
注意,需要将采集的进程名称配置在/etc/tsar/tsar.conf总的mod_proc on procname,这样就会找到procname的pid,并进行数据采集
通过nginx的采集模块配置,访问特定地址,具体参见:https://github.com/taobao/tsar-mod_nginx
location = /nginx_status {
stub_status on;
}
请确保如下方式能得到数据: curl 127.0.0.1:80/nginx_status -H 'Host: status.taobao.com' 请求到的数据是:
Active connections: 1
server accepts handled requests request_time
24 24 7 0
Reading: 0 Writing: 1 Waiting: 0
SSL: 0 SPDY: 0
(注:对于上述返回数据中的server accepts handled requests request_time,当前是通过“ 24 24 7 0”数据行首的空格作为前导。现tsar在本模块中同时支持“Server accepts: 24 handled: 24 requests: 7 request_time 0”格式返回该数据行。今后将升级tengine改用此方式。)
需要确保nginx配置该location,并且能够访问curl http://localhost/nginx_status
得到上面的数据
如果nginx的端口不是80,则需要在配置文件中指定端口,配置文件是/etc/tsar/tsar.conf,修改mod_nginx on为mod_nginx on 8080 。
不同端口的nginx数据以不同item的形式展现,在对各item进行合并的时候(-m),除rt以及sslhst依然为平均值之外,其他的所有值都为所有端口的值的总和
类似的有nginx_code, nginx_domain模块,相应的配置是:
req_status_zone server "$host" 20M;
req_status server;
location /traffic_status {
req_status_show;
}
通过访问curl http://localhost/traffic_status
能够得到如下字段的数据
localhost,0,0,2,2,2,0,0,0,0,0,0,0,0,2,0,0,0,0,0,0,0,0,0,0,0,0,0
请求到的数据每个字段的含义是:
如果domain数量太多,或者端口不是80,需要进行专门的配置,配置文件内容如下:
port=8080 #指定nginx的端口
top=10 #指定最多采集的域名个数,按照请求总个数排列
domain=a.com b.com #指定特定需要采集的域名列表,分隔符为空格,逗号,或者制表符
在/etc/tsar/tsar.conf中指定配置文件的路径:mod_nginx_domain on /tmp/my.conf
nginx配置是:
req_status_zone server "$host" 20M;
req_status server;
# req_status_zone_add_indecator 指令:可以在req status输出的每一行最后添加新的字段
# 这里添加的字段用于统计nginx的变量: $2xx_bytes_sent, $3xx_bytes_sent, $4xx_bytes_sent, $5xx_bytes_sent
# $2xx_bytes_sent: 请求返回2xx时候,发送给客户端的数据量(如果请求非2xx则该变量为0)
req_status_zone_add_indecator server $2xx_bytes_sent $3xx_bytes_sent $4xx_bytes_sent $5xx_bytes_sent;
location /traffic_status {
req_status_show;
}
输出实例:
module004033.sqa.cm4 tsar $ tsar --nginx_domain_traffic -li1
Time -----------------localhost:8080----------------- ----------------www.foo.com:8080----------------
Time bytin bytout 2XXout 3XXout 4XXout 5XXout bytin bytout 2XXout 3XXout 4XXout 5XXout
09/01/15-13:45:48 0.00 0.00 0.00 0.00 0.00 0.00 410.1K 16.6M 16.6M 0.00 0.00 0.00
09/01/15-13:45:49 0.00 0.00 0.00 0.00 0.00 0.00 407.8K 16.5M 16.5M 0.00 0.00 0.00
09/01/15-13:45:51 159.0K 287.4K 0.00 0.00 0.00 287.4K 258.6K 10.5M 10.5M 0.00 0.00 0.00
09/01/15-13:45:52 245.5K 443.5K 0.00 0.00 0.00 443.5K 224.2K 9.1M 9.1M 0.00 0.00 0.00
字段含义:
用于输出nginx upstream想关信息 nginx配置是:
req_status_zone server "$host" 20M;
req_status server;
req_status_zone_add_indecator server $response_fbt_time $upstream_response_fbt_time $upstream_response_length;
location /traffic_status {
req_status_show;
}
输出实例:
module004033.sqa.cm4 tsar $ tsar --nginx_ups -li1
Time ----------------------------nginx_ups---------------------------
Time traff qps 4XX 5XX rqps rt fbt ufbt
09/01/15-16:26:29 15.8M 3.9K 3.9K 0.00 0.00 9.7K 9.7K 9.7K
09/01/15-16:26:30 15.8M 3.9K 3.9K 0.00 0.00 9.7K 9.7K 9.7K
09/01/15-16:26:31 4.9M 1.2K 1.2K 0.00 0.00 3.0K 3.0K 3.0K
字段含义:
请确保如下方式能得到数据: curl -x 127.0.0.1:7001 http://status.taobao.com/rtmp_reqstat 请求到的数据是: rtmp://pagefault/alicdn/diaoliang123,fm_time:574 drop_frame:0 online:1 online_history:2 down_flow:166096189 up_flow:166096188 internal:0 edge:2
####采集方法 访问squid的mgrinfo信息获取,有些字段经过了一些patch,可能不适用外部版本
###haproxy ####字段含义
haproxy经过了patch,能够在多进程模式下进行统计信息的汇总,然后通过haproxy的本地访问其状态页面admin分析得到
内核版 lvs: 访问lvs的统计文件:/proc/net/ip_vs_stats, /proc/net/ip_vs_conn_stats netframe lvs: 访问 lvs 的命令行工具: slb_admin -ln --total --dump, appctl -cas
参见:https://github.com/kongjian/tsar-apache
私有应用,略
私有应用,略
私有应用,略
待补充
私有应用,略
在/etc/tsar/tsar.conf中:
mod_lua on {lua_file_name}
启用lua模块,将从绝对路径调用{lua_file_name}这个lua脚本文件。
mod_lua 依赖luajit-5.1。
目前为仅有一个tsar模块支持lua,通过修改lua脚本文件来实现不同的数据采集。目前支持11个字段供lua操作 具体实现样例见lua_modules/nginx_mem.lua,该脚本实现采集本机上所有nginx进程分配的内存总数。
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。