游客发表

作为一名Kubernetes管理员,基于r监践你是控实否经历过:
服务正常却找不到CPU飙升的根本原因?容器进程异常但无法快速定位根源?缺乏完整的进程级监控体系导致故障排查困难?本文将带你掌握 Process Exporter 的完整使用链路,涵盖基础部署、基于r监践Prometheus集成、控实Grafana可视化及告警规则配置,基于r监践即使是控实新手也能轻松上手!
:
✓ 进程CPU/内存占用✓ 文件描述符数量✓ 线程数与运行时长✓ 支持正则表达式过滤进程对比项
Node Exporter
Process Exporter
监控粒度
节点级别
进程级别(精确到PID)
核心指标
CPU/内存/磁盘IO
CPU/内存/线程/文件描述符
典型场景
整体资源负载分析
异常进程根因定位
典型业务价值:
识别恶意进程占用资源监控Java应用GC行为分析MySQL连接池耗尽原因

Operator会自动完成以下操作:
创建TargetGroup注册到Prometheus Server自动生成Recording Rules在实际监控进程时,主要使用的基于r监践指标就是cpu和内存。
process-exporter中进程的控实指标以namedprocess_namegroup开头:namedprocess_namegroup_cpu_seconds_total:cpu使用时间,通过mode区分是亿华云基于r监践user还是systemnamedprocess_namegroup_memory_bytes:内存占用,通过memtype区分不同的占用类型namedprocess_namegroup_num_threads:线程数namedprocess_namegroup_open_filedesc:打开的文件句柄数namedprocess_namegroup_read_bytes_total:进程读取的字节数namedprocess_namegroup_thread_context_switches_total:线程上下文切换统计namedprocess_namegroup_thread_count:线程数量统计namedprocess_namegroup_thread_cpu_seconds_total:线程的cpu使用时间namedprocess_namegroup_thread_io_bytes_total:线程的io(2)cpu相关cpu是我们最经常关注的指标,如果使用node-exporter采集节点的指标数据,可以得到机器的cpu占比。
而使用process-exporter采集的是进程的指标,具体来说就是采集/proc/pid/stat中与cpu时间有关的数据:
第14个字段:utime,进程在用户态运行的时间,单位为jiffies第15个字段:stime,进程在内核态运行的时间,单位为jiffies第16个字段:cutime,子进程在用户态运行的时间,单位为jiffies第17个字段:cstime,子进程在内核态运行的时间,单位为jiffies那么通过上述值就可以得到进程的云服务器提供商单核CPU占比:
进程的单核CPU占比=(utime+stime+cutime+cstime)/时间差进程的单核内核态CPU占比=(stime+cstime)/时间差因此,进程的单核CPU占比的promsql语句为increase(namedprocess_namegroup_cpu_seconds_total{mode="user",groupname="procname"}[30s])*100/30,单核内核态CPU占比的promsql语句为increase(namedprocess_namegroup_cpu_seconds_total{mode="system",groupname="procname"}[30s])*100/30。
注意:实测发现,process-exporter获取的数据与/proc/pid/stat中的有一定差异,需要进一步看下。
(3)memoryprocess-exporter采集内存的指标时将内存分成5种类型:
resident:进程实际占用的内存大小,包括共享库的内存空间,可以从/proc/pid/status中的VmRSS获取proportionalResident:与resident相比,共享库的内存空间会根据进程数量平均分配swapped:交换空间,系统物理内存不足时,会将不常用的内存页放到硬盘的交换空间,可以从/proc/pid/status中的VmSwap获取proportionalSwapped:将可能被交换的内存页按照可能性进行加权平均virtual:虚拟内存,描述了进程运行时所需要的总内存大小,包括哪些还没有实际加载到内存中的代码和数据,b2b供应网可以从/proc/pid/status中的VmSize获取对于一般的程序来说,重点关注的肯定是实际内存,也就是resident和virtual,分别表示实际在内存中占用的空间和应该占用的总空间
(4)看板process-exporter基于上述指标提供了grafana的面板可以直接导入:https://grafana.com/grafana/dashboards/249-named-processes/

可以看到,面板中的cpu和读写是直接基于指标和rate函数得到的,内存则是直接基于指标而来的。
proces-exporter的配置包括两部分的配置项,一个是process-exporter的一些参数控制,另一个是进程信息的配置。
一般来说,exporter都会有几部分的参数控制采集:
config/config.path:指定配置文件路径web.listen-address:指定监听端口,通常都会有默认的端口,prometheus就是访问该端口获取指标数据web.telemetry-path:指标数据的url,通常都是/metrics除了有以上配置项之外,process-exporter还有其他特有的配置项:
children:如果某个进程被采集,那么它的子进程也属于该组namemapping:名称映射,procfs:proc文件系统的路径,默认是/procprocnames:需要采集的进程名列表threads:是否采集线程,默认为是基于性能的考虑,process-exporter只能对事先配置的进程进行指标采集,因此,需要对进程进行过滤,只采集需要的进程的指标。
在过滤进程时,会将进程进行分组,因此,就会有分组的名称,以及将进程放到分组的规则。例如,如果使用deb/rpm安装process-exporter时,默认的配置文件是:
复制process_names: - name: "{{.Comm}}" cmdline: - .+1.2.3.4.process_names是个数组,每个成员表示一个分组。
name是分组的名称,这里使用模版。cmdline用于对分组中的进程进行过滤,这里的正则表达式就表示过滤所有进程。
因此,上述配置文件的含义是:采集所有进程的指标数据,当遍历到某个进程时,获取该进程的进程名,然后放到进程名对应的分组。
name字段可以使用固定的字符串,也可以使用以下模版:
{{.Comm}}:进程名{{.ExeBase}}:可执行文件的文件名,与进程的区别是,进程名有长度15的限制{{.ExeFull}}:可执行文件的全路径{{.Username}}:进程的有效用户名{{.Matches}}:用正则匹配cmdline等字段时得到的匹配项的map,例如下面的Cfgfile{{.PID}}:pid,使用pid表示这个组只会有这一个进程{{.StartTime}}:进程的起始时间{{.Cgroups}}:进程的cgoup,可以用于区分不同的容器进行分组进程过滤除了使用cmdline字段,还可以使用comm和exe,分别表示进程名和二进制路径,并且遵循以下规则:
如果使用了多个字段,则必须都匹配,例如,如果既使用了comm,又使用了exe,两个过滤必须都满足对于comm和exe,它们是字符串数组,并且是OR的关系对于cmdline,则是正则表达式数组,并且是AND的关系例如:
复制process_names: # 进程名过滤,超过15个字符会被截断 - comm: - bash # argv[0],如果开头不是/,说明匹配进程名 # 如果开头是/,则需要使用二进制路径全匹配 - exe: - postgres - /usr/local/bin/prometheus # 如果使用多个字段进行匹配,则需要都匹配 - name: "{{.ExeFull}}:{{.Matches.Cfgfile}}" exe: - /usr/local/bin/process-exporter cmdline: - -config.path\s+(?P<Cfgfile>\S+)1.2.3.4.5.6.7.8.9.10.11.12.13.14.15.16.17. 复制# 监控NVIDIA GPU进程 filter: - name: gpu-process pattern: "^nvidia-smi" env: ["NVIDIA_VISIBLE_DEVICES=all"]1.2.3.4.5.通过DaemonSet部署的Process Exporter,配合Prometheus Operator和Grafana看板,可构建覆盖 容器进程-宿主机服务-硬件资源 的全维度监控体系。建议按照以下步骤落地:
分阶段实施:从测试环境到生产逐步推进制定监控SLA:明确不同级别进程的监控指标阈值定期演练:模拟进程异常验证告警有效性延伸学习
官方文档:https://process_exporter.readthedocs.ioKubernetes监控白皮书(https://example.com/k8s-monitoring-whitepaper)随机阅读
热门排行
友情链接