Traefik的可观测性方案

2020-04-07

运维

5057 words 11 min read

Traefik的可观测性支持

traefik-observability

注意: 在Traefik-2.X的生态里，将可观测性分为了如下几个部分，并提升到了专门的功能说明中

服务日志: Traefik进程本身相关的操作日志
访问日志: 由Traefik接管的代理服务的访问日志(access.log)
Metrics: Traefik提供的自身详细的metrics数据
Tracing: Traefik也提供了追踪相关的接口，用来可视化分布式或微服务中的调用情况

基于DCGM和Prometheus的GPU监控方案

2020-04-05

运维 kubernetes

3144 words 7 min read

基于DCGM和Prometheus的GPU监控方案

背景: 在早期的GPU监控中我们会使用一些NVML工具来对GPU卡的基本信息进行采集，并持久化到监控系统的数据存储层。因为我们知道，其实通过nvidia-smi这样的命令也是可以获取到GPU的基本信息的，但随着整个AI市场的发展和成熟，对于GPU的监控也越来越需要一套标准化的工具体系，也就是本篇文章讲的关于DCGM相关的监控解决方案。

构建更小Docker镜像的一些建议

2020-03-22

运维 kubernetes 效率

1909 words 4 min read

背景: 前两天在群里看到有人提到说，自己构建了一个镜像，明明就只往base镜像中增加了tomcat，但是构建好的镜像大小最终却是两倍的tomcat包的大小，最后看到Dockerfile后才发现作者在把tomcat包拷贝进去之后，又使用RUN指令，执行了一次chmod a+x tomcat，我想说，这么搞镜像不大那是不可能的。另外一件事就是前段时间，同事说让搞一个公司级别的base镜像，要稳定并且尽量小，借着这两个事，和大家分享几点Docker镜像相关的事情。