#SRE
标签 · 共 2 篇

Linux / 网络 / 数据库基础设施··11 分钟
一个空闲 logical slot 把 pg_wal 涨到 339MB:PostgreSQL 复制槽 WAL 保留的工程边界
复制槽是 PostgreSQL 让下游可靠消费 WAL 的机制,但它会把磁盘风险静默转嫁回主库。本文用 PostgreSQL 17 实测验证 max_slot_wal_keep_size 的两种行为分支(lost / extended),结合 17 新增的 invalidation_reason / inactive_since 列,给出复制槽监控、heartbeat 与失效处置的工程边界。
#PostgreSQL#Logical Replication#Replication Slots

Kubernetes / 平台工程··5 分钟
Kubernetes GPU 推理平台的可观测性闭环:从 DCGM 到业务 SLO
把 GPU 指标、推理服务遥测、队列状态和业务 SLO 合并为平台工程可执行的闭环。
#Kubernetes#GPU#LLMOps