遥测、审计与可观测性：企业级监控

官方原文索引： Agent-native Telemetry / OpenTelemetry / Compliance Logs

1. 核心架构与原理解析

传统安全日志回答"发生了什么"（What），Codex 的 Agent-native 遥测回答"为什么"（Why）：

事件类型	传统端点安全日志	Codex Agent 日志
用户 Prompt	❌ 无	✅ 完整记录意图
工具审批决策	❌ 需推断	✅ 明确记录决策路径
MCP 服务器调用	❌ 无	✅ 完整记录调用链
网络代理决策	✅ 有	✅ 有 + 策略触发原因

遥测架构拓扑：

AI 安全分流 Agent（AI Security Triage）：

2. 工程落地与代码示例

OpenTelemetry 配置

# ~/.codex/config.toml
[otel]
log_user_prompt = true          # 记录用户原始输入
log_tool_approvals = true       # 记录审批决策
log_mcp_usage = true            # 记录 MCP 调用
environment = "production"
 
[otel.exporter.otlp-http]
endpoint = "http://datadog:4318/v1/logs"
protocol = "binary"
 
# 自定义资源属性：便于 SIEM 关联分析
[otel.resource_attributes]
service.name = "codex-cli"
service.version = "0.132.0"
deployment.environment = "production"
team = "platform-engineering"
cost_center = "eng-infra"

合规平台对接

Codex 活动日志自动同步至 OpenAI Compliance Logs Platform（Enterprise/Edu 专属），支持：

按用户/工作空间/时间范围检索
导出 JSON/CSV 用于 SOC 2 / ISO 27001 审计
与 Splunk、Datadog、Elastic 通过 OTLP 对接

自定义告警规则

# datadog_monitor.yml
# Codex 异常行为监控
monitors:
  - name: "Codex 高权限操作"
    query: "avg(last_1h):sum:codex.tool_execution{approval:never,sandbox:danger-full-access} > 10"
    message: "检测到大量高权限自动操作，请审查"
    
  - name: "Codex 预算告警"
    query: "avg(last_1h):sum:codex.token_cost{*} > 50"
    message: "Codex Token 消耗超过 $50/小时"
    
  - name: "Codex 网络外发"
    query: "avg(last_1h):sum:codex.network_request{domain:!@whitelist} > 0"
    message: "检测到向非白名单域名的网络请求"

3. 场景深入：企业审计实践

场景：SOC 2 Type II 审计

# 生成审计所需报告
codex exec --sandbox read-only \
  "基于最近 90 天的遥测数据，生成 SOC 2 Type II 审计报告：
   1. 用户访问控制清单
   2. 权限变更记录
   3. 异常操作摘要
   4. 数据外发监控结果
   5. 安全事件响应记录"

场景：内部威胁检测

场景：成本归因分析

# 按团队分析 Codex 使用成本
codex exec "分析最近一个月的遥测数据：
  1. 按 team 标签分组统计 Token 消耗
  2. 按 model 统计成本分布
  3. 识别高成本任务模式
  4. 给出成本优化建议"

4. 💡 核心避坑与最佳实践 (Takeaways)

OpenTelemetry 是事实标准：避免自建日志格式，直接用 OTLP 对接现有可观测性栈
设置资源属性便于关联：team、cost_center、service.name 等标签是排查关键
AI Triage 需人机回环：中置信度告警创建工单，低置信度批量周审
数据驻留合规：通过 Enterprise DPA 申请数据不用于训练
日志保留策略：根据合规要求设置保留期（通常 1-3 年）
定期审查遥测配置：确保所有关键事件都被记录，没有遗漏

遥测、审计与可观测性：企业级监控

1. 核心架构与原理解析

2. 工程落地与代码示例

OpenTelemetry 配置

合规平台对接

自定义告警规则

3. 场景深入：企业审计实践

场景：SOC 2 Type II 审计

场景：内部威胁检测

场景：成本归因分析

4. 💡 核心避坑与最佳实践 (Takeaways)

评论

相关文章

大规模团队架构模式：平台化 Codex 部署

性能优化与成本控制：Token 预算管理

Plugin 开发与分发：跨团队复用