Sooua
登录
返回文章列表
Codex··4 分钟阅读

遥测、审计与可观测性:企业级监控

传统安全日志回答"发生了什么"(What),Codex 的 Agent-native 遥测回答"为什么"(Why):

官方原文索引: Agent-native Telemetry / OpenTelemetry / Compliance Logs


1. 核心架构与原理解析

传统安全日志回答"发生了什么"(What),Codex 的 Agent-native 遥测回答"为什么"(Why):

事件类型传统端点安全日志Codex Agent 日志
用户 Prompt❌ 无✅ 完整记录意图
工具审批决策❌ 需推断✅ 明确记录决策路径
MCP 服务器调用❌ 无✅ 完整记录调用链
网络代理决策✅ 有✅ 有 + 策略触发原因

遥测架构拓扑:

AI 安全分流 Agent(AI Security Triage):


2. 工程落地与代码示例

OpenTelemetry 配置

# ~/.codex/config.toml
[otel]
log_user_prompt = true          # 记录用户原始输入
log_tool_approvals = true       # 记录审批决策
log_mcp_usage = true            # 记录 MCP 调用
environment = "production"
 
[otel.exporter.otlp-http]
endpoint = "http://datadog:4318/v1/logs"
protocol = "binary"
 
# 自定义资源属性:便于 SIEM 关联分析
[otel.resource_attributes]
service.name = "codex-cli"
service.version = "0.132.0"
deployment.environment = "production"
team = "platform-engineering"
cost_center = "eng-infra"

合规平台对接

Codex 活动日志自动同步至 OpenAI Compliance Logs Platform(Enterprise/Edu 专属),支持:

  • 按用户/工作空间/时间范围检索
  • 导出 JSON/CSV 用于 SOC 2 / ISO 27001 审计
  • 与 Splunk、Datadog、Elastic 通过 OTLP 对接

自定义告警规则

# datadog_monitor.yml
# Codex 异常行为监控
monitors:
  - name: "Codex 高权限操作"
    query: "avg(last_1h):sum:codex.tool_execution{approval:never,sandbox:danger-full-access} > 10"
    message: "检测到大量高权限自动操作,请审查"
    
  - name: "Codex 预算告警"
    query: "avg(last_1h):sum:codex.token_cost{*} > 50"
    message: "Codex Token 消耗超过 $50/小时"
    
  - name: "Codex 网络外发"
    query: "avg(last_1h):sum:codex.network_request{domain:!@whitelist} > 0"
    message: "检测到向非白名单域名的网络请求"

3. 场景深入:企业审计实践

场景:SOC 2 Type II 审计

# 生成审计所需报告
codex exec --sandbox read-only \
  "基于最近 90 天的遥测数据,生成 SOC 2 Type II 审计报告:
   1. 用户访问控制清单
   2. 权限变更记录
   3. 异常操作摘要
   4. 数据外发监控结果
   5. 安全事件响应记录"

场景:内部威胁检测

场景:成本归因分析

# 按团队分析 Codex 使用成本
codex exec "分析最近一个月的遥测数据:
  1. 按 team 标签分组统计 Token 消耗
  2. 按 model 统计成本分布
  3. 识别高成本任务模式
  4. 给出成本优化建议"

4. 💡 核心避坑与最佳实践 (Takeaways)

  • OpenTelemetry 是事实标准:避免自建日志格式,直接用 OTLP 对接现有可观测性栈
  • 设置资源属性便于关联teamcost_centerservice.name 等标签是排查关键
  • AI Triage 需人机回环:中置信度告警创建工单,低置信度批量周审
  • 数据驻留合规:通过 Enterprise DPA 申请数据不用于训练
  • 日志保留策略:根据合规要求设置保留期(通常 1-3 年)
  • 定期审查遥测配置:确保所有关键事件都被记录,没有遗漏
分享

评论

登录 后参与讨论。

加载中…

相关文章