#Post-Training

标签 · 共 1 篇

大模型微调与后训练·2026/06/07·5 分钟

后训练流水线不是调参脚本：从数据契约到偏好评估

将 SFT、DPO 与合成数据治理放入同一条可复现流水线，强调数据契约、评估门禁和回滚机制。

#Post-Training#DPO#Synthetic-Data