进阶

消息压缩

4 种策略保持对话在上下文窗口限制内

~6 分钟阅读

压缩策略

压缩模块文件

实现代码行数

这是什么？ #

AI 模型有一个'记忆限制' — 它们一次只能处理一定量的文本（上下文窗口）。随着对话中工具调用、文件内容和响应的增长，可能会超过这个限制。

消息压缩就像一个聪明的笔记员坐在你的对话旁。当内容太长时，它会总结较旧的消息，同时保留重要的上下文。你永远不会注意到它在发生，但这就是 Claude Code 能够处理长达数小时的编码会话而不崩溃的原因。

不同情况下的不同策略

当对话超过 token 预算时触发。优先总结最旧的消息，保留最近的上下文。最常见的策略 — 处理约 90% 的情况。

在流式响应生成过程中监控 token 使用。如果响应本身增长过大，触发流中压缩以防止上下文溢出。

在对话历史中使用边界标记来识别安全的剪切点。移除整个段落（如大型文件内容），同时保留摘要标记。比自动压缩更精确。

对单个工具结果进行内联摘要，而非压缩整个消息范围。在单个工具输出（如大型文件读取）占据上下文时特别有用。

token 预算如何保持对话健康

压缩前

90%

阈值

→ ↓

压缩后

40%

阈值