docker-agent/pkg/runtime/session_compaction.go at ab61e2b4fae106dc2ae08680c3cab4df2d2e67b1 · docker/docker-agent · GitHub

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
package runtime

import (
	"context"
	"errors"
	"log/slog"
	"time"

	"github.com/docker/docker-agent/pkg/agent"
	"github.com/docker/docker-agent/pkg/chat"
	"github.com/docker/docker-agent/pkg/compaction"
	"github.com/docker/docker-agent/pkg/model/provider"
	"github.com/docker/docker-agent/pkg/model/provider/options"
	"github.com/docker/docker-agent/pkg/modelsdev"
	"github.com/docker/docker-agent/pkg/session"
	"github.com/docker/docker-agent/pkg/team"
)

const maxSummaryTokens = 16_000

// maxKeepTokens is the maximum number of tokens to preserve from the end of
// the conversation during compaction. These recent messages are kept verbatim
// so the LLM can continue naturally after compaction.
const maxKeepTokens = 20_000

// doCompact runs compaction on a session and applies the result (events,
// persistence, token count updates). The agent is used to extract the
// conversation from the session and to obtain the model for summarization.
func (r *LocalRuntime) doCompact(ctx context.Context, sess *session.Session, a *agent.Agent, additionalPrompt string, events chan Event) {
	lg := slog.With("session_id", sess.ID, "agent", a.Name(), "action", "compaction")

	lg.Debug("Generating summary for session")
	events <- SessionCompaction(sess.ID, "started", a.Name())
	defer func() {
		events <- SessionCompaction(sess.ID, "completed", a.Name())
	}()

	// Build a model just for compaction.
	summaryModel := provider.CloneWithOptions(ctx, a.Model(),
		options.WithStructuredOutput(nil),
		options.WithMaxTokens(maxSummaryTokens),
	)

	m, err := r.modelsStore.GetModel(ctx, summaryModel.ID())
	if err != nil && errors.Is(err, modelsdev.ErrProviderNotFound) {
		lg.Debug("Provider not found; attempting to find by model name", "error", err)

		db, dberr := r.modelsStore.GetDatabase(ctx)
		if dberr != nil {
			lg.Error("Provider not found and failed to find by model name", "error", dberr)
			events <- Error("Failed to get db to find model definition: " + dberr.Error())
			return
		}

		// Find the lowest context limit for this model, regardless of the provider.
		for _, provider := range db.Providers {
			if v, ok := provider.Models[summaryModel.BaseConfig().ModelConfig.Model]; ok {
				if m == nil || v.Limit.Context < m.Limit.Context {
					m = &v
					err = nil
				}
			}
		}
	}

	if err != nil {
		lg.Error("Failed to get model definition to generate session summary", "error", err)
		events <- Error("Failed to get model definition: " + err.Error())
		return
	}

	compactionAgent := agent.New("root", compaction.SystemPrompt, agent.WithModel(summaryModel))

	// Compute the messages to compact, keeping recent messages aside.
	messages, firstKeptEntry := extractMessagesToCompact(sess, compactionAgent, int64(m.Limit.Context), additionalPrompt)

	// Run the compaction.
	compactionSession := session.New(
		session.WithTitle("Generating summary"),
		session.WithMessages(toItems(messages)),
	)

	t := team.New(team.WithAgents(compactionAgent))
	rt, err := New(t, WithSessionCompaction(false))
	if err != nil {
		lg.Error("Failed to generate session summary", "error", err)
		events <- Error(err.Error())
		return
	}
	if _, err = rt.Run(ctx, compactionSession); err != nil {
		lg.Error("Failed to generate session summary", "error", err)
		events <- Error(err.Error())
		return
	}

	summary := compactionSession.GetLastAssistantMessageContent()
	if summary == "" {
		return
	}

	// Update the session.
	sess.InputTokens = compactionSession.OutputTokens
	sess.OutputTokens = 0
	sess.Messages = append(sess.Messages, session.Item{
		Summary:        summary,
		FirstKeptEntry: firstKeptEntry,
		Cost:           compactionSession.TotalCost(),
	})
	_ = r.sessionStore.UpdateSession(ctx, sess)

	lg.Debug("Generated session summary", "summary_length", len(summary))
	events <- SessionSummary(sess.ID, summary, a.Name(), firstKeptEntry)
}

// extractMessagesToCompact returns the messages to send to the compaction model
// and the index (into sess.Messages) of the first message that was kept aside.
// Recent messages (up to maxKeepTokens) are excluded from compaction so they
// can be preserved verbatim in the session after summarization.
func extractMessagesToCompact(sess *session.Session, compactionAgent *agent.Agent, contextLimit int64, additionalPrompt string) ([]chat.Message, int) {
	// Add all the existing messages.
	var messages []chat.Message
	for _, msg := range sess.GetMessages(compactionAgent) {
		if msg.Role == chat.MessageRoleSystem {
			continue
		}

		msg.Cost = 0
		msg.CacheControl = false

		messages = append(messages, msg)
	}

	// Split: keep the last N tokens of messages aside so the LLM retains
	// recent context after compaction.
	splitIdx := splitIndexForKeep(messages, maxKeepTokens)
	messagesToCompact := messages[:splitIdx]
	// Compute firstKeptEntry: index into sess.Messages of the first kept message.
	// The kept messages start at splitIdx in the non-system filtered list. We
	// need to map this back to the original sess.Messages index.
	firstKeptEntry := mapToSessionIndex(sess, splitIdx)

	messages = messagesToCompact

	// Prepare the first (system) message.
	systemPromptMessage := chat.Message{
		Role:      chat.MessageRoleSystem,
		Content:   compaction.SystemPrompt,
		CreatedAt: time.Now().Format(time.RFC3339),
	}
	systemPromptMessageLen := compaction.EstimateMessageTokens(&systemPromptMessage)

	// Prepare the last (user) message.
	userPrompt := compaction.UserPrompt
	if additionalPrompt != "" {
		userPrompt += "\n\n" + additionalPrompt
	}
	userPromptMessage := chat.Message{
		Role:      chat.MessageRoleUser,
		Content:   userPrompt,
		CreatedAt: time.Now().Format(time.RFC3339),
	}
	userPromptMessageLen := compaction.EstimateMessageTokens(&userPromptMessage)

	// Truncate the messages so that they fit in the available context limit
	// (minus the expected max length of the summary).
	contextAvailable := max(0, contextLimit-maxSummaryTokens-systemPromptMessageLen-userPromptMessageLen)
	firstIndex := firstMessageToKeep(messages, contextAvailable)
	if firstIndex < len(messages) {
		messages = messages[firstIndex:]
	} else {
		messages = nil
	}

	// Prepend the first (system) message.
	messages = append([]chat.Message{systemPromptMessage}, messages...)

	// Append the last (user) message.
	messages = append(messages, userPromptMessage)

	return messages, firstKeptEntry
}

// splitIndexForKeep returns the index that splits messages into [0:idx] (to
// compact) and [idx:] (to keep). It walks backwards accumulating tokens up to
// maxTokens, snapping to user/assistant boundaries.
func splitIndexForKeep(messages []chat.Message, maxTokens int64) int {
	if len(messages) == 0 {
		return 0
	}

	var tokens int64
	// Walk from the end; find the earliest index whose suffix fits in maxTokens.
	lastValidBoundary := len(messages)
	for i := len(messages) - 1; i >= 0; i-- {
		tokens += compaction.EstimateMessageTokens(&messages[i])
		if tokens > maxTokens {
			return lastValidBoundary
		}
		role := messages[i].Role
		if role == chat.MessageRoleUser || role == chat.MessageRoleAssistant {
			lastValidBoundary = i
		}
	}
	// All messages fit within maxTokens — don't keep any aside (compact everything).
	return len(messages)
}

// mapToSessionIndex maps an index in the non-system-filtered message list back
// to the corresponding index in sess.Messages. It counts only message items
// that are not system messages.
func mapToSessionIndex(sess *session.Session, filteredIdx int) int {
	count := 0
	for i, item := range sess.Messages {
		if item.IsMessage() && item.Message.Message.Role != chat.MessageRoleSystem {
			if count == filteredIdx {
				return i
			}
			count++
		}
	}
	// filteredIdx is past the end — no messages to keep.
	return len(sess.Messages)
}

func firstMessageToKeep(messages []chat.Message, contextLimit int64) int {
	var tokens int64

	lastValidMessageSeen := len(messages)

	for i := len(messages) - 1; i >= 0; i-- {
		tokens += compaction.EstimateMessageTokens(&messages[i])
		if tokens > contextLimit {
			return lastValidMessageSeen
		}

		role := messages[i].Role
		if role == chat.MessageRoleUser || role == chat.MessageRoleAssistant {
			lastValidMessageSeen = i
		}
	}

	return lastValidMessageSeen
}

func toItems(messages []chat.Message) []session.Item {
	var items []session.Item

	for _, message := range messages {
		items = append(items, session.Item{
			Message: &session.Message{
				Message: message,
			},
		})
	}

	return items
}