Don't track usage when asked not to

dgageot · dgageot · commit 7736f3358a02 · 2025-11-21T19:34:22.000+01:00
Signed-off-by: David Gageot &lt;david.gageot@docker.com&gt;
diff --git a/pkg/model/provider/anthropic/adapter.go b/pkg/model/provider/anthropic/adapter.go
@@ -13,14 +13,16 @@ import (
 
 // streamAdapter adapts the Anthropic stream to our interface
 type streamAdapter struct {
-	stream   *ssestream.Stream[anthropic.MessageStreamEventUnion]
-	toolCall bool
-	toolID   string
+	stream     *ssestream.Stream[anthropic.MessageStreamEventUnion]
+	trackUsage bool
+	toolCall   bool
+	toolID     string
 }
 
-func newStreamAdapter(stream *ssestream.Stream[anthropic.MessageStreamEventUnion]) *streamAdapter {
+func newStreamAdapter(stream *ssestream.Stream[anthropic.MessageStreamEventUnion], trackUsage bool) *streamAdapter {
 	return &streamAdapter{
-		stream: stream,
+		stream:     stream,
+		trackUsage: trackUsage,
 	}
 }
 
@@ -96,11 +98,13 @@ func (a *streamAdapter) Recv() (chat.MessageStreamResponse, error) {
 			return response, fmt.Errorf("unknown delta type: %T", deltaVariant)
 		}
 	case anthropic.MessageDeltaEvent:
-		response.Usage = &chat.Usage{
-			InputTokens:        int(eventVariant.Usage.InputTokens),
-			OutputTokens:       int(eventVariant.Usage.OutputTokens),
-			CachedInputTokens:  int(eventVariant.Usage.CacheReadInputTokens),
-			CachedOutputTokens: int(eventVariant.Usage.CacheCreationInputTokens),
+		if a.trackUsage {
+			response.Usage = &chat.Usage{
+				InputTokens:        int(eventVariant.Usage.InputTokens),
+				OutputTokens:       int(eventVariant.Usage.OutputTokens),
+				CachedInputTokens:  int(eventVariant.Usage.CacheReadInputTokens),
+				CachedOutputTokens: int(eventVariant.Usage.CacheCreationInputTokens),
+			}
 		}
 	case anthropic.MessageStopEvent:
 		if a.toolCall {
diff --git a/pkg/model/provider/anthropic/client.go b/pkg/model/provider/anthropic/client.go
@@ -256,7 +256,9 @@ func (c *Client) CreateChatCompletionStream(
 	}
 
 	stream := client.Messages.NewStreaming(ctx, params)
-	ad := newStreamAdapter(stream)
+	trackUsage := c.ModelConfig.TrackUsage == nil || *c.ModelConfig.TrackUsage
+	ad := newStreamAdapter(stream, trackUsage)
+
 	slog.Debug("Anthropic chat completion stream created successfully", "model", c.ModelConfig.Model)
 	return ad, nil
 }
diff --git a/pkg/model/provider/gemini/adapter.go b/pkg/model/provider/gemini/adapter.go
@@ -19,6 +19,7 @@ import (
 type StreamAdapter struct {
 	ch           chan result
 	model        string
+	trackUsage   bool
 	mu           sync.Mutex
 	lastResponse *genai.GenerateContentResponse // Store last response for final message
 }
@@ -30,10 +31,11 @@ type result struct {
 }
 
 // NewStreamAdapter constructs a StreamAdapter from Gemini's iterator
-func NewStreamAdapter(iter func(func(*genai.GenerateContentResponse, error) bool), model string) *StreamAdapter {
+func NewStreamAdapter(iter func(func(*genai.GenerateContentResponse, error) bool), model string, trackUsage bool) *StreamAdapter {
 	adapter := &StreamAdapter{
-		ch:    make(chan result),
-		model: model,
+		ch:         make(chan result),
+		model:      model,
+		trackUsage: trackUsage,
 	}
 
 	go func() {
@@ -173,7 +175,7 @@ func (g *StreamAdapter) Recv() (chat.MessageStreamResponse, error) {
 		resp.ID = res.resp.ResponseID
 
 		// Handle token usage if present
-		if res.resp.UsageMetadata != nil {
+		if res.resp.UsageMetadata != nil && g.trackUsage {
 			resp.Usage = &chat.Usage{
 				InputTokens:        int(res.resp.UsageMetadata.PromptTokenCount),
 				OutputTokens:       int(res.resp.UsageMetadata.CandidatesTokenCount),
diff --git a/pkg/model/provider/gemini/adapter_test.go b/pkg/model/provider/gemini/adapter_test.go
@@ -34,7 +34,7 @@ func TestStreamAdapter_FunctionCalls(t *testing.T) {
 			fn(mockResp, nil)
 		}
 
-		adapter := NewStreamAdapter(iter, "test-model")
+		adapter := NewStreamAdapter(iter, "test-model", true)
 
 		// Read the response
 		resp, err := adapter.Recv()
diff --git a/pkg/model/provider/gemini/client.go b/pkg/model/provider/gemini/client.go
@@ -388,7 +388,8 @@ func (c *Client) CreateChatCompletionStream(
 
 	// Build a fresh client per request when using the gateway
 	iter := client.Models.GenerateContentStream(ctx, c.ModelConfig.Model, contents, config)
-	return NewStreamAdapter(iter, c.ModelConfig.Model), nil
+	trackUsage := c.ModelConfig.TrackUsage == nil || *c.ModelConfig.TrackUsage
+	return NewStreamAdapter(iter, c.ModelConfig.Model, trackUsage), nil
 }
 
 // Rerank scores documents by relevance to the query using Gemini's structured
diff --git a/pkg/model/provider/oaistream/adapter.go b/pkg/model/provider/oaistream/adapter.go
@@ -111,20 +111,23 @@ func (a *StreamAdapter) Recv() (chat.MessageStreamResponse, error) {
 
 	// Check if Usage field is present using the JSON metadata
 	if openaiResponse.JSON.Usage.Valid() {
-		usage := openaiResponse.Usage
-		response.Usage = &chat.Usage{
-			InputTokens:        int(usage.PromptTokens),
-			OutputTokens:       int(usage.CompletionTokens),
-			CachedInputTokens:  0,
-			CachedOutputTokens: 0,
-			ReasoningTokens:    0,
-		}
-		if usage.JSON.PromptTokensDetails.Valid() {
-			response.Usage.CachedInputTokens = int(usage.PromptTokensDetails.CachedTokens)
-		}
-		if usage.JSON.CompletionTokensDetails.Valid() {
-			response.Usage.ReasoningTokens = int(usage.CompletionTokensDetails.ReasoningTokens)
+		if a.trackUsage {
+			usage := openaiResponse.Usage
+			response.Usage = &chat.Usage{
+				InputTokens:        int(usage.PromptTokens),
+				OutputTokens:       int(usage.CompletionTokens),
+				CachedInputTokens:  0,
+				CachedOutputTokens: 0,
+				ReasoningTokens:    0,
+			}
+			if usage.JSON.PromptTokensDetails.Valid() {
+				response.Usage.CachedInputTokens = int(usage.PromptTokensDetails.CachedTokens)
+			}
+			if usage.JSON.CompletionTokensDetails.Valid() {
+				response.Usage.ReasoningTokens = int(usage.CompletionTokensDetails.ReasoningTokens)
+			}
 		}
+
 		// Use the tracked finish reason instead of hardcoding stop
 		finishReason := a.lastFinishReason
 		if finishReason == chat.FinishReasonNull || finishReason == "" {

Original file line number	Diff line number	Diff line change
`@@ -256,7 +256,9 @@ func (c *Client) CreateChatCompletionStream(`
`256`	`256`	`}`
`257`	`257`
`258`	`258`	`stream := client.Messages.NewStreaming(ctx, params)`
`259`		`- ad := newStreamAdapter(stream)`
	`259`	`+ trackUsage := c.ModelConfig.TrackUsage == nil \|\| *c.ModelConfig.TrackUsage`
	`260`	`+ ad := newStreamAdapter(stream, trackUsage)`
	`261`	`+`
`260`	`262`	`slog.Debug("Anthropic chat completion stream created successfully", "model", c.ModelConfig.Model)`
`261`	`263`	`return ad, nil`
`262`	`264`	`}`
Original file line number	Diff line number	Diff line change
`@@ -34,7 +34,7 @@ func TestStreamAdapter_FunctionCalls(t *testing.T) {`
`34`	`34`	`fn(mockResp, nil)`
`35`	`35`	`}`
`36`	`36`
`37`		`- adapter := NewStreamAdapter(iter, "test-model")`
	`37`	`+ adapter := NewStreamAdapter(iter, "test-model", true)`
`38`	`38`
`39`	`39`	`// Read the response`
`40`	`40`	`resp, err := adapter.Recv()`
Original file line number	Diff line number	Diff line change
`@@ -388,7 +388,8 @@ func (c *Client) CreateChatCompletionStream(`
`388`	`388`
`389`	`389`	`// Build a fresh client per request when using the gateway`
`390`	`390`	`iter := client.Models.GenerateContentStream(ctx, c.ModelConfig.Model, contents, config)`
`391`		`- return NewStreamAdapter(iter, c.ModelConfig.Model), nil`
	`391`	`+ trackUsage := c.ModelConfig.TrackUsage == nil \|\| *c.ModelConfig.TrackUsage`
	`392`	`+ return NewStreamAdapter(iter, c.ModelConfig.Model, trackUsage), nil`
`392`	`393`	`}`
`393`	`394`
`394`	`395`	`// Rerank scores documents by relevance to the query using Gemini's structured`