config: Make max tokens a pointer

rumpl · rumpl · commit b1a2a7bb6cc5 · 2025-12-15T16:01:54.000+01:00
Since it's optional

Signed-off-by: Djordje Lukic &lt;djordje.lukic@docker.com&gt;
diff --git a/pkg/config/auto.go b/pkg/config/auto.go
@@ -50,11 +50,12 @@ func AutoModelConfig(ctx context.Context, modelsGateway string, env environment.
 	}
 }
 
-func PreferredMaxTokens(provider string) int {
+func PreferredMaxTokens(provider string) *int64 {
+	var mt int64 = 32000
 	if provider == "dmr" {
-		return 16000
+		mt = 16000
 	}
-	return 64000
+	return &mt
 }
 
 // AutoEmbeddingModelConfigs returns the ordered list of embedding-capable models
diff --git a/pkg/config/latest/types.go b/pkg/config/latest/types.go
@@ -46,7 +46,7 @@ type ModelConfig struct {
 	Provider          string   `json:"provider,omitempty"`
 	Model             string   `json:"model,omitempty"`
 	Temperature       *float64 `json:"temperature,omitempty"`
-	MaxTokens         int      `json:"max_tokens,omitempty"`
+	MaxTokens         *int64   `json:"max_tokens,omitempty"`
 	TopP              *float64 `json:"top_p,omitempty"`
 	FrequencyPenalty  *float64 `json:"frequency_penalty,omitempty"`
 	PresencePenalty   *float64 `json:"presence_penalty,omitempty"`
diff --git a/pkg/model/provider/anthropic/beta_client.go b/pkg/model/provider/anthropic/beta_client.go
@@ -339,14 +339,7 @@ func (c *Client) Rerank(ctx context.Context, query string, documents []types.Doc
 		"additionalProperties": false,
 	}
 
-	// Use max_tokens from model config if specified, otherwise use a reasonable
-	// default (8192) that works for most reranking scenarios. Anthropic requires
-	// max_tokens to be set explicitly (unlike OpenAI which can rely on defaults).
-	maxTokens := int64(8192)
-	if c.ModelConfig.MaxTokens > 0 {
-		maxTokens = int64(c.ModelConfig.MaxTokens)
-	}
-
+	maxTokens := c.ModelOptions.MaxTokens()
 	params := anthropic.BetaMessageNewParams{
 		Model:     anthropic.Model(c.ModelConfig.Model),
 		MaxTokens: maxTokens,
diff --git a/pkg/model/provider/anthropic/client.go b/pkg/model/provider/anthropic/client.go
@@ -41,7 +41,7 @@ func (c *Client) adjustMaxTokensForThinking(maxTokens int64) (int64, error) {
 	minRequired := thinkingTokens + 1024 // configured thinking budget + minimum output buffer
 
 	if maxTokens <= thinkingTokens {
-		userSetMaxTokens := c.ModelConfig.MaxTokens > 0
+		userSetMaxTokens := c.ModelConfig.MaxTokens != nil
 		if userSetMaxTokens {
 			// User explicitly set max_tokens too low - return error
 			slog.Error("Anthropic: max_tokens must be greater than thinking_budget",
@@ -193,11 +193,7 @@ func (c *Client) CreateChatCompletionStream(
 		"message_count", len(messages),
 		"tool_count", len(requestTools))
 
-	maxTokens := int64(c.ModelConfig.MaxTokens)
-	if maxTokens == 0 {
-		maxTokens = 8192 // Default output budget when not specified
-	}
-
+	maxTokens := c.ModelOptions.MaxTokens()
 	maxTokens, err := c.adjustMaxTokensForThinking(maxTokens)
 	if err != nil {
 		return nil, err
diff --git a/pkg/model/provider/clone.go b/pkg/model/provider/clone.go
@@ -23,9 +23,8 @@ func CloneWithOptions(ctx context.Context, base Provider, opts ...options.Opt) P
 	for _, opt := range mergedOpts {
 		tempOpts := &options.ModelOptions{}
 		opt(tempOpts)
-		if maxTokens := tempOpts.MaxTokens(); maxTokens != nil {
-			modelConfig.MaxTokens = *maxTokens
-		}
+		mt := tempOpts.MaxTokens()
+		modelConfig.MaxTokens = &mt
 	}
 
 	clone, err := New(ctx, &modelConfig, config.Env, mergedOpts...)
diff --git a/pkg/model/provider/dmr/client.go b/pkg/model/provider/dmr/client.go
@@ -536,9 +536,9 @@ func (c *Client) CreateChatCompletionStream(ctx context.Context, messages []chat
 		params.ParallelToolCalls = openai.Bool(*c.ModelConfig.ParallelToolCalls)
 	}
 
-	if c.ModelConfig.MaxTokens > 0 {
-		params.MaxTokens = openai.Int(int64(c.ModelConfig.MaxTokens))
-		slog.Debug("DMR request configured with max tokens", "max_tokens", c.ModelConfig.MaxTokens)
+	if c.ModelConfig.MaxTokens != nil {
+		params.MaxTokens = openai.Int(*c.ModelConfig.MaxTokens)
+		slog.Debug("DMR request configured with max tokens", "max_tokens", *c.ModelConfig.MaxTokens)
 	}
 
 	if len(requestTools) > 0 {
@@ -982,9 +982,9 @@ type speculativeDecodingOpts struct {
 	acceptanceRate float64
 }
 
-func parseDMRProviderOpts(cfg *latest.ModelConfig) (contextSize int, runtimeFlags []string, specOpts *speculativeDecodingOpts) {
+func parseDMRProviderOpts(cfg *latest.ModelConfig) (contextSize *int64, runtimeFlags []string, specOpts *speculativeDecodingOpts) {
 	if cfg == nil {
-		return 0, nil, nil
+		return nil, nil, nil
 	}
 
 	// Context length is now sourced from the standard max_tokens field
@@ -1129,7 +1129,7 @@ func modelExists(ctx context.Context, model string) bool {
 	return true
 }
 
-func configureDockerModel(ctx context.Context, model string, contextSize int, runtimeFlags []string, specOpts *speculativeDecodingOpts) error {
+func configureDockerModel(ctx context.Context, model string, contextSize *int64, runtimeFlags []string, specOpts *speculativeDecodingOpts) error {
 	args := buildDockerModelConfigureArgs(model, contextSize, runtimeFlags, specOpts)
 
 	cmd := exec.CommandContext(ctx, "docker", args...)
@@ -1146,10 +1146,10 @@ func configureDockerModel(ctx context.Context, model string, contextSize int, ru
 
 // buildDockerModelConfigureArgs returns the argument vector passed to `docker` for model configuration.
 // It formats context size, speculative decoding options, and runtime flags consistently with the CLI contract.
-func buildDockerModelConfigureArgs(model string, contextSize int, runtimeFlags []string, specOpts *speculativeDecodingOpts) []string {
+func buildDockerModelConfigureArgs(model string, contextSize *int64, runtimeFlags []string, specOpts *speculativeDecodingOpts) []string {
 	args := []string{"model", "configure"}
-	if contextSize > 0 {
-		args = append(args, "--context-size="+strconv.Itoa(contextSize))
+	if contextSize != nil {
+		args = append(args, "--context-size="+strconv.FormatInt(*contextSize, 10))
 	}
 	if specOpts != nil {
 		if specOpts.draftModel != "" {
diff --git a/pkg/model/provider/dmr/client_test.go b/pkg/model/provider/dmr/client_test.go
@@ -32,7 +32,7 @@ func TestNewClientWithWrongType(t *testing.T) {
 }
 
 func TestBuildDockerConfigureArgs(t *testing.T) {
-	args := buildDockerModelConfigureArgs("ai/qwen3:14B-Q6_K", 8192, []string{"--temp", "0.7", "--top-p", "0.9"}, nil)
+	args := buildDockerModelConfigureArgs("ai/qwen3:14B-Q6_K", int64Ptr(8192), []string{"--temp", "0.7", "--top-p", "0.9"}, nil)
 
 	assert.Equal(t, []string{"model", "configure", "--context-size=8192", "ai/qwen3:14B-Q6_K", "--", "--temp", "0.7", "--top-p", "0.9"}, args)
 }
@@ -52,7 +52,7 @@ func TestIntegrateFlagsWithProviderOptsOrder(t *testing.T) {
 	cfg := &latest.ModelConfig{
 		Temperature: floatPtr(0.6),
 		TopP:        floatPtr(0.9),
-		MaxTokens:   4096,
+		MaxTokens:   int64Ptr(4096),
 		ProviderOpts: map[string]any{
 			"runtime_flags": []string{"--threads", "6"},
 		},
@@ -84,13 +84,17 @@ func floatPtr(f float64) *float64 {
 	return &f
 }
 
+func int64Ptr(i int64) *int64 {
+	return &i
+}
+
 func TestBuildDockerConfigureArgsWithSpeculativeDecoding(t *testing.T) {
 	specOpts := &speculativeDecodingOpts{
 		draftModel:     "ai/qwen3:1B",
 		numTokens:      5,
 		acceptanceRate: 0.8,
 	}
-	args := buildDockerModelConfigureArgs("ai/qwen3:14B-Q6_K", 8192, []string{"--temp", "0.7"}, specOpts)
+	args := buildDockerModelConfigureArgs("ai/qwen3:14B-Q6_K", int64Ptr(8192), []string{"--temp", "0.7"}, specOpts)
 
 	assert.Equal(t, []string{
 		"model", "configure",
@@ -110,7 +114,7 @@ func TestBuildDockerConfigureArgsWithPartialSpeculativeDecoding(t *testing.T) {
 		numTokens:  5,
 		// acceptanceRate not set (0 value)
 	}
-	args := buildDockerModelConfigureArgs("ai/qwen3:14B-Q6_K", 0, nil, specOpts)
+	args := buildDockerModelConfigureArgs("ai/qwen3:14B-Q6_K", nil, nil, specOpts)
 
 	assert.Equal(t, []string{
 		"model", "configure",
@@ -122,7 +126,7 @@ func TestBuildDockerConfigureArgsWithPartialSpeculativeDecoding(t *testing.T) {
 
 func TestParseDMRProviderOptsWithSpeculativeDecoding(t *testing.T) {
 	cfg := &latest.ModelConfig{
-		MaxTokens: 4096,
+		MaxTokens: int64Ptr(4096),
 		ProviderOpts: map[string]any{
 			"speculative_draft_model":     "ai/qwen3:1B",
 			"speculative_num_tokens":      "5",
@@ -143,7 +147,7 @@ func TestParseDMRProviderOptsWithSpeculativeDecoding(t *testing.T) {
 
 func TestParseDMRProviderOptsWithoutSpeculativeDecoding(t *testing.T) {
 	cfg := &latest.ModelConfig{
-		MaxTokens: 4096,
+		MaxTokens: int64Ptr(4096),
 		ProviderOpts: map[string]any{
 			"runtime_flags": []string{"--threads", "8"},
 		},
diff --git a/pkg/model/provider/gemini/client.go b/pkg/model/provider/gemini/client.go
@@ -287,8 +287,8 @@ func convertMessagesToGemini(messages []chat.Message) []*genai.Content {
 // buildConfig creates GenerateContentConfig from model config
 func (c *Client) buildConfig() *genai.GenerateContentConfig {
 	config := &genai.GenerateContentConfig{}
-	if c.ModelConfig.MaxTokens > 0 {
-		config.MaxOutputTokens = int32(c.ModelConfig.MaxTokens)
+	if c.ModelConfig.MaxTokens != nil {
+		config.MaxOutputTokens = int32(*c.ModelConfig.MaxTokens)
 	}
 	if c.ModelConfig.Temperature != nil {
 		config.Temperature = genai.Ptr(float32(*c.ModelConfig.Temperature))
diff --git a/pkg/model/provider/openai/client.go b/pkg/model/provider/openai/client.go
@@ -314,12 +314,12 @@ func (c *Client) CreateChatCompletionStream(
 		params.PresencePenalty = openai.Float(*c.ModelConfig.PresencePenalty)
 	}
 
-	if maxToken := c.ModelConfig.MaxTokens; maxToken > 0 {
+	if maxToken := c.ModelConfig.MaxTokens; maxToken != nil {
 		if !isResponsesOnlyModel(c.ModelConfig.Model) {
-			params.MaxTokens = openai.Int(int64(maxToken))
-			slog.Debug("OpenAI request configured with max tokens", "max_tokens", maxToken, "model", c.ModelConfig.Model)
+			params.MaxTokens = openai.Int(*maxToken)
+			slog.Debug("OpenAI request configured with max tokens", "max_tokens", *maxToken, "model", c.ModelConfig.Model)
 		} else {
-			params.MaxCompletionTokens = openai.Int(int64(maxToken))
+			params.MaxCompletionTokens = openai.Int(*maxToken)
 			slog.Debug("using max_completion_tokens instead of max_tokens for Responses-API models", "model", c.ModelConfig.Model)
 		}
 	}
@@ -428,8 +428,8 @@ func (c *Client) CreateResponseStream(
 		params.TopP = param.NewOpt(*c.ModelConfig.TopP)
 	}
 
-	if maxToken := c.ModelConfig.MaxTokens; maxToken > 0 {
-		params.MaxOutputTokens = param.NewOpt(int64(maxToken))
+	if maxToken := c.ModelConfig.MaxTokens; maxToken != nil {
+		params.MaxOutputTokens = param.NewOpt(*maxToken)
 		slog.Debug("OpenAI responses request configured with max output tokens", "max_output_tokens", maxToken)
 	}
 
diff --git a/pkg/model/provider/options/options.go b/pkg/model/provider/options/options.go
@@ -4,11 +4,13 @@ import (
 	"github.com/docker/cagent/pkg/config/latest"
 )
 
+const defaultMaxTokens = 32000
+
 type ModelOptions struct {
 	gateway          string
 	structuredOutput *latest.StructuredOutput
 	generatingTitle  bool
-	maxTokens        *int
+	maxTokens        int64
 }
 
 func (c *ModelOptions) Gateway() string {
@@ -23,7 +25,10 @@ func (c *ModelOptions) GeneratingTitle() bool {
 	return c.generatingTitle
 }
 
-func (c *ModelOptions) MaxTokens() *int {
+func (c *ModelOptions) MaxTokens() int64 {
+	if c.maxTokens == 0 {
+		return defaultMaxTokens
+	}
 	return c.maxTokens
 }
 
@@ -47,9 +52,9 @@ func WithGeneratingTitle() Opt {
 	}
 }
 
-func WithMaxTokens(maxTokens int) Opt {
+func WithMaxTokens(maxTokens int64) Opt {
 	return func(cfg *ModelOptions) {
-		cfg.maxTokens = &maxTokens
+		cfg.maxTokens = maxTokens
 	}
 }
 
@@ -66,8 +71,7 @@ func FromModelOptions(m ModelOptions) []Opt {
 	if m.generatingTitle {
 		out = append(out, WithGeneratingTitle())
 	}
-	if m.maxTokens != nil {
-		out = append(out, WithMaxTokens(*m.maxTokens))
-	}
+	out = append(out, WithMaxTokens(m.maxTokens))
+
 	return out
 }

Original file line number	Diff line number	Diff line change
`@@ -50,11 +50,12 @@ func AutoModelConfig(ctx context.Context, modelsGateway string, env environment.`
`50`	`50`	`}`
`51`	`51`	`}`
`52`	`52`
`53`		`-func PreferredMaxTokens(provider string) int {`
	`53`	`+func PreferredMaxTokens(provider string) *int64 {`
	`54`	`+ var mt int64 = 32000`
`54`	`55`	`if provider == "dmr" {`
`55`		`- return 16000`
	`56`	`+ mt = 16000`
`56`	`57`	`}`
`57`		`- return 64000`
	`58`	`+ return &mt`
`58`	`59`	`}`
`59`	`60`
`60`	`61`	`// AutoEmbeddingModelConfigs returns the ordered list of embedding-capable models`
Original file line number	Diff line number	Diff line change
`@@ -314,12 +314,12 @@ func (c *Client) CreateChatCompletionStream(`
`314`	`314`	`params.PresencePenalty = openai.Float(*c.ModelConfig.PresencePenalty)`
`315`	`315`	`}`
`316`	`316`
`317`		`- if maxToken := c.ModelConfig.MaxTokens; maxToken > 0 {`
	`317`	`+ if maxToken := c.ModelConfig.MaxTokens; maxToken != nil {`
`318`	`318`	`if !isResponsesOnlyModel(c.ModelConfig.Model) {`
`319`		`- params.MaxTokens = openai.Int(int64(maxToken))`
`320`		`- slog.Debug("OpenAI request configured with max tokens", "max_tokens", maxToken, "model", c.ModelConfig.Model)`
	`319`	`+ params.MaxTokens = openai.Int(*maxToken)`
	`320`	`+ slog.Debug("OpenAI request configured with max tokens", "max_tokens", *maxToken, "model", c.ModelConfig.Model)`
`321`	`321`	`} else {`
`322`		`- params.MaxCompletionTokens = openai.Int(int64(maxToken))`
	`322`	`+ params.MaxCompletionTokens = openai.Int(*maxToken)`
`323`	`323`	`slog.Debug("using max_completion_tokens instead of max_tokens for Responses-API models", "model", c.ModelConfig.Model)`
`324`	`324`	`}`
`325`	`325`	`}`
`@@ -428,8 +428,8 @@ func (c *Client) CreateResponseStream(`
`428`	`428`	`params.TopP = param.NewOpt(*c.ModelConfig.TopP)`
`429`	`429`	`}`
`430`	`430`
`431`		`- if maxToken := c.ModelConfig.MaxTokens; maxToken > 0 {`
`432`		`- params.MaxOutputTokens = param.NewOpt(int64(maxToken))`
	`431`	`+ if maxToken := c.ModelConfig.MaxTokens; maxToken != nil {`
	`432`	`+ params.MaxOutputTokens = param.NewOpt(*maxToken)`
`433`	`433`	`slog.Debug("OpenAI responses request configured with max output tokens", "max_output_tokens", maxToken)`
`434`	`434`	`}`
`435`	`435`
Original file line number	Diff line number	Diff line change
`@@ -4,11 +4,13 @@ import (`
`4`	`4`	`"github.com/docker/cagent/pkg/config/latest"`
`5`	`5`	`)`
`6`	`6`
	`7`	`+const defaultMaxTokens = 32000`
	`8`	`+`
`7`	`9`	`type ModelOptions struct {`
`8`	`10`	`gateway string`
`9`	`11`	`structuredOutput *latest.StructuredOutput`
`10`	`12`	`generatingTitle bool`
`11`		`- maxTokens *int`
	`13`	`+ maxTokens int64`
`12`	`14`	`}`
`13`	`15`
`14`	`16`	`func (c *ModelOptions) Gateway() string {`
`@@ -23,7 +25,10 @@ func (c *ModelOptions) GeneratingTitle() bool {`
`23`	`25`	`return c.generatingTitle`
`24`	`26`	`}`
`25`	`27`
`26`		`-func (c ModelOptions) MaxTokens() int {`
	`28`	`+func (c *ModelOptions) MaxTokens() int64 {`
	`29`	`+ if c.maxTokens == 0 {`
	`30`	`+ return defaultMaxTokens`
	`31`	`+ }`
`27`	`32`	`return c.maxTokens`
`28`	`33`	`}`
`29`	`34`
`@@ -47,9 +52,9 @@ func WithGeneratingTitle() Opt {`
`47`	`52`	`}`
`48`	`53`	`}`
`49`	`54`
`50`		`-func WithMaxTokens(maxTokens int) Opt {`
	`55`	`+func WithMaxTokens(maxTokens int64) Opt {`
`51`	`56`	`return func(cfg *ModelOptions) {`
`52`		`- cfg.maxTokens = &maxTokens`
	`57`	`+ cfg.maxTokens = maxTokens`
`53`	`58`	`}`
`54`	`59`	`}`
`55`	`60`
`@@ -66,8 +71,7 @@ func FromModelOptions(m ModelOptions) []Opt {`
`66`	`71`	`if m.generatingTitle {`
`67`	`72`	`out = append(out, WithGeneratingTitle())`
`68`	`73`	`}`
`69`		`- if m.maxTokens != nil {`
`70`		`- out = append(out, WithMaxTokens(*m.maxTokens))`
`71`		`- }`
	`74`	`+ out = append(out, WithMaxTokens(m.maxTokens))`
	`75`	`+`
`72`	`76`	`return out`
`73`	`77`	`}`