Add rate limit retry logic and friendly error messages

shantanu patil · claude · shantanu patil · commit 7312bdda7d4e · 2026-02-09T03:00:46.000-06:00
- Backend: Retry up to 3 times with exponential backoff on 429 errors
- Backend: Reduce chat context to 200K chars to lower token usage
- Frontend: Show friendly amber-styled rate limit message instead of raw error
- Frontend: Detect 429 in SSE stream handler for clean error display

Co-Authored-By: Claude Opus 4.6 &lt;noreply@anthropic.com&gt;
diff --git a/src/core/ai_summary.py b/src/core/ai_summary.py
@@ -2,18 +2,25 @@
 
 from __future__ import annotations
 
+import asyncio
 import logging
 from enum import StrEnum
 
 import anthropic
+from anthropic import RateLimitError as _RateLimitError
 
 logger = logging.getLogger(__name__)
 
+# Retry configuration for rate-limit (429) errors
+MAX_RETRIES = 3
+RETRY_BASE_DELAY = 2  # seconds
+
 # Maximum characters to send to Claude (leave room for prompt within 200K context)
 MAX_CONTENT_CHARS = 1_500_000
 
-# Maximum characters for chat context (smaller to leave room for conversation history)
-MAX_CHAT_CONTEXT_CHARS = 500_000
+# Maximum characters for chat context (smaller to leave room for conversation history
+# and to reduce token usage for rate-limit-constrained plans)
+MAX_CHAT_CONTEXT_CHARS = 200_000
 
 # Default model for AI generation
 DEFAULT_MODEL = "claude-sonnet-4-20250514"
@@ -133,22 +140,37 @@ async def generate_summary(
         f"## File Contents\n{content}"
     )
 
-    try:
-        client = anthropic.AsyncAnthropic(api_key=api_key)
-        response = await client.messages.create(
-            model=DEFAULT_MODEL,
-            max_tokens=8192,
-            system=system_prompt,
-            messages=[{"role": "user", "content": user_content}],
-        )
-        result = response.content[0].text
-    except Exception as exc:
-        logger.exception("Claude API call failed for summary_type=%s", summary_type.value)
-        msg = f"AI summary generation failed: {exc}"
-        raise RuntimeError(msg) from exc
-
-    logger.info("Generated %s summary (%d chars)", summary_type.value, len(result))
-    return result
+    client = anthropic.AsyncAnthropic(api_key=api_key)
+    last_exc: Exception | None = None
+
+    for attempt in range(MAX_RETRIES):
+        try:
+            response = await client.messages.create(
+                model=DEFAULT_MODEL,
+                max_tokens=8192,
+                system=system_prompt,
+                messages=[{"role": "user", "content": user_content}],
+            )
+            result = response.content[0].text
+            logger.info("Generated %s summary (%d chars)", summary_type.value, len(result))
+            return result
+        except _RateLimitError as exc:
+            last_exc = exc
+            delay = RETRY_BASE_DELAY * (2 ** attempt)
+            logger.warning(
+                "Rate limited (attempt %d/%d) for summary_type=%s, retrying in %ds",
+                attempt + 1, MAX_RETRIES, summary_type.value, delay,
+            )
+            if attempt < MAX_RETRIES - 1:
+                await asyncio.sleep(delay)
+        except Exception as exc:
+            logger.exception("Claude API call failed for summary_type=%s", summary_type.value)
+            msg = f"AI summary generation failed: {exc}"
+            raise RuntimeError(msg) from exc
+
+    # All retries exhausted for rate limiting
+    msg = "Rate limit exceeded. Please wait a minute before trying again."
+    raise RuntimeError(msg) from last_exc
 
 
 async def generate_chat_response(
@@ -216,19 +238,34 @@ async def generate_chat_response(
             messages.append({"role": msg_item["role"], "content": msg_item["content"]})
     messages.append({"role": "user", "content": message})
 
-    try:
-        client = anthropic.AsyncAnthropic(api_key=api_key)
-        response = await client.messages.create(
-            model=DEFAULT_MODEL,
-            max_tokens=4096,
-            system=system_prompt,
-            messages=messages,
-        )
-        result = response.content[0].text
-    except Exception as exc:
-        logger.exception("Claude chat API call failed")
-        msg = f"AI chat failed: {exc}"
-        raise RuntimeError(msg) from exc
-
-    logger.info("Generated chat response (%d chars)", len(result))
-    return result
+    client = anthropic.AsyncAnthropic(api_key=api_key)
+    last_exc: Exception | None = None
+
+    for attempt in range(MAX_RETRIES):
+        try:
+            response = await client.messages.create(
+                model=DEFAULT_MODEL,
+                max_tokens=4096,
+                system=system_prompt,
+                messages=messages,
+            )
+            result = response.content[0].text
+            logger.info("Generated chat response (%d chars)", len(result))
+            return result
+        except _RateLimitError as exc:
+            last_exc = exc
+            delay = RETRY_BASE_DELAY * (2 ** attempt)
+            logger.warning(
+                "Rate limited (attempt %d/%d) for chat, retrying in %ds",
+                attempt + 1, MAX_RETRIES, delay,
+            )
+            if attempt < MAX_RETRIES - 1:
+                await asyncio.sleep(delay)
+        except Exception as exc:
+            logger.exception("Claude chat API call failed")
+            msg = f"AI chat failed: {exc}"
+            raise RuntimeError(msg) from exc
+
+    # All retries exhausted for rate limiting
+    msg = "Rate limit exceeded. Please wait a minute before trying again."
+    raise RuntimeError(msg) from last_exc
diff --git a/static/js/main.js b/static/js/main.js
@@ -1285,11 +1285,34 @@ function _appendChatError(message) {
     const container = document.getElementById('chat-messages');
     if (!container) { return; }
 
+    // Detect rate limit errors and show a friendly message
+    const isRateLimit = /rate.limit|429|too many requests|wait.*minute/i.test(message);
+    const friendlyMsg = isRateLimit
+        ? 'Rate limit reached — the AI is temporarily busy. Please wait a moment and try again.'
+        : message;
+
     const wrapper = document.createElement('div');
     wrapper.className = 'chat-msg-error flex gap-3 animate-fade-in';
-    wrapper.innerHTML = '<div class="w-8 h-8 rounded-lg bg-red-100 border-[2px] border-red-400 flex items-center justify-center flex-shrink-0 text-xs font-bold text-red-600">!</div>'
-        + '<div class="bg-red-50 border-[2px] border-red-300 rounded-lg p-3 max-w-[80%]">'
-        + '<p class="text-sm text-red-700">' + _escapeHtml(message) + '</p></div>';
+
+    const retryBtn = isRateLimit
+        ? '<button onclick="this.closest(\'.chat-msg-error\').remove()" '
+          + 'class="mt-2 text-xs font-semibold text-amber-700 bg-amber-100 border border-amber-300 '
+          + 'rounded-md px-3 py-1 hover:bg-amber-200 transition-colors cursor-pointer">'
+          + 'Dismiss</button>'
+        : '';
+
+    const bgColor = isRateLimit ? 'bg-amber-50' : 'bg-red-50';
+    const borderColor = isRateLimit ? 'border-amber-300' : 'border-red-300';
+    const textColor = isRateLimit ? 'text-amber-800' : 'text-red-700';
+    const iconBg = isRateLimit ? 'bg-amber-100' : 'bg-red-100';
+    const iconBorder = isRateLimit ? 'border-amber-400' : 'border-red-400';
+    const iconColor = isRateLimit ? 'text-amber-600' : 'text-red-600';
+    const icon = isRateLimit ? '⏳' : '!';
+
+    wrapper.innerHTML = '<div class="w-8 h-8 rounded-lg ' + iconBg + ' border-[2px] ' + iconBorder + ' flex items-center justify-center flex-shrink-0 text-xs font-bold ' + iconColor + '">' + icon + '</div>'
+        + '<div class="' + bgColor + ' border-[2px] ' + borderColor + ' rounded-lg p-3 max-w-[80%]">'
+        + '<p class="text-sm ' + textColor + '">' + _escapeHtml(friendlyMsg) + '</p>'
+        + retryBtn + '</div>';
 
     container.appendChild(wrapper);
     container.scrollTop = container.scrollHeight;
@@ -1332,7 +1355,11 @@ function _readSSEStream(url, body, onEvent, onError) {
             if (!response.ok) {
                 let data;
                 try { data = await response.json(); } catch { data = {}; }
-                onEvent({ type: 'error', payload: { message: data.error || data.detail || 'Request failed' } });
+                let errMsg = data.error || data.detail || 'Request failed';
+                if (response.status === 429) {
+                    errMsg = 'Rate limit exceeded. Please wait a moment before trying again.';
+                }
+                onEvent({ type: 'error', payload: { message: errMsg } });
                 return;
             }