Merge pull request #40 from luiscarbonel1991/fix/openai-embeddings-batch-limit

luiscarbonel1991 · web-flow · commit f5c368419f7c · 2026-04-02T14:40:21.000-05:00
fix: batch OpenAI embeddings to respect 2048 input limit
diff --git a/pyproject.toml b/pyproject.toml
@@ -1,6 +1,6 @@
 [project]
 name = "nlp2sql"
-version = "0.2.0rc11"
+version = "0.2.0rc12"
 description = "Enterprise-ready Natural Language to SQL converter with multi-provider support. Built for production scale (1000+ tables) with Clean Architecture."
 readme = "README.md"
 license = {text = "MIT"}
diff --git a/src/nlp2sql/__init__.py b/src/nlp2sql/__init__.py
@@ -20,7 +20,7 @@
 from .schema.example_store import ExampleStore
 from .services.query_service import QueryGenerationService
 
-__version__ = "0.2.0rc11"
+__version__ = "0.2.0rc12"
 __author__ = "Luis Carbonel"
 __email__ = "devhighlevel@gmail.com"
 
diff --git a/src/nlp2sql/adapters/openai_embedding_adapter.py b/src/nlp2sql/adapters/openai_embedding_adapter.py
@@ -79,24 +79,27 @@ async def encode(self, texts: List[str]) -> np.ndarray:
                 processed_texts.append(text)
 
         try:
-            response = await self.client.embeddings.create(model=self.model, input=processed_texts)
+            # OpenAI API limits input array to 2048 items per request
+            batch_size = 2000
+            all_embeddings: list[list[float]] = []
 
-            # Extract embeddings from response
-            embeddings = [item.embedding for item in response.data]
-            embeddings_array = np.array(embeddings)
+            for i in range(0, len(processed_texts), batch_size):
+                batch = processed_texts[i : i + batch_size]
+                response = await self.client.embeddings.create(model=self.model, input=batch)
+                all_embeddings.extend(item.embedding for item in response.data)
+
+            embeddings_array = np.array(all_embeddings)
 
             # Normalize embeddings for cosine similarity with FAISS IndexFlatIP
-            # This is critical: FAISS IndexFlatIP uses inner product which only works
-            # as cosine similarity when vectors are normalized to unit length
             norms = np.linalg.norm(embeddings_array, axis=1, keepdims=True)
-            # Avoid division by zero (though rare for real embeddings)
             norms = np.where(norms == 0, 1, norms)
             normalized_embeddings = embeddings_array / norms
 
             logger.debug(
                 "OpenAI embeddings generated and normalized",
                 model=self.model,
                 texts_count=len(processed_texts),
+                batches=((len(processed_texts) - 1) // batch_size) + 1,
                 dimension=normalized_embeddings.shape[1],
             )
 
diff --git a/uv.lock b/uv.lock