Participants
PR pr_32
Implémentation Recherche Vectorielle & RAG (Typesense + vLLM)
Cette PR remplace l'ancien moteur de recherche (Lucene) par une stack moderne permettant la recherche hybride et la discussion avec les documents (RAG).
Ce qui a été ajouté :
- Moteur de recherche (Typesense) : Migration du backend d'indexation. Typesense gère désormais les documents, les embeddings (vecteurs) et l'historique des conversations.
- Inférence LLM (vLLM) : Intégration d'un serveur vLLM (modèle Qwen2.5) pour générer les réponses contextuelles.
- RAG (Retrieval-Augmented Generation) : Nouveau flux de conversation où le
store interroge Typesense, qui récupère les documents pertinents et génère une réponse via vLLM.
- Streaming SSE : Support des réponses en temps réel (streaming) pour une expérience utilisateur plus fluide.
- Provisioning Dynamique : Le
manager injecte automatiquement les variables de configuration lors de la création des containers.
Architecture simplifiée :
- Ingestion : Upload → Extraction (Tika) → Indexation + Embedding (Typesense).
- Recherche : Requête utilisateur → Filtrage par
store_id (isolation) → Résultats.
- Chat : Requête → Retrieval (Typesense) → Génération (vLLM) → Réponse Streamée.
Points d'attention :
- Bootstrap : Au démarrage, une réindexation complète est effectuée pour garantir la cohérence des données.
- Tika : Apache Tika est conservé pour l'extraction de contenu, seul le moteur d'indexation a changé.
Participants
PR pr_32
Implémentation Recherche Vectorielle & RAG (Typesense + vLLM)
Cette PR remplace l'ancien moteur de recherche (Lucene) par une stack moderne permettant la recherche hybride et la discussion avec les documents (RAG).
Ce qui a été ajouté :
storeinterroge Typesense, qui récupère les documents pertinents et génère une réponse via vLLM.managerinjecte automatiquement les variables de configuration lors de la création des containers.Architecture simplifiée :
store_id(isolation) → Résultats.Points d'attention :