修复图片重传问题

CJackHwang · CJackHwang · commit cecd3b55b866 · 2025-10-19T14:35:16.000+08:00
diff --git a/api_utils/request_processor.py b/api_utils/request_processor.py
@@ -20,6 +20,7 @@
     MODEL_NAME,
     SUBMIT_BUTTON_SELECTOR,
 )
+from config import ONLY_COLLECT_CURRENT_USER_ATTACHMENTS, UPLOAD_FILES_DIR
 
 # --- models模块导入 ---
 from models import ChatCompletionRequest, ClientDisconnectedError
@@ -125,6 +126,50 @@ async def _prepare_and_validate_request(
                 prepared_prompt += f"\n---\n工具执行: {name}\n参数:\n{args}\n结果:\n{result_str}\n"
         except Exception:
             pass
+    # 若配置仅收集当前用户消息附件，则在此过滤附件
+    try:
+        if ONLY_COLLECT_CURRENT_USER_ATTACHMENTS:
+            latest_user = None
+            for msg in reversed(request.messages or []):
+                if getattr(msg, 'role', None) == 'user':
+                    latest_user = msg
+                    break
+            if latest_user is not None:
+                filtered: List[str] = []
+                from api_utils.utils import extract_data_url_to_local
+                from urllib.parse import urlparse, unquote
+                import os
+                # 收集该条 user 消息上的 data:/file:/绝对路径（存在的）
+                content = getattr(latest_user, 'content', None)
+                # 统一从 messages 附件字段抽取
+                for key in ('attachments', 'images', 'files', 'media'):
+                    arr = getattr(latest_user, key, None)
+                    if not isinstance(arr, list):
+                        continue
+                    for it in arr:
+                        url_value = None
+                        if isinstance(it, str):
+                            url_value = it
+                        elif isinstance(it, dict):
+                            url_value = it.get('url') or it.get('path')
+                        url_value = (url_value or '').strip()
+                        if not url_value:
+                            continue
+                        if url_value.startswith('data:'):
+                            fp = extract_data_url_to_local(url_value)
+                            if fp:
+                                filtered.append(fp)
+                        elif url_value.startswith('file:'):
+                            parsed = urlparse(url_value)
+                            lp = unquote(parsed.path)
+                            if os.path.exists(lp):
+                                filtered.append(lp)
+                        elif os.path.isabs(url_value) and os.path.exists(url_value):
+                            filtered.append(url_value)
+                images_list = filtered
+    except Exception:
+        pass
+
     return prepared_prompt, images_list
 
 async def _handle_response_processing(
@@ -347,11 +392,13 @@ async def _handle_playwright_response(req_id: str, request: ChatCompletionReques
         return None
 
 
-async def _cleanup_request_resources(req_id: str, disconnect_check_task: Optional[asyncio.Task], 
-                                   completion_event: Optional[Event], result_future: Future, 
-                                   is_streaming: bool) -> None:
-    """清理请求资源"""
-    from server import logger
+async def _cleanup_request_resources(req_id: str, disconnect_check_task: Optional[asyncio.Task], 
+                                   completion_event: Optional[Event], result_future: Future, 
+                                   is_streaming: bool) -> None:
+    """清理请求资源"""
+    from server import logger
+    from config import UPLOAD_FILES_DIR
+    import os, shutil
     
     if disconnect_check_task and not disconnect_check_task.done():
         disconnect_check_task.cancel()
@@ -362,7 +409,16 @@ async def _cleanup_request_resources(req_id: str, disconnect_check_task: Optiona
         except Exception as task_clean_err: 
             logger.error(f"[{req_id}] 清理任务时出错: {task_clean_err}")
     
-    logger.info(f"[{req_id}] 处理完成。")
+    logger.info(f"[{req_id}] 处理完成。")
+
+    # 清理本次请求的上传子目录，避免磁盘累积
+    try:
+        req_dir = os.path.join(UPLOAD_FILES_DIR, req_id)
+        if os.path.isdir(req_dir):
+            shutil.rmtree(req_dir, ignore_errors=True)
+            logger.info(f"[{req_id}] 已清理请求上传目录: {req_dir}")
+    except Exception as clean_err:
+        logger.warning(f"[{req_id}] 清理上传目录失败: {clean_err}")
     
     if is_streaming and completion_event and not completion_event.is_set() and (result_future.done() and result_future.exception() is not None):
          logger.warning(f"[{req_id}] 流式请求异常，确保完成事件已设置。")
@@ -406,13 +462,28 @@ async def _process_request_refactored(
         await _handle_parameter_cache(req_id, context)
         
         prepared_prompt,image_list = await _prepare_and_validate_request(req_id, request, check_client_disconnected)
+        # 额外合并顶层与消息级 attachments/files（兼容历史记录）已在下方处理；此处确保路径存在
+        try:
+            import os
+            valid_images = []
+            for p in image_list:
+                if isinstance(p, str) and p and os.path.isabs(p) and os.path.exists(p):
+                    valid_images.append(p)
+            if len(valid_images) != len(image_list):
+                from server import logger
+                logger.warning(f"[{req_id}] 过滤掉不存在的附件路径: {set(image_list) - set(valid_images)}")
+            image_list = valid_images
+        except Exception:
+            pass
         # 兼容: 顶层与消息级附件字段合并到上传列表（仅 data:/file:/绝对路径）
+        # 附件来源策略：仅接受当前请求显式提供的 data:/file:/绝对路径（存在的）
         try:
+            from api_utils.utils import extract_data_url_to_local
+            from urllib.parse import urlparse, unquote
+            import os
+            # 顶层 attachments
             top_level_atts = getattr(request, 'attachments', None)
             if isinstance(top_level_atts, list) and len(top_level_atts) > 0:
-                from api_utils.utils import extract_data_url_to_local
-                from urllib.parse import urlparse, unquote
-                import os
                 for it in top_level_atts:
                     url_value = None
                     if isinstance(it, str):
@@ -423,7 +494,7 @@ async def _process_request_refactored(
                     if not url_value:
                         continue
                     if url_value.startswith('data:'):
-                        fp = extract_data_url_to_local(url_value)
+                        fp = extract_data_url_to_local(url_value, req_id=req_id)
                         if fp:
                             image_list.append(fp)
                     elif url_value.startswith('file:'):
@@ -433,7 +504,7 @@ async def _process_request_refactored(
                             image_list.append(lp)
                     elif os.path.isabs(url_value) and os.path.exists(url_value):
                         image_list.append(url_value)
-            # 消息级 attachments/images/files/media
+            # 消息级 attachments/images/files/media（全量收集，但仅保留有效本地/data）
             for msg in (request.messages or []):
                 for key in ('attachments', 'images', 'files', 'media'):
                     arr = getattr(msg, key, None)
@@ -449,7 +520,7 @@ async def _process_request_refactored(
                         if not url_value:
                             continue
                         if url_value.startswith('data:'):
-                            fp = extract_data_url_to_local(url_value)
+                            fp = extract_data_url_to_local(url_value, req_id=req_id)
                             if fp:
                                 image_list.append(fp)
                         elif url_value.startswith('file:'):
diff --git a/api_utils/utils.py b/api_utils/utils.py
@@ -234,14 +234,15 @@ def _extension_for_mime(mime_type: str) -> str:
     return mapping.get(mime_type, f".{mime_type.split('/')[-1]}" if '/' in mime_type else '.bin')
 
 
-def extract_data_url_to_local(data_url: str) -> Optional[str]:
+def extract_data_url_to_local(data_url: str, req_id: Optional[str] = None) -> Optional[str]:
     """
     解析并保存任意 data:URL (data:<mime>;base64,<payload>) 到本地文件，返回文件路径。
     支持图片、视频、音频、PDF 等常见类型。
     """
     from server import logger
     # 允许保存到通用上传目录
-    output_dir = os.path.join(os.path.dirname(__file__), '..', 'upload_files')
+    from config import UPLOAD_FILES_DIR
+    output_dir = UPLOAD_FILES_DIR if req_id is None else os.path.join(UPLOAD_FILES_DIR, req_id)
 
     match = re.match(r"^data:(?P<mime>[^;]+);base64,(?P<data>.*)$", data_url)
     if not match:
@@ -261,16 +262,7 @@ def extract_data_url_to_local(data_url: str) -> Optional[str]:
     file_extension = _extension_for_mime(mime_type)
     output_filepath = os.path.join(output_dir, f"{md5_hash}{file_extension}")
 
-    # 每次处理前清理旧文件，确保目录为空
-    try:
-        if os.path.isdir(output_dir):
-            for name in os.listdir(output_dir):
-                try:
-                    os.remove(os.path.join(output_dir, name))
-                except Exception:
-                    pass
-    except Exception:
-        pass
+    # 仅按请求粒度清理目录；此处不再删除，以免多附件互相覆盖
     os.makedirs(output_dir, exist_ok=True)
 
     if os.path.exists(output_filepath):
@@ -287,10 +279,11 @@ def extract_data_url_to_local(data_url: str) -> Optional[str]:
         return None
 
 
-def save_blob_to_local(raw_bytes: bytes, mime_type: Optional[str] = None, fmt_ext: Optional[str] = None) -> Optional[str]:
+def save_blob_to_local(raw_bytes: bytes, mime_type: Optional[str] = None, fmt_ext: Optional[str] = None, req_id: Optional[str] = None) -> Optional[str]:
     """将原始数据保存到 upload_files/ 下，按内容 MD5 命名，扩展名来源于 mime 或显式格式。"""
     from server import logger
-    output_dir = os.path.join(os.path.dirname(__file__), '..', 'upload_files')
+    from config import UPLOAD_FILES_DIR
+    output_dir = UPLOAD_FILES_DIR if req_id is None else os.path.join(UPLOAD_FILES_DIR, req_id)
     md5_hash = hashlib.md5(raw_bytes).hexdigest()
     ext = None
     if fmt_ext:
@@ -300,15 +293,7 @@ def save_blob_to_local(raw_bytes: bytes, mime_type: Optional[str] = None, fmt_ex
         ext = _extension_for_mime(mime_type)
     if not ext:
         ext = '.bin'
-    try:
-        if os.path.isdir(output_dir):
-            for name in os.listdir(output_dir):
-                try:
-                    os.remove(os.path.join(output_dir, name))
-                except Exception:
-                    pass
-    except Exception:
-        pass
+    # 仅按请求粒度清理目录；此处不再删除，以免多附件互相覆盖
     os.makedirs(output_dir, exist_ok=True)
     output_filepath = os.path.join(output_dir, f"{md5_hash}{ext}")
     if os.path.exists(output_filepath):
@@ -330,19 +315,7 @@ def prepare_combined_prompt(messages: List[Message], req_id: str) -> Tuple[str,
     from server import logger
     
     logger.info(f"[{req_id}] (准备提示) 正在从 {len(messages)} 条消息准备组合提示 (包括历史)。")
-    # 清空上一请求的上传目录（按请求粒度），避免残留文件
-    try:
-        upload_dir = os.path.join(os.path.dirname(__file__), '..', 'upload_files')
-        if os.path.isdir(upload_dir):
-            for name in os.listdir(upload_dir):
-                fp = os.path.join(upload_dir, name)
-                try:
-                    if os.path.isfile(fp):
-                        os.remove(fp)
-                except Exception:
-                    pass
-    except Exception:
-        pass
+    # 不在此处清空 upload_files；由上层在每次请求开始时按需清理，避免历史附件丢失导致“文件不存在”错误。
     
     combined_parts = []
     system_prompt_content: Optional[str] = None
@@ -477,7 +450,7 @@ def prepare_combined_prompt(messages: List[Message], req_id: str) -> Tuple[str,
 
                         # 归一化到本地文件列表，并记录日志
                         if url_value.startswith('data:'):
-                            file_path = extract_data_url_to_local(url_value)
+                            file_path = extract_data_url_to_local(url_value, req_id=req_id)
                             if file_path:
                                 files_list.append(file_path)
                                 logger.info(f"[{req_id}] (准备提示) 已识别并加入 data:URL 附件: {file_path}")
@@ -527,7 +500,7 @@ def prepare_combined_prompt(messages: List[Message], req_id: str) -> Tuple[str,
 
                             if url_value:
                                 if url_value.startswith('data:'):
-                                    saved = extract_data_url_to_local(url_value)
+                                    saved = extract_data_url_to_local(url_value, req_id=req_id)
                                     if saved:
                                         files_list.append(saved)
                                         logger.info(f"[{req_id}] (准备提示) 已识别并加入音视频 data:URL 附件: {saved}")
@@ -542,15 +515,15 @@ def prepare_combined_prompt(messages: List[Message], req_id: str) -> Tuple[str,
                                     logger.info(f"[{req_id}] (准备提示) 已识别并加入音视频本地附件(绝对路径): {url_value}")
                             elif data_val:
                                 if isinstance(data_val, str) and data_val.startswith('data:'):
-                                    saved = extract_data_url_to_local(data_val)
+                                    saved = extract_data_url_to_local(data_val, req_id=req_id)
                                     if saved:
                                         files_list.append(saved)
                                         logger.info(f"[{req_id}] (准备提示) 已识别并加入音视频 data:URL 附件: {saved}")
                                 else:
                                     # 认为是纯 base64 数据
                                     try:
                                         raw = base64.b64decode(data_val)
-                                        saved = save_blob_to_local(raw, mime_val, fmt_val)
+                                        saved = save_blob_to_local(raw, mime_val, fmt_val, req_id=req_id)
                                         if saved:
                                             files_list.append(saved)
                                             logger.info(f"[{req_id}] (准备提示) 已识别并加入音视频 base64 附件: {saved}")
diff --git a/config/settings.py b/config/settings.py
@@ -22,8 +22,9 @@
 AUTH_PROFILES_DIR = os.path.join(os.path.dirname(__file__), '..', 'auth_profiles')
 ACTIVE_AUTH_DIR = os.path.join(AUTH_PROFILES_DIR, 'active')
 SAVED_AUTH_DIR = os.path.join(AUTH_PROFILES_DIR, 'saved')
-LOG_DIR = os.path.join(os.path.dirname(__file__), '..', 'logs')
-APP_LOG_FILE_PATH = os.path.join(LOG_DIR, 'app.log')
+LOG_DIR = os.path.join(os.path.dirname(__file__), '..', 'logs')
+APP_LOG_FILE_PATH = os.path.join(LOG_DIR, 'app.log')
+UPLOAD_FILES_DIR = os.path.join(os.path.dirname(__file__), '..', 'upload_files')
 
 def get_environment_variable(key: str, default: str = '') -> str:
     """获取环境变量值"""
@@ -49,6 +50,7 @@ def get_int_env(key: str, default: int = 0) -> int:
 NO_PROXY_ENV = os.environ.get('NO_PROXY')
 
 # --- 脚本注入配置 ---
-ENABLE_SCRIPT_INJECTION = get_boolean_env('ENABLE_SCRIPT_INJECTION', True)
+ENABLE_SCRIPT_INJECTION = get_boolean_env('ENABLE_SCRIPT_INJECTION', True)
+ONLY_COLLECT_CURRENT_USER_ATTACHMENTS = get_boolean_env('ONLY_COLLECT_CURRENT_USER_ATTACHMENTS', False)
 USERSCRIPT_PATH = get_environment_variable('USERSCRIPT_PATH', 'browser_utils/more_modles.js')
-# 注意：MODEL_CONFIG_PATH 已废弃，现在直接从油猴脚本解析模型数据
+# 注意：MODEL_CONFIG_PATH 已废弃，现在直接从油猴脚本解析模型数据