remove list_taint_paths for redundancy

Lekssays · Lekssays · commit 216973017067 · 2025-10-17T20:34:38.000+03:00
diff --git a/src/tools/mcp_tools.py b/src/tools/mcp_tools.py
@@ -2505,234 +2505,6 @@ async def check_method_reachability(
                 "error": {"code": "INTERNAL_ERROR", "message": str(e)},
             }
 
-    @mcp.tool()
-    async def list_taint_paths(
-        session_id: str,
-        source_pattern: Optional[str] = None,
-        sink_pattern: Optional[str] = None,
-        source_node_id: Optional[str] = None,
-        sink_node_id: Optional[str] = None,
-        max_paths: int = 10,
-        max_path_length: int = 15,
-        timeout: int = 60,
-    ) -> Dict[str, Any]:
-        """
-        List detailed taint flow paths from sources to sinks.
-
-        For given source and sink patterns (or specific node IDs), returns full
-        dataflow paths as ordered node sequences showing how data flows from
-        sources to sinks. Each path includes code, file, line number, and node
-        type for every step in the flow.
-
-        This is useful for:
-        - Detailed triage of taint vulnerabilities
-        - Understanding complete propagation chains
-        - Visualizing call/assignment/propagation sequences
-        - Security code review and validation
-
-        Args:
-            session_id: The session ID from create_cpg_session
-            source_pattern: Regex pattern for source function names (e.g., "getenv|input|request")
-                Either source_pattern or source_node_id must be provided
-            sink_pattern: Regex pattern for sink function names (e.g., "system|exec|eval")
-                Either sink_pattern or sink_node_id must be provided
-            source_node_id: Specific node ID to use as source (alternative to pattern)
-            sink_node_id: Specific node ID to use as sink (alternative to pattern)
-            max_paths: Maximum number of paths to return (default: 10)
-            max_path_length: Maximum length of each path in nodes (default: 15)
-            timeout: Maximum execution time in seconds (default: 60)
-
-        Returns:
-            {
-                "success": true,
-                "paths": [
-                    {
-                        "path_id": "path-1",
-                        "source": {
-                            "code": "getenv(\"PATH\")",
-                            "filename": "main.c",
-                            "lineNumber": 42,
-                            "method": "main"
-                        },
-                        "sink": {
-                            "code": "system(cmd)",
-                            "filename": "main.c",
-                            "lineNumber": 100,
-                            "method": "execute_command"
-                        },
-                        "path_length": 5,
-                        "nodes": [
-                            {
-                                "step": 0,
-                                "code": "getenv(\"PATH\")",
-                                "filename": "main.c",
-                                "lineNumber": 42,
-                                "node_type": "CALL"
-                            },
-                            {
-                                "step": 1,
-                                "code": "env_path",
-                                "filename": "main.c",
-                                "lineNumber": 42,
-                                "node_type": "IDENTIFIER"
-                            },
-                            ...
-                        ]
-                    }
-                ],
-                "total": 2
-            }
-        """
-        try:
-            validate_session_id(session_id)
-
-            # Validate inputs
-            if not source_pattern and not source_node_id:
-                raise ValidationError("Either source_pattern or source_node_id must be provided")
-            if not sink_pattern and not sink_node_id:
-                raise ValidationError("Either sink_pattern or sink_node_id must be provided")
-
-            session_manager = services["session_manager"]
-            query_executor = services["query_executor"]
-
-            session = await session_manager.get_session(session_id)
-            if not session:
-                raise SessionNotFoundError(f"Session {session_id} not found")
-
-            if session.status != SessionStatus.READY.value:
-                raise SessionNotReadyError(f"Session is in '{session.status}' status")
-
-            await session_manager.touch_session(session_id)
-
-            # Build query based on whether we have patterns or node IDs
-            if source_node_id and sink_node_id:
-                # Use specific node IDs
-                query = (
-                    f'val sources = cpg.id("{source_node_id}").l\n'
-                    f'val sinks = cpg.id("{sink_node_id}").l\n'
-                    f'val flows = if (sources.nonEmpty && sinks.nonEmpty) {{\n'
-                    f'  sinks.reachableByFlows(sources)\n'
-                    f'    .filter(flow => flow.elements.size <= {max_path_length})\n'
-                    f'    .take({max_paths})\n'
-                    f'    .map(flow => {{\n'
-                    f'      val elems = flow.elements\n'
-                    f'      (elems.head.code, elems.head.file.name.headOption.getOrElse("unknown"), '
-                    f'elems.head.lineNumber.getOrElse(-1), '
-                    f'elems.last.code, elems.last.file.name.headOption.getOrElse("unknown"), '
-                    f'elems.last.lineNumber.getOrElse(-1), '
-                    f'elems.size, '
-                    f'elems.map(e => (e.code, e.file.name.headOption.getOrElse("unknown"), '
-                    f'e.lineNumber.getOrElse(-1), e.label)))\n'
-                    f'    }})\n'
-                    f'    .l\n'
-                    f'}} else List()\n'
-                    f'flows.toJsonPretty'
-                )
-            else:
-                # Use patterns
-                src_pattern = source_pattern or ".*"
-                snk_pattern = sink_pattern or ".*"
-                
-                # Clean and escape patterns
-                cleaned_src = src_pattern.rstrip("(")
-                cleaned_snk = snk_pattern.rstrip("(")
-                escaped_src = re.escape(cleaned_src) if cleaned_src != ".*" else cleaned_src
-                escaped_snk = re.escape(cleaned_snk) if cleaned_snk != ".*" else cleaned_snk
-
-                query = (
-                    f'val sources = cpg.call.name("{escaped_src}").l\n'
-                    f'val sinks = cpg.call.name("{escaped_snk}").l\n'
-                    f'val flows = if (sources.nonEmpty && sinks.nonEmpty) {{\n'
-                    f'  sinks.reachableByFlows(sources)\n'
-                    f'    .filter(flow => flow.elements.size <= {max_path_length})\n'
-                    f'    .take({max_paths})\n'
-                    f'    .map(flow => {{\n'
-                    f'      val elems = flow.elements\n'
-                    f'      (elems.head.code, elems.head.file.name.headOption.getOrElse("unknown"), '
-                    f'elems.head.lineNumber.getOrElse(-1), '
-                    f'elems.last.code, elems.last.file.name.headOption.getOrElse("unknown"), '
-                    f'elems.last.lineNumber.getOrElse(-1), '
-                    f'elems.size, '
-                    f'elems.map(e => (e.code, e.file.name.headOption.getOrElse("unknown"), '
-                    f'e.lineNumber.getOrElse(-1), e.label)))\n'
-                    f'    }})\n'
-                    f'    .l\n'
-                    f'}} else List()\n'
-                    f'flows.toJsonPretty'
-                )
-
-            result = await query_executor.execute_query(
-                session_id=session_id,
-                cpg_path="/workspace/cpg.bin",
-                query=query,
-                timeout=timeout,
-                limit=max_paths * 20,  # Allow for node expansion
-            )
-
-            if not result.success:
-                return {
-                    "success": False,
-                    "error": {"code": "QUERY_ERROR", "message": result.error},
-                }
-
-            paths = []
-            for idx, item in enumerate(result.data):
-                if isinstance(item, dict):
-                    # Extract path information (without method names)
-                    source_info = {
-                        "code": item.get("_1", ""),
-                        "filename": item.get("_2", ""),
-                        "lineNumber": item.get("_3", -1),
-                    }
-                    
-                    sink_info = {
-                        "code": item.get("_4", ""),
-                        "filename": item.get("_5", ""),
-                        "lineNumber": item.get("_6", -1),
-                    }
-                    
-                    path_length = item.get("_7", 0)
-                    
-                    # Extract node sequence
-                    nodes = []
-                    node_list = item.get("_8", [])
-                    for step, node_data in enumerate(node_list):
-                        if isinstance(node_data, dict):
-                            nodes.append({
-                                "step": step,
-                                "code": node_data.get("_1", ""),
-                                "filename": node_data.get("_2", ""),
-                                "lineNumber": node_data.get("_3", -1),
-                                "node_type": node_data.get("_4", "UNKNOWN"),
-                            })
-                    
-                    paths.append({
-                        "path_id": f"path-{idx + 1}",
-                        "source": source_info,
-                        "sink": sink_info,
-                        "path_length": path_length,
-                        "nodes": nodes,
-                    })
-
-            return {
-                "success": True,
-                "paths": paths,
-                "total": len(paths),
-            }
-
-        except (SessionNotFoundError, SessionNotReadyError, ValidationError) as e:
-            logger.error(f"Error listing taint paths: {e}")
-            return {
-                "success": False,
-                "error": {"code": type(e).__name__.upper(), "message": str(e)},
-            }
-        except Exception as e:
-            logger.error(f"Unexpected error listing taint paths: {e}", exc_info=True)
-            return {
-                "success": False,
-                "error": {"code": "INTERNAL_ERROR", "message": str(e)},
-            }
-
     @mcp.tool()
     async def get_program_slice(
         session_id: str,
diff --git a/tests/test_mcp_tools.py b/tests/test_mcp_tools.py
@@ -758,42 +758,6 @@ async def test_check_method_reachability_success(self, fake_services, ready_sess
         assert "helper" in result["message"]
 
     @pytest.mark.asyncio
-    async def test_list_taint_paths_success(self, fake_services, ready_session):
-        """Test successful taint path listing"""
-        mcp = FakeMCP()
-        register_tools(mcp, fake_services)
-
-        fake_services["session_manager"].get_session.return_value = ready_session
-        query_result = QueryResult(
-            success=True,
-            data=[{
-                "_1": 'getenv("PATH")',
-                "_2": "main.c",
-                "_3": 10,
-                "_4": 'system(cmd)',
-                "_5": "main.c",
-                "_6": 100,
-                "_7": 5,
-                "_8": [
-                    {"_1": 'getenv("PATH")', "_2": "main.c", "_3": 10, "_4": "CALL"},
-                    {"_1": "env_path", "_2": "main.c", "_3": 10, "_4": "IDENTIFIER"}
-                ]
-            }],
-            row_count=1
-        )
-        fake_services["query_executor"].execute_query.return_value = query_result
-
-        func = mcp.registered["list_taint_paths"]
-        result = await func(
-            session_id=ready_session.id,
-            source_pattern="getenv",
-            sink_pattern="system"
-        )
-
-        assert result["success"] is True
-        assert len(result["paths"]) == 1
-        assert result["paths"][0]["path_length"] == 5
-
     @pytest.mark.asyncio
     async def test_get_program_slice_success(self, fake_services, ready_session, temp_workspace):
         """Test successful program slice retrieval"""