AI-Enabled-Software-Testing
diff --git a/‎experiments.bak.zip‎
2 MB b/‎experiments.bak.zip‎
2 MB
diff --git a/‎notebooks/experiment_analysis.ipynb‎
Lines changed: 322 additions & 0 deletions b/‎notebooks/experiment_analysis.ipynb‎
Lines changed: 322 additions & 0 deletions
@@ -0,0 +1,322 @@
+{
+  "cells": [
+    {
+      "cell_type": "markdown",
+      "metadata": {},
+      "source": [
+        "# HPO Analysis"
+      ]
+    },
+    {
+      "cell_type": "code",
+      "execution_count": null,
+      "metadata": {},
+      "outputs": [],
+      "source": [
+        "import json\n",
+        "import sys\n",
+        "from pathlib import Path\n",
+        "from collections import defaultdict\n",
+        "import matplotlib.pyplot as plt\n",
+        "import numpy as np\n",
+        "\n",
+        "REPO_ROOT = Path.cwd().parent if Path.cwd().name == 'notebooks' else Path.cwd()\n",
+        "sys.path.append(str(REPO_ROOT))\n",
+        "\n",
+        "EXPERIMENT_DIR = REPO_ROOT / '.cache' / 'experiment'\n",
+        "FINAL_TRAINING_DIR = REPO_ROOT / '.cache' / 'final_training'\n",
+        "COLORS = {'RS': '#1f77b4', 'GA-STANDARD': '#ff7f0e', 'GA-MEMETIC': '#d62728', 'PSO': '#2ca02c'}\n",
+        "\n",
+        "def parse_experiment_name(exp_name):\n",
+        "    if '-' not in exp_name:\n",
+        "        return None, None\n",
+        "    parts = exp_name.split('-', 1)\n",
+        "    return parts[0].upper(), parts[1].upper()\n",
+        "\n",
+        "def load_experiment_summaries(exp_dir, filter_fn=None):\n",
+        "    data = []\n",
+        "    for run_dir in sorted(exp_dir.iterdir()):\n",
+        "        if not run_dir.is_dir() or not run_dir.name.startswith('run_'):\n",
+        "            continue\n",
+        "        summary_file = run_dir / 'summary.json'\n",
+        "        if summary_file.exists():\n",
+        "            with open(summary_file) as f:\n",
+        "                summary = json.load(f)\n",
+        "            if filter_fn is None or filter_fn(summary):\n",
+        "                data.append((run_dir.name, summary))\n",
+        "    return data\n",
+        "\n",
+        "print(f\"Repository root: {REPO_ROOT}\")\n"
+      ]
+    },
+    {
+      "cell_type": "markdown",
+      "metadata": {},
+      "source": [
+        "## Box Plots of Final Fitness"
+      ]
+    },
+    {
+      "cell_type": "code",
+      "execution_count": null,
+      "metadata": {},
+      "outputs": [],
+      "source": [
+        "hpo_grouped = defaultdict(lambda: defaultdict(list))\n",
+        "\n",
+        "for exp_dir in sorted(EXPERIMENT_DIR.iterdir()):\n",
+        "    if not exp_dir.is_dir():\n",
+        "        continue\n",
+        "    model, optimizer = parse_experiment_name(exp_dir.name)\n",
+        "    if not optimizer:\n",
+        "        continue\n",
+        "    for _, summary in load_experiment_summaries(exp_dir, lambda s: s.get('final_fitness') is not None):\n",
+        "        hpo_grouped[model][optimizer].append(summary['final_fitness'])\n",
+        "\n",
+        "print(f\"Loaded {sum(len(v) for d in hpo_grouped.values() for v in d.values())} HPO runs\\n\")\n",
+        "for model in sorted(hpo_grouped.keys()):\n",
+        "    print(f\"{model}:\")\n",
+        "    for opt in sorted(hpo_grouped[model].keys()):\n",
+        "        scores = hpo_grouped[model][opt]\n",
+        "        print(f\"  {opt}: {len(scores)} runs, mean={np.mean(scores):.4f}\")\n"
+      ]
+    },
+    {
+      "cell_type": "code",
+      "execution_count": null,
+      "metadata": {},
+      "outputs": [],
+      "source": [
+        "models = sorted(hpo_grouped.keys())\n",
+        "fig, axes = plt.subplots(1, len(models), figsize=(5 * len(models), 5))\n",
+        "if len(models) == 1:\n",
+        "    axes = [axes]\n",
+        "\n",
+        "for ax, model in zip(axes, models):\n",
+        "    optimizers = sorted(hpo_grouped[model].keys())\n",
+        "    data_to_plot = [hpo_grouped[model][opt] for opt in optimizers]\n",
+        "    all_values = [val for sublist in data_to_plot for val in sublist]\n",
+        "    \n",
+        "    if all_values:\n",
+        "        y_min, y_max = np.percentile(all_values, [2, 98])\n",
+        "        ax.set_ylim(y_min - (y_max - y_min) * 0.1, y_max + (y_max - y_min) * 0.1)\n",
+        "    \n",
+        "    bp = ax.boxplot(data_to_plot, tick_labels=optimizers, patch_artist=True)\n",
+        "    for patch in bp['boxes']:\n",
+        "        patch.set_facecolor('lightblue')\n",
+        "    \n",
+        "    ax.set_title(f'{model} - Final Fitness (HPO)', fontweight='bold')\n",
+        "    ax.set_xlabel('Optimizer')\n",
+        "    ax.set_ylabel('Composite Fitness')\n",
+        "    ax.grid(True, alpha=0.3)\n",
+        "\n",
+        "plt.tight_layout()\n",
+        "plt.show()\n"
+      ]
+    },
+    {
+      "cell_type": "markdown",
+      "metadata": {},
+      "source": [
+        "## Test Set Results"
+      ]
+    },
+    {
+      "cell_type": "code",
+      "execution_count": null,
+      "metadata": {},
+      "outputs": [],
+      "source": [
+        "final_grouped = defaultdict(list)\n",
+        "\n",
+        "for exp_dir in sorted(FINAL_TRAINING_DIR.iterdir()):\n",
+        "    if not exp_dir.is_dir():\n",
+        "        continue\n",
+        "    model, optimizer = parse_experiment_name(exp_dir.name)\n",
+        "    if not optimizer:\n",
+        "        continue\n",
+        "    \n",
+        "    run_dirs = sorted([d for d in exp_dir.iterdir() if d.is_dir() and d.name.startswith('run_')])\n",
+        "    if run_dirs:\n",
+        "        summaries = load_experiment_summaries(run_dirs[-1].parent, \n",
+        "                                             lambda s: s.get('test_metrics', {}).get('composite_fitness') is not None)\n",
+        "        if summaries:\n",
+        "            _, summary = summaries[-1]\n",
+        "            test_metrics = summary['test_metrics']\n",
+        "            final_grouped[model].append({\n",
+        "                'Optimizer': optimizer,\n",
+        "                'Composite': test_metrics['composite_fitness'],\n",
+        "                'Accuracy': test_metrics.get('accuracy'),\n",
+        "                'F1': test_metrics.get('f1_score')\n",
+        "            })\n",
+        "\n",
+        "print(f\"Loaded {sum(len(v) for v in final_grouped.values())} final training results\\n\")\n",
+        "for model in sorted(final_grouped.keys()):\n",
+        "    print(f\"{model}:\")\n",
+        "    for entry in final_grouped[model]:\n",
+        "        print(f\"  {entry['Optimizer']}: composite={entry['Composite']:.4f}\")\n"
+      ]
+    },
+    {
+      "cell_type": "code",
+      "execution_count": null,
+      "metadata": {},
+      "outputs": [],
+      "source": [
+        "models = sorted(final_grouped.keys())\n",
+        "fig, axes = plt.subplots(1, len(models), figsize=(5 * len(models), 5))\n",
+        "if len(models) == 1:\n",
+        "    axes = [axes]\n",
+        "\n",
+        "for ax, model in zip(axes, models):\n",
+        "    entries = final_grouped[model]\n",
+        "    labels = [e['Optimizer'] for e in entries]\n",
+        "    values = [e['Composite'] for e in entries]\n",
+        "    bar_colors = [COLORS.get(opt, '#888888') for opt in labels]\n",
+        "    \n",
+        "    bars = ax.bar(labels, values, color=bar_colors, alpha=0.8, edgecolor='black')\n",
+        "    for bar, val in zip(bars, values):\n",
+        "        ax.text(bar.get_x() + bar.get_width()/2., bar.get_height() + 0.01,\n",
+        "               f'{val:.4f}', ha='center', va='bottom', fontsize=9)\n",
+        "    \n",
+        "    ax.set_ylim(0, 1)\n",
+        "    ax.set_title(f'{model} - Test Performance', fontweight='bold')\n",
+        "    ax.set_xlabel('Optimizer')\n",
+        "    ax.set_ylabel('Composite Fitness')\n",
+        "    ax.grid(True, alpha=0.3, axis='y')\n",
+        "\n",
+        "plt.tight_layout()\n",
+        "plt.show()\n"
+      ]
+    },
+    {
+      "cell_type": "markdown",
+      "metadata": {},
+      "source": [
+        "## Convergence Plots"
+      ]
+    },
+    {
+      "cell_type": "code",
+      "execution_count": null,
+      "metadata": {},
+      "outputs": [],
+      "source": [
+        "convergence_data = defaultdict(lambda: defaultdict(list))\n",
+        "\n",
+        "for exp_dir in sorted(EXPERIMENT_DIR.iterdir()):\n",
+        "    if not exp_dir.is_dir():\n",
+        "        continue\n",
+        "    model, optimizer = parse_experiment_name(exp_dir.name)\n",
+        "    if not optimizer:\n",
+        "        continue\n",
+        "    \n",
+        "    for _, summary in load_experiment_summaries(exp_dir, lambda s: 'convergence_trace' in s and isinstance(s.get('convergence_trace'), dict)):\n",
+        "        trace = summary['convergence_trace']\n",
+        "        best_fitness = trace.get('best_fitness', [])\n",
+        "        if best_fitness:\n",
+        "            convergence_data[model][optimizer].append(best_fitness)\n",
+        "\n",
+        "print(f\"Loaded convergence data for {len(convergence_data)} models\")\n",
+        "for model in sorted(convergence_data.keys()):\n",
+        "    print(f\"{model}: {sum(len(v) for v in convergence_data[model].values())} runs\")\n"
+      ]
+    },
+    {
+      "cell_type": "code",
+      "execution_count": null,
+      "metadata": {},
+      "outputs": [],
+      "source": [
+        "models = sorted(convergence_data.keys())\n",
+        "fig, axes = plt.subplots(1, len(models), figsize=(6 * len(models), 5))\n",
+        "if len(models) == 1:\n",
+        "    axes = [axes]\n",
+        "\n",
+        "for ax, model in zip(axes, models):\n",
+        "    for optimizer in sorted(convergence_data[model].keys()):\n",
+        "        runs = convergence_data[model][optimizer]\n",
+        "        if not runs:\n",
+        "            continue\n",
+        "        \n",
+        "        max_len = max(len(r) for r in runs)\n",
+        "        padded = [r + [r[-1]] * (max_len - len(r)) if len(r) < max_len else r for r in runs]\n",
+        "        runs_array = np.array(padded)\n",
+        "        \n",
+        "        mean_curve = runs_array.mean(axis=0)\n",
+        "        std_curve = runs_array.std(axis=0)\n",
+        "        generations = np.arange(len(mean_curve))\n",
+        "        color = COLORS.get(optimizer, '#888888')\n",
+        "        \n",
+        "        ax.plot(generations, mean_curve, label=optimizer, color=color, linewidth=2)\n",
+        "        ax.fill_between(generations, mean_curve - std_curve, mean_curve + std_curve, \n",
+        "                       color=color, alpha=0.2)\n",
+        "    \n",
+        "    ax.set_title(f'{model} - Convergence', fontweight='bold')\n",
+        "    ax.set_xlabel('Generation')\n",
+        "    ax.set_ylabel('Best Fitness')\n",
+        "    ax.legend()\n",
+        "    ax.grid(True, alpha=0.3)\n",
+        "\n",
+        "plt.tight_layout()\n",
+        "plt.show()\n"
+      ]
+    },
+    {
+      "cell_type": "markdown",
+      "metadata": {},
+      "source": [
+        "## Wilcoxon Tests"
+      ]
+    },
+    {
+      "cell_type": "code",
+      "execution_count": null,
+      "metadata": {},
+      "outputs": [],
+      "source": [
+        "from scipy.stats import wilcoxon\n",
+        "from itertools import combinations\n",
+        "\n",
+        "for model in sorted(hpo_grouped.keys()):\n",
+        "    print(f\"\\n--- {model} ---\")\n",
+        "    optimizers = hpo_grouped[model]\n",
+        "    \n",
+        "    optimizer_names = sorted(optimizers.keys())\n",
+        "    optimizer_scores = {name: optimizers[name] for name in optimizer_names}\n",
+        "    \n",
+        "    for opt1, opt2 in combinations(optimizer_names, 2):\n",
+        "        scores1 = optimizer_scores[opt1]\n",
+        "        scores2 = optimizer_scores[opt2]\n",
+        "        \n",
+        "        if len(scores1) == len(scores2) and len(scores1) > 0:\n",
+        "            _, p = wilcoxon(scores1, scores2)\n",
+        "            sig = ' (Significant)' if p < 0.05 else ''\n",
+        "            print(f\"{opt1} vs {opt2}: p-value = {p:.5f}{sig}\")\n",
+        "        else:\n",
+        "            print(f\"{opt1} vs {opt2}: Sample size mismatch ({len(scores1)} vs {len(scores2)})\")\n"
+      ]
+    }
+  ],
+  "metadata": {
+    "kernelspec": {
+      "display_name": ".venv",
+      "language": "python",
+      "name": "python3"
+    },
+    "language_info": {
+      "codemirror_mode": {
+        "name": "ipython",
+        "version": 3
+      },
+      "file_extension": ".py",
+      "mimetype": "text/x-python",
+      "name": "python",
+      "nbconvert_exporter": "python",
+      "pygments_lexer": "ipython3",
+      "version": "3.13.7"
+    }
+  },
+  "nbformat": 4,
+  "nbformat_minor": 2
+}