Update some codes for better eval.

ZhengPeng7 · ZhengPeng7 · commit 1cb9f3f0a3c2 · 2024-05-07T01:19:38.000Z
diff --git a/config.py b/config.py
@@ -11,7 +11,7 @@ def __init__(self) -> None:
         # TASK settings
         self.task = ['DIS5K', 'COD', 'HRSOD', 'DIS5K+HRSOD+HRS10K', 'P3M-10k'][0]
         self.training_set = {
-            'DIS5K': 'DIS-TR',
+            'DIS5K': ['DIS-TR', 'DIS-TR+DIS-TE1+DIS-TE2+DIS-TE3+DIS-TE4'][0],
             'COD': 'TR-COD10K+TR-CAMO',
             'HRSOD': ['TR-DUTS', 'TR-DUTS+TR-HRSOD', 'TR-DUTS+TR-UHRSD', 'TR-HRSOD+TR-UHRSD', 'TR-DUTS+TR-HRSOD+TR-UHRSD'][3],
             'DIS5K+HRSOD+HRS10K': 'DIS-TE1+DIS-TE2+DIS-TE3+DIS-TE4+DIS-TR+TE-HRS10K+TE-HRSOD+TE-UHRSD+TR-HRS10K+TR-HRSOD+TR-UHRSD',     # leave DIS-VD for evaluation.
diff --git a/gen_best_ep.py b/gen_best_ep.py
@@ -10,72 +10,75 @@
 print('eval_txts:', [_.split(os.sep)[-1] for _ in eval_txts])
 score_panel = {}
 sep = '&'
-metric = ['sm', 'wfm', 'hce'][1]    # we used HCE for DIS for wFm for others.
+metrics = ['sm', 'wfm', 'hce']    # we used HCE for DIS and wFm for others.
+if 'DIS5K' not in config.task:
+    metrics.remove('hce')
 
-current_line_nums = []
-for idx_et, eval_txt in enumerate(eval_txts):
-    with open(eval_txt, 'r') as f:
-        lines = [l for l in f.readlines()[3:] if '.' in l]
-    current_line_nums.append(len(lines))
-for idx_et, eval_txt in enumerate(eval_txts):
-    with open(eval_txt, 'r') as f:
-        lines = [l for l in f.readlines()[3:] if '.' in l]
-    for idx_line, line in enumerate(lines[:min(current_line_nums)]):    # Consist line numbers by the minimal result file.
-        properties = line.strip().strip(sep).split(sep)
-        dataset = properties[0].strip()
-        ckpt = properties[1].strip()
-        if int(ckpt.split('--ep')[-1].strip()) < 0:
-            continue
-        targe_idx = {
-            'sm': [5, 2, 2, 5, 2],
-            'wfm': [3, 3, 8, 3, 8],
-            'hce': [7, -1, -1, 7, -1]
-        }[metric][['DIS5K', 'COD', 'HRSOD', 'DIS5K+HRSOD+HRS10K', 'P3M-10k'].index(config.task)]
-        if metric != 'hce':
-            score_sm = float(properties[targe_idx].strip())
-        else:
-            score_sm = int(properties[targe_idx].strip().strip('.'))
-        if idx_et == 0:
-            score_panel[ckpt] = []
-        score_panel[ckpt].append(score_sm)
+for metric in metrics:
+    current_line_nums = []
+    for idx_et, eval_txt in enumerate(eval_txts):
+        with open(eval_txt, 'r') as f:
+            lines = [l for l in f.readlines()[3:] if '.' in l]
+        current_line_nums.append(len(lines))
+    for idx_et, eval_txt in enumerate(eval_txts):
+        with open(eval_txt, 'r') as f:
+            lines = [l for l in f.readlines()[3:] if '.' in l]
+        for idx_line, line in enumerate(lines[:min(current_line_nums)]):    # Consist line numbers by the minimal result file.
+            properties = line.strip().strip(sep).split(sep)
+            dataset = properties[0].strip()
+            ckpt = properties[1].strip()
+            if int(ckpt.split('--epoch_')[-1].strip()) < 0:
+                continue
+            targe_idx = {
+                'sm': [5, 2, 2, 5, 2],
+                'wfm': [3, 3, 8, 3, 8],
+                'hce': [7, -1, -1, 7, -1]
+            }[metric][['DIS5K', 'COD', 'HRSOD', 'DIS5K+HRSOD+HRS10K', 'P3M-10k'].index(config.task)]
+            if metric != 'hce':
+                score_sm = float(properties[targe_idx].strip())
+            else:
+                score_sm = int(properties[targe_idx].strip().strip('.'))
+            if idx_et == 0:
+                score_panel[ckpt] = []
+            score_panel[ckpt].append(score_sm)
 
-metrics_min = ['hce', 'mae']
-max_or_min = min if metric in metrics_min else max
-score_max = max_or_min(score_panel.values(), key=lambda x: np.sum(x))
+    metrics_min = ['hce', 'mae']
+    max_or_min = min if metric in metrics_min else max
+    score_max = max_or_min(score_panel.values(), key=lambda x: np.sum(x))
 
-good_models = []
-for k, v in score_panel.items():
-    if (np.sum(v) <= np.sum(score_max)) if metric in metrics_min else (np.sum(v) >= np.sum(score_max)):
-        print(k, v)
-        good_models.append(k)
+    good_models = []
+    for k, v in score_panel.items():
+        if (np.sum(v) <= np.sum(score_max)) if metric in metrics_min else (np.sum(v) >= np.sum(score_max)):
+            print(k, v)
+            good_models.append(k)
 
-# Write
-with open(eval_txt, 'r') as f:
-    lines = f.readlines()
-info4good_models = lines[:3]
-metric_names = [m.strip() for m in lines[1].strip().strip('&').split('&')[2:]]
-testset_mean_values = {metric_name: [] for metric_name in metric_names}
-for good_model in good_models:
-    for idx_et, eval_txt in enumerate(eval_txts):
-        with open(eval_txt, 'r') as f:
-            lines = f.readlines()
-        for line in lines:
-            if set([good_model]) & set([_.strip() for _ in line.split(sep)]):
-                info4good_models.append(line)
-                metric_scores = [float(m.strip()) for m in line.strip().strip('&').split('&')[2:]]
-                for idx_score, metric_score in enumerate(metric_scores):
-                    testset_mean_values[metric_names[idx_score]].append(metric_score)
+    # Write
+    with open(eval_txt, 'r') as f:
+        lines = f.readlines()
+    info4good_models = lines[:3]
+    metric_names = [m.strip() for m in lines[1].strip().strip('&').split('&')[2:]]
+    testset_mean_values = {metric_name: [] for metric_name in metric_names}
+    for good_model in good_models:
+        for idx_et, eval_txt in enumerate(eval_txts):
+            with open(eval_txt, 'r') as f:
+                lines = f.readlines()
+            for line in lines:
+                if set([good_model]) & set([_.strip() for _ in line.split(sep)]):
+                    info4good_models.append(line)
+                    metric_scores = [float(m.strip()) for m in line.strip().strip('&').split('&')[2:]]
+                    for idx_score, metric_score in enumerate(metric_scores):
+                        testset_mean_values[metric_names[idx_score]].append(metric_score)
 
-if 'DIS5K' in config.task:
-    testset_mean_values_lst = ['{:<4}'.format(int(np.mean(v_lst[:-1]).round())) if name == 'HCE' else '{:.3f}'.format(np.mean(v_lst[:-1])).lstrip('0') for name, v_lst in testset_mean_values.items()]  # [:-1] to remove DIS-VD
-    sample_line_for_placing_mean_values = info4good_models[-2]
-    numbers_placed_well = sample_line_for_placing_mean_values.replace(sample_line_for_placing_mean_values.split('&')[1].strip(), 'DIS-TEs').strip().split('&')[3:]
-    for idx_number, (number_placed_well, testset_mean_value) in enumerate(zip(numbers_placed_well, testset_mean_values_lst)):
-        numbers_placed_well[idx_number] = number_placed_well.replace(number_placed_well.strip(), testset_mean_value)
-    testset_mean_line = '&'.join(sample_line_for_placing_mean_values.replace(sample_line_for_placing_mean_values.split('&')[1].strip(), 'DIS-TEs').split('&')[:3] + numbers_placed_well) + '\n'
-    info4good_models.append(testset_mean_line)
-info4good_models.append(lines[-1])
-info = ''.join(info4good_models)
-print(info)
-with open(os.path.join('e_results', 'eval-{}_best_on_{}.txt'.format(config.task, metric)), 'w') as f:
-    f.write(info + '\n')
+    if 'DIS5K' in config.task:
+        testset_mean_values_lst = ['{:<4}'.format(int(np.mean(v_lst[:-1]).round())) if name == 'HCE' else '{:.3f}'.format(np.mean(v_lst[:-1])).lstrip('0') for name, v_lst in testset_mean_values.items()]  # [:-1] to remove DIS-VD
+        sample_line_for_placing_mean_values = info4good_models[-2]
+        numbers_placed_well = sample_line_for_placing_mean_values.replace(sample_line_for_placing_mean_values.split('&')[1].strip(), 'DIS-TEs').strip().split('&')[3:]
+        for idx_number, (number_placed_well, testset_mean_value) in enumerate(zip(numbers_placed_well, testset_mean_values_lst)):
+            numbers_placed_well[idx_number] = number_placed_well.replace(number_placed_well.strip(), testset_mean_value)
+        testset_mean_line = '&'.join(sample_line_for_placing_mean_values.replace(sample_line_for_placing_mean_values.split('&')[1].strip(), 'DIS-TEs').split('&')[:3] + numbers_placed_well) + '\n'
+        info4good_models.append(testset_mean_line)
+    info4good_models.append(lines[-1])
+    info = ''.join(info4good_models)
+    print(info)
+    with open(os.path.join('e_results', 'eval-{}_best_on_{}.txt'.format(config.task, metric)), 'w') as f:
+        f.write(info + '\n')
diff --git a/test.sh b/test.sh
@@ -10,15 +10,22 @@ echo Inference finished at $(date)
 # Evaluation
 log_dir=e_logs
 mkdir ${log_dir}
-testsets=DIS-VD  && nohup python eval_existingOnes.py --pred_root ${pred_root} \
-    --data_lst ${testsets} > ${log_dir}/eval_${testsets}.out 2>&1 &
-testsets=DIS-TE1 && nohup python eval_existingOnes.py --pred_root ${pred_root} \
-    --data_lst ${testsets} > ${log_dir}/eval_${testsets}.out 2>&1 &
-testsets=DIS-TE2 && nohup python eval_existingOnes.py --pred_root ${pred_root} \
-    --data_lst ${testsets} > ${log_dir}/eval_${testsets}.out 2>&1 &
-testsets=DIS-TE3 && nohup python eval_existingOnes.py --pred_root ${pred_root} \
-    --data_lst ${testsets} > ${log_dir}/eval_${testsets}.out 2>&1 &
-testsets=DIS-TE4 && nohup python eval_existingOnes.py --pred_root ${pred_root} \
-    --data_lst ${testsets} > ${log_dir}/eval_${testsets}.out 2>&1 &
+
+testsets=DIS-VD  && nohup python eval_existingOnes.py --pred_root ${pred_root} --data_lst ${testsets} > ${log_dir}/eval_${testsets}.out 2>&1 &
+testsets=DIS-TE1 && nohup python eval_existingOnes.py --pred_root ${pred_root} --data_lst ${testsets} > ${log_dir}/eval_${testsets}.out 2>&1 &
+testsets=DIS-TE2 && nohup python eval_existingOnes.py --pred_root ${pred_root} --data_lst ${testsets} > ${log_dir}/eval_${testsets}.out 2>&1 &
+testsets=DIS-TE3 && nohup python eval_existingOnes.py --pred_root ${pred_root} --data_lst ${testsets} > ${log_dir}/eval_${testsets}.out 2>&1 &
+testsets=DIS-TE4 && nohup python eval_existingOnes.py --pred_root ${pred_root} --data_lst ${testsets} > ${log_dir}/eval_${testsets}.out 2>&1 &
+
+# testsets=CHAMELEON  && nohup python eval_existingOnes.py --pred_root ${pred_root} --data_lst ${testsets} > ${log_dir}/eval_${testsets}.out 2>&1 &
+# testsets=NC4K && nohup python eval_existingOnes.py --pred_root ${pred_root} --data_lst ${testsets} > ${log_dir}/eval_${testsets}.out 2>&1 &
+# testsets=TE-CAMO && nohup python eval_existingOnes.py --pred_root ${pred_root} --data_lst ${testsets} > ${log_dir}/eval_${testsets}.out 2>&1 &
+# testsets=TE-COD10K && nohup python eval_existingOnes.py --pred_root ${pred_root} --data_lst ${testsets} > ${log_dir}/eval_${testsets}.out 2>&1 &
+
+# testsets=DAVIS-S  && nohup python eval_existingOnes.py --pred_root ${pred_root} --data_lst ${testsets} > ${log_dir}/eval_${testsets}.out 2>&1 &
+# testsets=TE-HRSOD  && nohup python eval_existingOnes.py --pred_root ${pred_root} --data_lst ${testsets} > ${log_dir}/eval_${testsets}.out 2>&1 &
+# testsets=TE-UHRSD && nohup python eval_existingOnes.py --pred_root ${pred_root} --data_lst ${testsets} > ${log_dir}/eval_${testsets}.out 2>&1 &
+# testsets=DUT-OMRON && nohup python eval_existingOnes.py --pred_root ${pred_root} --data_lst ${testsets} > ${log_dir}/eval_${testsets}.out 2>&1 &
+# testsets=TE-DUTS && nohup python eval_existingOnes.py --pred_root ${pred_root} --data_lst ${testsets} > ${log_dir}/eval_${testsets}.out 2>&1 &
 
 echo Evaluation started at $(date)