Merge branch 'main' of github.com:CVC-DAG/anyscript

amolina · amolina · commit 061d4d55c45a · 2026-03-17T11:10:14.000Z
diff --git a/anyscript.eval/compute.py b/anyscript.eval/compute.py
@@ -48,14 +48,14 @@ def load_json(path):
         book_id_pages[book.strip()] = list_pages
 
 # A queries map és on va lo de les LUT de pagines o de books en cas de que la response sigui amb les queries originals
-map_at_k, recall_at_k = compute_map_recall_at_k(df_books, k=10, queries_map=None, evaluate_page=False, book_to_author_map=book_id_to_author, book_to_pages_map=book_id_pages)
+map_at_k, recall_at_k = compute_map_recall_at_k(df_books, k=50, queries_map=None, evaluate_page=False, book_to_author_map=book_id_to_author, book_to_pages_map=book_id_pages)
 
 print(' THe mean recall at k book level is: ', recall_at_k)
 print(' THe mean map at k book level is: ', map_at_k)
 
 
 # A queries map és on va lo de les LUT de pagines o de books en cas de que la response sigui amb les queries originals
-map_at_k, recall_at_k = compute_map_recall_at_k(df_pages, k=10, queries_map=None, evaluate_page=True, book_to_author_map=book_id_to_author, book_to_pages_map=book_id_pages)
+map_at_k, recall_at_k = compute_map_recall_at_k(df_pages, k=50, queries_map=None, evaluate_page=True, book_to_author_map=book_id_to_author, book_to_pages_map=book_id_pages)
 
 print(' THe mean recall at k page level is: ', recall_at_k)
 print(' THe mean map at k page level is: ', map_at_k)
@@ -68,10 +68,10 @@ def load_json(path):
 ideal_rankings = load_json(IDEAL_RANKNGS)
 ideal_rankings_books = load_json(IDEAL_RANKNGS_BOOKS)
 
-ndcg_at_k = compute_nDCG(df_pages, ideal_rankings, k=10, book_to_author=book_id_to_author, lut_full_catalog=lut_full_catalog, queries_map=lut_pages)
+ndcg_at_k = compute_nDCG(df_pages, ideal_rankings, k=50, book_to_author=book_id_to_author, lut_full_catalog=lut_full_catalog, queries_map=lut_pages)
 
 print(' THe mean nDCG at k page level is: ', ndcg_at_k)
 
-ndcg_at_k = compute_nDCG(df_books, ideal_rankings_books, k=10, book_to_author=book_id_to_author, lut_full_catalog=lut_full_catalog, queries_map=lut_books)
+ndcg_at_k = compute_nDCG(df_books, ideal_rankings_books, k=50, book_to_author=book_id_to_author, lut_full_catalog=lut_full_catalog, queries_map=lut_books)
 
 print(' THe mean nDCG at k book level is: ', ndcg_at_k)
diff --git a/anyscript.eval/evaluation_functions.py b/anyscript.eval/evaluation_functions.py
@@ -69,13 +69,10 @@ def get_book_id_from_filename(filename):
     return filename.split('_')[0]
 
 
-def retrieve_page_true_relevant_documents(query_filename:str):
+def retrieve_page_true_relevant_documents(query_filename:str, book_to_pages_map:dict):
     book_id = get_book_id_from_filename(query_filename)
-    path = Path(f"/data/123-1/datasets/AnyScriptFiltered/binarized/{book_id}")
-    relevant_documents = (path.glob("*.png"))
-
-    return list(relevant_documents)
-
+    relevant_pages = book_to_pages_map[book_id]
+    return relevant_pages
 
 def retrieve_book_true_relevant_documents(query_filename:str, book_to_author_map:dict, book_to_pages_map:dict):
     book_id = get_book_id_from_filename(query_filename)
@@ -101,12 +98,12 @@ def compute_map_recall_at_k(response: pd.DataFrame, k:int=100, queries_map=None,
 
         ## Extract relevant Documents
         if evaluate_page:
-            relevant_documents = retrieve_page_true_relevant_documents(query_img)
+            relevant_documents = retrieve_page_true_relevant_documents(query_img, book_to_pages_map)
         else:
             assert book_to_author_map is not None, "book_to_author_map must be provided for book-level evaluation"
             relevant_documents = retrieve_book_true_relevant_documents(query_img, book_to_author_map, book_to_pages_map)
 
-        num_relevant_documents = len(relevant_documents)+1
+        num_relevant_documents = len(relevant_documents)
 
         # SORT and FILTER predictions based in K
         filtered_response_sorted = filtered_response.sort_values("similarity", ascending=False).head(k)
@@ -137,7 +134,7 @@ def compute_relevance_gt(query_page,
         date_query = int(lut_full_catalog[query_book]["date"][0])
         date_candidate = int(lut_full_catalog[candidate_book]["date"][0])
 
-        epoch_score = max(0.0, 20 - abs(date_query - date_candidate) / 20)
+        epoch_score = max(0.0, (20 - abs(date_query - date_candidate)) / 20)
     except:
         epoch_score = 0