burel baseline code added

NinaWie · NinaWie · commit 20d7b2e46d07 · 2019-12-30T10:16:43.000+01:00
diff --git a/Baselines/baseline_burel.py b/Baselines/baseline_burel.py
@@ -15,33 +15,124 @@
 
 import gp_features
 from gp_utils import *
-
-cached_data = data.DataHandleCached()
+from collections import defaultdict
+
+def sample_open_questions(open_questions, random_from_cdf, gt_question):
+    """
+    sample open questions from the histogram
+    param: open_questions: are all open questions at that point of time
+    param: random_from_cdf: is the histogram distribution
+    param: sample_size: how many to sample
+    returns: open questions which were sampled
+    """
+    age_vals = open_questions["question_age"].values
+    uni, counts = np.unique(random_from_cdf, return_counts=True)
+    val_before = 0
+    final_inds = []
+    for r in range(len(uni)):
+        val = uni[r]
+        val_set = set(np.where(age_vals<val)[0]).intersection(np.where(age_vals>val_before)[0])
+        val_before=val
+        if len(val_set)>counts[r]:
+            subset = np.random.choice(list(val_set), counts[r], replace=False)
+        else:
+            subset = list(val_set)
+            if r<len(uni)-1:
+                counts[r+1] += counts[r]-len(val_set)
+            else: # last one reached
+                nr_missing = counts[r]-len(val_set)
+                val_set = np.where(age_vals>val)[0]
+                if len(val_set)>nr_missing:
+                    rand_of_leftover = np.random.choice(val_set, nr_missing, replace=False)
+                    subset.extend(rand_of_leftover)
+                else:
+                    subset.extend(val_set)
+        final_inds.extend(subset)
+    manually = 0
+    if gt_question not in final_inds:
+        final_inds.append(gt_question)
+        manually = 1
+        print("manually added")
+    final_inds_index = open_questions.index[final_inds]
+    final_inds_index = sorted(final_inds_index)
+    open_questions = open_questions.loc[final_inds_index]
+    return open_questions, manually
+
+# PARAMETER:
+redo_database_dumps = False
+redo_histogram = False
+# parameters for suggested questions
+hour_threshold_suggested_answer = 24
+only_open_questions_suggestable = True 
+filter_nan_asker_id = True
+# output directory (must exist)
+save_dir = "burel_data"
+# number of negatives samples per positive
+NR_NEG = 100
+
+# paths for cached data
+fp = "../cache"
+all_events_file = os.path.join(fp, "gp/all_events.pickle")
+cached_data_file = os.path.join(fp, "gp/cached_data.pickle")
+
+if redo_database_dumps:
+    all_events_dataframe = data_utils.all_answer_events_dataframe(start_time=None, end_time=None, time_delta_scores_after_post=time_delta_scores_after_posts, filter_empty_asker=filter_nan_asker, filter_empty_target_user=filter_nan_answerer)
+    all_events_dataframe.to_pickle(all_events_file)
+
+    cached_data = data.DataHandleCached()
+    with open(cached_data_file, "wb") as f:
+        pickle.dump(cached_data, f)
+else:
+    all_events_dataframe = pd.read_pickle(all_events_file)
+
+    with open(cached_data_file, "rb") as f:
+        cached_data = pickle.load(f)
+
+# define data and feature handles
 data_handle = data.Data()
 
 feature_collection = gp_features.GP_Feature_Collection(
 gp_features.GP_Features_affinity(),
-gp_features.GP_Features_TTM(),
 gp_features.GP_Features_Question(),
 gp_features.GP_Features_user())
 
-# parameters for suggested questions
-hour_threshold_suggested_answer = 24
-only_open_questions_suggestable = False 
-filter_nan_asker_id = True
-
-save_dir = "baseline_data"
 
-start_time = None # data_utils.make_datetime("01.01.2012 00:01")
-end_time = data_utils.make_datetime("01.01.2016 00:01") # data_utils.make_datetime("01.03.2012 00:01")
+# start and end of data
+start_time = data_utils.make_datetime("01.01.2012 00:01")
+end_time = data_utils.make_datetime("01.01.2017 00:01") # data_utils.make_datetime("01.03.2012 00:01")
 
 all_feates_collector = list()
-
 n_candidates_collector = list()
 
-save_every = 10000
+save_every = 300
 q_a_pair_counter = 1
 
+## Approximate questionage distribution
+if redo_histogram:
+    questionage_table = data_handle.query("SELECT a.id, (answercreationdate-CreationDate) as questionage FROM (SELECT parentid as Id, creationdate as answercreationdate FROM Posts WHERE PostTypeId=2) a LEFT JOIN Posts b ON a.Id=b.Id;")
+    questionage_table["questionage"] = questionage_table["questionage"].dt.days +  (questionage_table["questionage"].dt.seconds)/(24*60*60)
+    age_vals = questionage_table["questionage"].values
+    age_vals = age_vals[age_vals>0]
+    age_vals = age_vals[age_vals<100]
+    hist, bins = np.histogram(age_vals, bins=500)
+    bin_midpoints = bins[1:] # + np.diff(bins)/2
+    cdf = np.cumsum(hist)
+    cdf = cdf / cdf[-1]
+    values = np.random.rand(100)
+    value_bins = np.searchsorted(cdf, values)
+    random_from_cdf = bin_midpoints[value_bins]
+    with open("random_from_cdf.pickle", "wb") as outfile:
+        pickle.dump(random_from_cdf, outfile)
+else:
+    with open("random_from_cdf.pickle", "rb") as outfile:
+        random_from_cdf = pickle.load(outfile)
+
+
+user_dic = defaultdict(int)
+
+
+# START ITERATING THROUGH DATA
+prev_answertime = start_time
 for i, event in enumerate(data_utils.all_answer_events_iterator(timedelta(days=2), start_time=start_time, end_time=end_time)):
     if np.isnan(event.answerer_user_id) or np.isnan(event.asker_user_id):
          continue
@@ -50,47 +141,64 @@
         avg_candidates = np.mean(n_candidates_collector)
         print("Preptraining at {}| on average {} candidates in the last {} suggested_question_events".format(event.answer_date, avg_candidates, len(n_candidates_collector)))
         n_candidates_collector = list()
-
-    if is_user_answers_suggested_event(event, hour_threshold_suggested_answer):
+    
+    # only add to data if user has answered more than five questions and the answer is more than 12 hours after the last one
+    if user_dic[event.answerer_user_id] >=5 and event.answer_date> prev_answertime + timedelta(hours = 12):
+        open_questions = get_suggestable_questions(event.answer_date, cached_data, only_open_questions_suggestable, hour_threshold_suggested_answer, filter_nan_asker_id)
+        # add question age
+        question_dates = [pd.Timestamp(x) for x in open_questions["question_date"].values]
+        open_questions["question_age"] = [event.answer_date - question_event_time for question_event_time in question_dates]
+        open_questions["question_age"] = (open_questions["question_age"].dt.days +  (open_questions["question_age"].dt.seconds)/(24*60*60))
         
-        suggestable_questions = get_suggestable_questions(event.answer_date, cached_data, only_open_questions_suggestable, hour_threshold_suggested_answer, filter_nan_asker_id)
-        if len(suggestable_questions) ==0:
-            # warnings.warn("For answer id {} (to question {}) there was not a single suggestable question".format(event.answer_id, event.question_id))
+        gt_ind = np.where(open_questions.question_id == event.question_id)[0]
+        if len(open_questions) ==0 or len(gt_ind)==0:
+            print("Warning: question already answered or For answer id {} (to question {}) there was not a single suggestable question".format(event.answer_id, event.question_id))
             continue
-            
+        if len(open_questions) <= NR_NEG:
+            suggestable_questions = open_questions
+            manually = 0
+        else:
+            print("sampling")
+            suggestable_questions, manually = sample_open_questions(open_questions, random_from_cdf, gt_ind[0])
+        
+        assert(np.any(suggestable_questions.question_id == event.question_id))
+           
         n_candidates_collector.append(len(suggestable_questions))
         
-        # erst appenden wenn ueber einer bestimmten zeit?
+        # append to feature and label list
         feats = feature_collection.compute_features(event.answerer_user_id, suggestable_questions, event.answer_date)
         label = suggestable_questions.question_id.values == event.question_id
         
         # add some more information
         feats["question_id"] = suggestable_questions.question_id.values.tolist() # remember question ids
         feats["decision_time"] = q_a_pair_counter # for MRR need to remember groups
         feats["label"] = label.astype(int)
+        feats["manually_added"] = manually
         feats["answer_date"] = pd.Series([event.answer_date for _ in range(len(feats))])
 
         all_feates_collector.append(feats)
 
         assert(np.sum(np.asarray(label).astype(int))==1)
-        
+        q_a_pair_counter+=1
+        prev_answertime = event.answer_date
+
+        # save inbetween and clear variables in order to backup
+        if (q_a_pair_counter) % save_every==0:
+            save_name = "feature_data_"+str((q_a_pair_counter+1)//save_every)+".csv"
+            features_table = pd.concat(all_feates_collector, axis=0)
+            features_table.to_csv(os.path.join(save_dir, save_name), index=False)
+            print("Successfully saved data inbetween", save_name)
+            del features_table 
+            del all_feates_collector
+            all_feates_collector = list()
 
     feature_collection.update_pos_event(event) # update features in any case
-
-    # save inbetween and clear variables in order to backup
-    if (q_a_pair_counter+1) % save_every==0:
-        save_name = "feature_data_"+str((q_a_pair_counter+1)//save_every)+".csv"
-        features_table = pd.concat(all_feates_collector, axis=0)
-        features_table.to_csv(os.path.join(save_dir, save_name), index=False)
-        print("Successfully saved data inbetween", save_name)
-        del features_table 
-        del all_feates_collector
-        all_feates_collector = list()
+    user_dic[event.answerer_user_id] += 1
 
     
-    q_a_pair_counter+=1
+   
 
-if (q_a_pair_counter+1) % save_every != 0: # last batch hasn't been saved
+if (q_a_pair_counter) % save_every != 0: # last batch hasn't been saved
     save_name = "feature_data_"+str((q_a_pair_counter+1)//save_every + 1)+".csv"
     features_table = pd.concat(all_feates_collector, axis=0)
     features_table.to_csv(os.path.join(save_dir, save_name), index=False)
diff --git a/Baselines/baseline_burel_rf.py b/Baselines/baseline_burel_rf.py
@@ -5,13 +5,18 @@
 import os
 import sys
 import utils
+import data_utils
 
-SPLIT = 0.8
+# define training and testing times
 success_n = 5
+SPLIT_OPTION = "time" # time or fold
+TRAIN_END_DATE = data_utils.make_datetime("01.01.2015 00:01")
+TEST_START_DATE = data_utils.make_datetime("01.01.2015 00:01")
+TEST_END_DATE = data_utils.make_datetime("01.01.2017 00:01")
+SPLIT_FOLD = 0.9
 
 # Load data
-data_dir = "baseline_data"
-# df_read = pd.read_csv("baseline_data/feature_data_1.csv")
+data_dir = "burel_data"
 files = sorted(os.listdir(data_dir))
 print("available files:", files)
 dfs = []
@@ -24,30 +29,45 @@
 print("is sorted?", all(np.diff(df_read["decision_time"])>=0))
 
 # split in train and test
-num_events = len(np.unique(df_read["decision_time"].values, return_counts=True)[1])
-print("overall, in the data there are ", num_events, "question-answer events")
-print("on average, for each event there are ", len(df_read)//num_events, " open questions")
-cutoff = int(num_events * SPLIT)
-df_train = df_read[df_read["decision_time"]<cutoff]
-df_test = df_read[df_read["decision_time"]>=cutoff]
+events, _ = np.unique(df_read["decision_time"].values, return_counts=True)
+print("Overall, in the data there are ", len(events), "question-answer events")
+print("On average, for each event there are ", len(df_read)//len(events), " open questions")
+# split
+if SPLIT_OPTION=="fold":
+    cutoff = events[int(len(events) * SPLIT_FOLD)]
+    df_train = df_read[df_read["decision_time"]<cutoff]
+    df_test = df_read[df_read["decision_time"]>=cutoff]
+elif SPLIT_OPTION=="time":
+    df_read["answer_date"] = pd.to_datetime(df_read["answer_date"])
+    df_train = df_read[df_read["answer_date"] < TRAIN_END_DATE]
+    df_test = df_read[df_read["answer_date"] >= TEST_START_DATE]
+    df_test = df_test[df_test["answer_date"] < TEST_END_DATE]
+
+# print information about data
+num_events = len(np.unique(df_train["decision_time"].values))
+print("In TRAIN there are ", num_events, "question-answer events")
+print("IN TRAIN for each event there are ", len(df_train)//num_events, " open questions on average")
+num_events = len(np.unique(df_test["decision_time"].values))
+print("In TEST there are ", num_events, "question-answer events")
+print("IN TEST for each event there are ", len(df_test)//num_events, " open questions on average")
 
 # Prepare training set
-X_train = df_train.drop(['label', 'decision_time', 'question_id', "answer_date"], axis=1) 
+#'question_age', 'votes_mean', 'votes_sd', 'votes_sum', 'votes_max', 'votes_min', 'new'
+X_train = df_train.drop(['label', 'decision_time', 'question_id', "answer_date", 'tag_popularity', 'manually_added'], axis=1) 
 features = X_train.columns.tolist()
 X_train = np.asarray(X_train)
 Y_train = df_train['label'].values
 G_train = df_train['decision_time'].values
-# print(sorted(np.unique(G_train//100)))
 
 # Prepare testing set
-X_test = df_test.drop(['label', 'decision_time', 'question_id', "answer_date"], axis=1) # df_test[["questionage"]] #
+X_test = df_test.drop(['label', 'decision_time', 'question_id', "answer_date", 'tag_popularity', 'manually_added'], axis=1) # df_test[["questionage"]] #
 X_test = np.asarray(X_test)
 Y_test = df_test['label'].values
 G_test = df_test['decision_time'].values
-# print(sorted(np.unique(G_test//100)))
+M_test = df_test['manually_added'].values
 assert(len(X_train)==len(Y_train))
 
-print("Size of training set: ", len(Y_train), " Test set:", len(Y_test))
+print("Size of training set: ", len(Y_train), " Test set:", len(Y_test), ", Nr features:", X_test.shape)
 class_counts = np.unique(Y_train, return_counts=True)[1]
 print("Class imbalance: 1:", class_counts[0]//class_counts[1])
 
@@ -76,24 +96,27 @@
 
 print("----------- Compute scores ----------------")
 
+# Train scores
 probs_train = clf.predict_proba(X_train)
 score, _ = utils.mrr(probs_train[:,1], G_train, Y_train)
 print("Training MRR:", score)
 
+# Test scores
 probs_test = clf.predict_proba(X_test)
 pred_targets = probs_test[:,1]
-score, ranks = utils.mrr(pred_targets, G_test, Y_test)
+score, ranks, nr_cands = utils.mrr_manually(pred_targets, G_test, Y_test, M_test)
 chance_mrr = utils.mrr3(out_probs=np.random.permutation(pred_targets), grouped_queries=G_test, ground_truth=Y_test)
 print ("Testing MRR: ", score, ", Chance level:", chance_mrr)
 
-success_score = utils.success_at_n(pred_targets, G_test, Y_test, n=success_n)
+# Success at n
+success_score = utils.success_at_n_manually(pred_targets, G_test, Y_test, M_test, n=success_n)
 success_chance = utils.success_at_n(np.random.permutation(pred_targets), G_test, Y_test, n=success_n)
 print("Success at ", success_n,":", success_score, ", Chance level:", success_chance)
 
 
 # # SAVING TEST FEATURES
-# df_test_gt = df_test
-# df_test_gt["rank"] = ranks.tolist()
-# print(df_test_gt.head())
-
-# df_test_gt.to_csv("ranks_features.csv")
+df_test_gt = df_test
+df_test_gt["rank"] = ranks.tolist()
+df_test_gt["n_candidates"] = nr_cands.tolist()
+print(df_test_gt.head())
+df_test_gt.to_csv("results/new_burel_ranks_2015-16_wQA_wman.csv")
diff --git a/Baselines/utils.py b/Baselines/utils.py