SMAI Course Project Monsoon 2021

Duplicate-Question-Detection-in-Stack-Overflow

A model for predicting top-k similar questions for the given question.

Paper: Zhang Y, Lo D, Xia X et al. Multi-factor duplicate question detection in Stack Overflow. JOURNAL OF COMPUTER SCIENCE AND TECHNOLOGY 30(5): 981–997 Sept. 2015. DOI 10.1007/s11390-015-1576-4

Directories

|_ LDA_trial.ipynb => Sample LDA reference code
|_ model + GUI.ipynb => A complete implementation of the model with GUI
|_ Primary.ipynb => Implementation of the dupPredictor model on Programming dataset
|_ PrimaryPhysics.ipynb => Implementation of the dupPredictor on Physics dataset
|_ bg.jpg => Reference background image for the GUI
|_ Dataset.csv => Dataset used for the project
|_ GUI.py => Python script of GUI implemented
|_ Training set Similarity scores.npy => CSV file with trained similarity scores
|_ dataset_source.txt => sources for the datasets

Main Steps undertaken:

Data Extraction
Tokenisation (Preprocessing)
Porter Stemming (Preprocessing)
Extract topic from description
Similarity Scores
Composer Score and Parameter estimation

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

SMAI Course Project Monsoon 2021

Duplicate-Question-Detection-in-Stack-Overflow

Paper: Zhang Y, Lo D, Xia X et al. Multi-factor duplicate question detection in Stack Overflow. JOURNAL OF COMPUTER SCIENCE AND TECHNOLOGY 30(5): 981–997 Sept. 2015. DOI 10.1007/s11390-015-1576-4

Directories

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
Data of DupPredictor on physics questions		Data of DupPredictor on physics questions
Dataset.csv		Dataset.csv
GUI.py		GUI.py
LDA_trial.ipynb		LDA_trial.ipynb
Primary.ipynb		Primary.ipynb
PrimaryPhysics.ipynb		PrimaryPhysics.ipynb
README.md		README.md
Training set Similarity scores.npy		Training set Similarity scores.npy
Training set Similarity scoresPhysics.npy		Training set Similarity scoresPhysics.npy
bg.jpg		bg.jpg
composer_score_recallPhysics.npy		composer_score_recallPhysics.npy
dataset_source.txt		dataset_source.txt
model + GUI.ipynb		model + GUI.ipynb
q		q

Folders and files

Latest commit

History

Repository files navigation

SMAI Course Project Monsoon 2021

Duplicate-Question-Detection-in-Stack-Overflow

Paper: Zhang Y, Lo D, Xia X et al. Multi-factor duplicate question detection in Stack Overflow. JOURNAL OF COMPUTER SCIENCE AND TECHNOLOGY 30(5): 981–997 Sept. 2015. DOI 10.1007/s11390-015-1576-4

Directories

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages