Bu proje, 33.000'den fazla e-posta barındıran Enron veri seti üzerinde veri madenciliği ve doğal dil işleme (NLP) teknikleri kullanılarak geliştirilmiş otomatik bir spam tespit sistemidir. Gelen mesajların metin içeriklerini analiz ederek "Spam" (istenmeyen) veya "Ham" (normal) olarak sınıflandırmayı amaçlayan çalışmada, veri ön işleme ve TF-IDF (N-Gram) vektörleştirme adımlarının ardından Logistic Regression ve Multinomial Naive Bayes modelleri eğitilmiştir. Yapılan testler sonucunda Logistic Regression modeli %98.6 doğruluk (accuracy) ve %98.5 F1-skoru ile en yüksek performansı göstermiş olup, e-posta filtreleme senaryoları için güvenilir ve yüksek performanslı bir makine öğrenmesi çözümü ortaya konmuştur.
ByeBye21/enron_spam_detection
Folders and files
| Name | Name | Last commit date | ||
|---|---|---|---|---|