GitHub - hasanusluu/End-to-End-Data-Pipeline-Kafka-Spark-Airflow

End-to-End Data Pipeline

Bu proje, Apache Kafka, Apache Spark ve Apache Airflow kullanılarak uçtan uca (end-to-end) veri üretimi, işlenmesi ve otomasyonu örneklemek için hazırlanmıştır.

Proje Amacı

Gerçek zamanlı vliği araçlarıyla (Kafka, Spark, Airflow) Docker üzerinde dee toplu veri işleme süreçlerini, modern veri mühendisneyimlemek ve öğrenmek.

Mimarideki Bileşenler

Kafka: Gerçek zamanlı veri akışı ve saklama (sipariş verileri).
Spark: Kafka'dan verileri okuyup toplu (batch) olarak analiz ve raporlama.
Airflow: Spark işlerini otomatik ve zamanlanmış şekilde tetikleme.
Postgres: (İsteğe bağlı) Kalıcı veri saklama.Bu projede kullanılmıyor.
Producer (Python): Kafka'ya rastgele sipariş verisi üreten Python scripti.

Nasıl Çalışır?

Producer, Kafka'ya rastgele sipariş verileri gönderir.
Kafka, bu verileri saklar ve Spark ile paylaşır.
Airflow, her gün otomatik olarak bir Spark job'u tetikler.
Spark, Kafka'daki verileri okur, ürün bazında toplam satış ve ciroyu hesaplar.
Sonuçlar loglarda tablo olarak görüntülenir.

Kurulum ve Çalıştırma

.env.example dosyasını kopyalayıp .env olarak adlandırın ve gerekli bilgileri doldurun.
Tüm servisleri başlatmak için:
```
docker-compose up -d
```
Kafka producer'ı başlatmak için:
```
python kafka_producer/producer.py
```
Airflow arayüzüne erişin.
daily_report_dag isimli DAG'ı elle veya otomatik olarak tetikleyin.

Kullanılan Teknolojiler

Apache Kafka
Apache Spark
Apache Airflow
Docker & Docker Compose
Python (kafka-python, pyspark)

UYARI

Bu proje, veri mühendisliği süreçlerini öğrenmek ve denemek isteyenler için hazırlanmış bir örnektir.Ticari bir amaç için kullanılamaz.

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
airflow		airflow
kafka_producer		kafka_producer
spark-jobs		spark-jobs
.gitignore		.gitignore
README.md		README.md
docker-compose.yml		docker-compose.yml
todo.md		todo.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

End-to-End Data Pipeline

Proje Amacı

Mimarideki Bileşenler

Nasıl Çalışır?

Kurulum ve Çalıştırma

Kullanılan Teknolojiler

UYARI

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

End-to-End Data Pipeline

Proje Amacı

Mimarideki Bileşenler

Nasıl Çalışır?

Kurulum ve Çalıştırma

Kullanılan Teknolojiler

UYARI

About

Topics

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages