FilmScraper

FilmScraper est un script Python qui permet de scraper le site cpasmieux.ad/filmstreaming pour extraire des informations détaillées sur les films en streaming. Le script récupère pour chaque film le titre, l'URL de l'image, les liens de streaming (provenant de services comme Uqload, Netu, Filmoon ou DoodStream) ainsi que des détails complémentaires tels que les genres, la date de sortie, les acteurs et la description.

Fonctionnalités

Scraping des pages de films
Parcourt les pages du site pour récupérer les films (20 films par page par défaut).
Extraction des données filmographiques
Pour chaque film, le script extrait :
- Le titre
- L'URL de l'image (facultatif)
- Les liens de streaming
- Les détails du film (genres, date de sortie, acteurs, description)
Multithreading
Utilisation de ThreadPoolExecutor pour traiter les films en parallèle et accélérer le processus de scraping.
Sauvegarde de la progression
La progression est sauvegardée dans un fichier progression.json pour permettre de reprendre le scraping en cas d'interruption.
Sauvegarde des résultats
Les informations extraites sont enregistrées dans un fichier JSON (film_data_results.json).
Utilisation d'un VPN
En cas de blocage ou de limitation lors du scraping, il est recommandé d'utiliser un VPN. Le script vous invite à vous connecter et à relancer le traitement en appuyant sur Enter.
Référence à d'autres scripts
Pour obtenir l'ensemble des outils d'automatisation (comme le clonage des liens Uqload), consultez le dépôt uqload-auto-clone (remplacez l'URL par celle de votre dépôt).

Prérequis

Python 3.x
Modules Python :
- requests
- lxml
- concurrent.futures (inclus dans Python 3)
Accès Internet
(Utilisation éventuelle d'un VPN pour contourner les restrictions ou blocages)

Installation

Cloner le dépôt :

git clone https://github.com/votre-utilisateur/filmscraper.git
cd filmscraper

Installer les dépendances :
```
pip install requests lxml
```

Utilisation

Pour lancer le scraping, exécutez simplement le script :

python filmscraper.py

Le script parcourt les pages du site cpasmieux.ad/filmstreaming, extrait les informations des films et sauvegarde les résultats dans le fichier film_data_results.json. La progression est enregistrée dans progression.json.

Personnalisation

Nombre de pages à scraper :
Vous pouvez modifier la variable total_pages dans la classe FilmScraper pour ajuster le nombre de pages à analyser.
Chemin du fichier résultat :
Le fichier de résultats est défini par le paramètre result_file lors de l'initialisation de la classe. Vous pouvez le modifier selon vos besoins.

Remarques

Utilisation d'un VPN :
Si vous rencontrez des blocages ou limitations lors du scraping, connectez-vous à un VPN et relancez le script ou appuyez sur Enter lorsque le script vous le demande pour reprendre le traitement.
Autres scripts d'automatisation :
Pour accéder à l'ensemble des outils (par exemple, pour le clonage automatique des liens Uqload), consultez le dépôt uqload-auto-clone.

Contribution

Les contributions sont les bienvenues ! Si vous souhaitez améliorer ce projet ou corriger un bug, n'hésitez pas à ouvrir une issue ou à soumettre une pull request.

Licence

Ce projet est sous licence MIT.

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
LICENSE		LICENSE
README.md		README.md
app.py		app.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

FilmScraper

Fonctionnalités

Prérequis

Installation

Utilisation

Personnalisation

Remarques

Contribution

Licence

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

FilmScraper

Fonctionnalités

Prérequis

Installation

Utilisation

Personnalisation

Remarques

Contribution

Licence

About

Topics

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages