Skip to content

JessiHP/Analisis_exploratorio_biodiversidad

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

4 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Análisis de especies amenazadas en España (2024) 🌿🔍

Análisis exploratorio centrado exclusivamente en registros de especies catalogadas como amenazadas (VU, EN, CR) en España durante el año 2024, utilizando datos de GBIF.

Este proyecto forma parte de mi portfolio como analista de datos, conectando herramientas técnicas con el conocimiento biológico para generar valor en conservación y gestión ambiental.

📅 Estado actual del proyecto

  • Descarga filtrada desde GBIF (Animalia y Plantae, 2024, observaciones humanas)
  • Extracción de datos desde archivos .zip
  • Combinación de datasets y eliminación de duplicados fuertes
  • Limpieza de columnas y nulos
  • Análisis exploratorio completo (taxonomía, tiempo, espacio)
  • Publicación en Power BI o Streamlit

🔧 Herramientas utilizadas

  • Python (pandas, seaborn, matplotlib, geopandas, folium)
  • pygbif (para pruebas iniciales con API)
  • Jupyter Lab / VS Code
  • Power BI (para dashboard final)
  • Git y GitHub

🔀 Estructura del proyecto

Proyecto_EDA/
├── data/
│   ├── raw/          # ZIPs descargados desde GBIF
│   ├── interim/      # Archivos extraídos y combinados (occurrence.txt)
│   ├── cleaned/      # (opcional) datos parcialmente procesados
│   └── processed/    # Datos finales para análisis (sin duplicados, filtrados)
│
├── notebooks/
│   ├── etl/
│   │   ├── 01a_descarga_extraccion.ipynb
│   │   ├── 01b_eliminacion_duplicados.ipynb
│   │   └── 01c_limpieza_nulos_columnas.ipynb
│   ├── eda/
│   │   ├── 02a_distribuciones_taxonomicas.ipynb
│   │   ├── 02b_temporal_mensual.ipynb
│   │   └── 02c_espacial_geografico.ipynb
│
├── src/
│   ├── gbif_extractor_combiner.py
│   ├── limpieza_utils.py
│   └── visualizaciones.py
│
├── legacy/           # Histórico del proyecto original (2023)
│   └── readme_legacy.md
│
└── README.md         # Este documento

🔖 Dataset

Datos Biodiversidad

  • Fuente: GBIF.org (descarga directa por taxón y categoría UICN)
  • Año: 2024
  • Filtros aplicados:
    • Observaciones humanas (basisOfRecord = HUMAN_OBSERVATION)
    • Categorías de amenaza: VU, EN, CR
    • Reinos: Animalia y Plantae
    • Ubicación: España (country = ES)
  • Tamaño estimado: ~16.000 registros (después de limpieza de duplicados)

Shapefile provincias de España ("Limites administrativos")

📉 Flujo de trabajo

  1. Extracción desde archivos ZIP filtrados
  2. Combinación y limpieza de columnas
  3. Eliminación de duplicados por:
    • Coordenadas + especie + fecha + nº individuos + observador
  4. Generación de columnas auxiliares (mes, año, etc.)
  5. Análisis exploratorio: taxonomía, categoría, espacio, tiempo
  6. Visualizaciones y dashboard

1. 🔄 Extracción y combinación de datos (script externo)

La extracción de los datos originales desde los archivos .zip descargados de GBIF se realiza mediante el script gbif_extractor_combiner.py ubicado en la carpeta /src.

Este script:

  • Descomprime los archivos de Animalia y Plantae desde data/raw/.
  • Lee los archivos occurrence.txt internos.
  • Une ambos en un solo DataFrame.
  • Guarda el dataset combinado como gbif_especies_amenazadas_2024.csv en data/processed/.

Este paso se ejecuta solo una vez desde terminal, y no se activa automáticamente desde los notebooks.

🔗 Nota importante

📌 Nota: El enfoque original del proyecto ha sido redefinido en abril de 2024 para centrarse exclusivamente en registros de especies amenazadas en España durante el año 2024. La versión anterior está disponible en la carpeta /legacy como referencia histórica.

🚀 Objetivo final

Generar un dashboard interactivo con filtros taxonómicos, geográficos y temporales, que permita visualizar:

  • Dónde se están registrando más especies amenazadas en 2024
  • En qué meses hay mayor actividad de observación
  • Cuáles son los grupos taxonómicos más representados

About

Exploración y visualización de datos sobre biodiversidad. (EDA, ETL) | Python, SQL, PowerBi, Jupyter Notebook

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors