Análisis exploratorio centrado exclusivamente en registros de especies catalogadas como amenazadas (VU, EN, CR) en España durante el año 2024, utilizando datos de GBIF.
Este proyecto forma parte de mi portfolio como analista de datos, conectando herramientas técnicas con el conocimiento biológico para generar valor en conservación y gestión ambiental.
- Descarga filtrada desde GBIF (Animalia y Plantae, 2024, observaciones humanas)
- Extracción de datos desde archivos
.zip - Combinación de datasets y eliminación de duplicados fuertes
- Limpieza de columnas y nulos
- Análisis exploratorio completo (taxonomía, tiempo, espacio)
- Publicación en Power BI o Streamlit
- Python (pandas, seaborn, matplotlib, geopandas, folium)
- pygbif (para pruebas iniciales con API)
- Jupyter Lab / VS Code
- Power BI (para dashboard final)
- Git y GitHub
Proyecto_EDA/
├── data/
│ ├── raw/ # ZIPs descargados desde GBIF
│ ├── interim/ # Archivos extraídos y combinados (occurrence.txt)
│ ├── cleaned/ # (opcional) datos parcialmente procesados
│ └── processed/ # Datos finales para análisis (sin duplicados, filtrados)
│
├── notebooks/
│ ├── etl/
│ │ ├── 01a_descarga_extraccion.ipynb
│ │ ├── 01b_eliminacion_duplicados.ipynb
│ │ └── 01c_limpieza_nulos_columnas.ipynb
│ ├── eda/
│ │ ├── 02a_distribuciones_taxonomicas.ipynb
│ │ ├── 02b_temporal_mensual.ipynb
│ │ └── 02c_espacial_geografico.ipynb
│
├── src/
│ ├── gbif_extractor_combiner.py
│ ├── limpieza_utils.py
│ └── visualizaciones.py
│
├── legacy/ # Histórico del proyecto original (2023)
│ └── readme_legacy.md
│
└── README.md # Este documentoDatos Biodiversidad
- Fuente: GBIF.org (descarga directa por taxón y categoría UICN)
- Año: 2024
- Filtros aplicados:
- Observaciones humanas (basisOfRecord = HUMAN_OBSERVATION)
- Categorías de amenaza: VU, EN, CR
- Reinos: Animalia y Plantae
- Ubicación: España (country = ES)
- Tamaño estimado: ~16.000 registros (después de limpieza de duplicados)
Shapefile provincias de España ("Limites administrativos")
- Extracción desde archivos ZIP filtrados
- Combinación y limpieza de columnas
- Eliminación de duplicados por:
- Coordenadas + especie + fecha + nº individuos + observador
- Generación de columnas auxiliares (
mes,año, etc.) - Análisis exploratorio: taxonomía, categoría, espacio, tiempo
- Visualizaciones y dashboard
La extracción de los datos originales desde los archivos .zip descargados de GBIF se realiza mediante el script gbif_extractor_combiner.py ubicado en la carpeta /src.
Este script:
- Descomprime los archivos de Animalia y Plantae desde
data/raw/. - Lee los archivos
occurrence.txtinternos. - Une ambos en un solo DataFrame.
- Guarda el dataset combinado como
gbif_especies_amenazadas_2024.csvendata/processed/.
Este paso se ejecuta solo una vez desde terminal, y no se activa automáticamente desde los notebooks.
📌 Nota: El enfoque original del proyecto ha sido redefinido en abril de 2024 para centrarse exclusivamente en registros de especies amenazadas en España durante el año 2024. La versión anterior está disponible en la carpeta /legacy como referencia histórica.
Generar un dashboard interactivo con filtros taxonómicos, geográficos y temporales, que permita visualizar:
- Dónde se están registrando más especies amenazadas en 2024
- En qué meses hay mayor actividad de observación
- Cuáles son los grupos taxonómicos más representados