Description
El presente curso tiene como objetivo presentar los métodos y técnicas básicos para el procesamiento y análisis de datos en el contexto de Big Data. No prentende ser un curso exhaustivo sobre Machine Learning ni sobre métodos Estadísticos, simplemente se pretenden mostrar las características principales de estas técnicas para que el alumno pueda tener una visión general de las opciones que ofrece el análisis de datos para poder explorar, confirmar indicios y en definitiva, extraer conclusiones.
Syllabus :
1. LA MÁQUINA VIRTUAL
- Import start
- Tips
- Pyspark setup
2. Análisis Exploratorio de Datos
- Datos - Fuentes de información
- Distintos problemas y técnicas
- Caso de estudio y herramientas
- Introducción a Jupyter Notebook y Pyspark
- Exploración de la estructura de datos
- Primera etapa del análisis exploratorio
- Preproceso de datos
- Segunda etapa del análisis exploratorio
3. MODELOS DE REGRESIÓN
- Objetivo de la Modelización
- Calibración del modelo
- Resultado de la Modelización
- Regresión Simple
- Nuevas variables
- Regresión Múltiple
- Regresión Logística
4. ÁRBOLES DE REGRESIÓN Y CLASIFICACIÓN
- Introducción a la Modelización
- Medir la Incertidumbre
- Concepto de Árbol
- Árboles de Regresión
- Modelización con Árboles de Regresión
- Árboles de Clasificación
- Modelización con Árboles de Clasificación
- Bosques Aleatorios
- Modelización con Bosques Aleatorios
5. REDES NEURONALES Y TÉCNICAS NO SUPERVISADAS
- Redes Neuronales
- Modelización con redes neuronales
- Introducción al reconocimiento de patrones
- Reducción dimensión
- Análisis de componentes principales
- Clasificación automática
- Análisis de clústers
- Revisión de la ciencia de datos