En el mundo de la ciencia de datos, estos datos son llamados big (grandes), cuando superan la capacidad de almacenamiento de una máquina o servidor estándar.
Esto implica que analizar conjuntos de datos requiere múltiples servidores y sistemas distribuidos como Hadoop (HDFS) y modelos computacionales como MapReduce y Spark.
Objetivo
Con ayuda de nuestro curso, aprenderás a superar las barreras del análisis de datos masivos, utilizando Apache Spark.
Al finalizar, podrás reconocer:
– La importancia y el proceso del análisis de datos masivos.
– Cómo los modelos de computación como MapReduce y Apache Spark abordan el problema del análisis de datos masivos.
– La escritura de programas eficientes en Apache Spark con la librería PySpark, incluyendo conceptos fundamentales como transformaciones, acciones, persistencia, variables de difusión, acumuladores y pares clave-valor.
Competencias Específicas
Nuestro curso está dirigido a egresados de la Fundación Universitaria de Popayán – FUP que, preferiblemente cuenten con experiencia en el lenguaje de Programación Python.
Contamos con una combinación de dinámica de clases distribuida en clases magistrales en un 70% y talleres prácticos en 30%. A través de ello, esperamos que adquieran experiencia en el uso de librerías de PySpark en Google Colabs.