Del curso: Python para data science y big data esencial
Desbloquea este curso con un periodo de prueba gratis
Únete hoy para acceder a más de 24.900 cursos impartidos por expertos del sector.
Construir nuestras propias funciones Map Reduce - Tutorial de Python
Del curso: Python para data science y big data esencial
Construir nuestras propias funciones Map Reduce
La parte interesante de trabajar con MapReduce es, normalmente, generar funciones con un comportamiento distinto al por defecto de las medias, sumas y recuentos que podamos hacer. Aquí te presento un ejemplo en el que encadenamos distintas funciones que aplican operaciones de reducción por clave, mapeo, ordenación por clave, etcétera. Básicamente, vamos a calcular una media, en este caso saturada, de cómo operan las distintas aerolíneas por aeropuertos y cómo de tarde llegan estos vuelos. Así pues, estamos haciendo un groupby doble donde vamos a ver las medias de retraso y, en caso de que nos estemos pasando muchísimo, consideraremos este valor como extremo y le asignaremos un 300 como mucho. Lo mismo si tenemos valores muy negativos. Esto implica que estamos calculando una media con algún filtro en función de algún criterio que nosotros aplicamos de control de valores muy extremos. Este sería un ejercicio también interesante para crear aquí dentro un acumulador que vaya subiendo para…
Contenido
-
-
-
-
-
-
-
-
(Bloqueado)
Bases de PySpark: RDDs5 min 2 s
-
(Bloqueado)
Transformaciones en PySpark4 min 2 s
-
(Bloqueado)
Acciones en PySpark2 min 26 s
-
(Bloqueado)
DataFrames en PySpark3 min 36 s
-
(Bloqueado)
Operaciones con DataFrames en PySpark3 min 55 s
-
(Bloqueado)
Acumuladores y operaciones numéricas3 min 12 s
-
(Bloqueado)
MapReduce: Introducción4 min 28 s
-
(Bloqueado)
Construir nuestras propias funciones Map Reduce4 min 17 s
-
(Bloqueado)
-