Cloudera Developer Training

Cloudera Developer Training for Spark and Hadoop I

PRESENTACIÓN

Esta acción formativa de 28 horas ofrece a los participantes los conceptos clave y la especialización necesaria para procesar datos en un clúster Hadoop utilizando los productos y técnicas más actuales como Apache Spark, Impala, Hive, Flume, y Sqoop.

A la finalización de la formación, el participante conocerá:

Cómo se distribuyen, almacenan y procesan los datos en un Cluster Hadoop.
Cómo utilizar Sqoop y carga real-time de datos con Flume.
Cómo procesar los datos en cluster con Apache Spark.
Cómo presentar datos estructurados como tablas en Impala y Hive.
Cómo elegir el mejor formato de almacenamiento para diferentes patrones de uso de datos.
Buenas prácticas para el almacenamiento de datos.

Tras la realización del presente curso oficial el alumno estará preparado para superar el examen de certificación Cloudera Certified Developer for Apache Hadoop (CCDH).

REQUISITOS

Este curso está especialmente ideado para desarrolladores e ingenieros con experiencia en programación. Los ejemplos y ejercicios se presentan en Python y Scala, por ello se requiere el conocimiento de uno de estos lenguajes de programación. También es necesario tener conocimientos básicos de Linux. No se requiere conocimiento previo de Hadoop.

TEMARIO

Introducción

Introducción a Hadoop y el Ecosistema Hadoop

Problemas con los sistemas a gran escala tradicionales.
Hadoop!
El Ecosistema Hadoop.

Arquitectura Hadoop y HDFS

Procesamiento Distribuido en un Cluster.
Almacenamiento: Arquitectura HDFSStorage.
Almacenamiento: Usando HDFS.
Administración de Recursos: Arquitectura YARN.
Administración de Recursos: Trabajando con YARN.

Importando Datos Relacionales con Apache Sqoop

Sqoop.
Exportación e Importación Básicos.
Limitando Resultados.
Mejorando el Rendimiento de Sqoop.
Sqoop 2.

Introducción a Impala y Hive

¿Por qué usar Impala y Hive?.
Comparando Hive con Bases de Datos tradicionales.
Casos de Uso de Hive.

Modelando y Administrando Datos con Impala y Hive

Almacenamiento de Datos.
Creando Bases de Datos y Tablas.
Cargando Datos en Tablas.
HCatalog.
Cacheo de Metadatos de Impala.

Formato de Datos

Seleccionando un Formato de Archivos.
Soporte de Formatos de Archivo en la herramienta Hadoop.
Esquemas Avro.
Usando Avro con Hive y Sqoop.
Evolución del Esquema Avro.
Compresión.

Particionado de Datos

Particionando.
Particionando en Impala y Hive.

Capturando Datos con Apache Flume

¿Qué es Apache Flume?.
Arquitectura Flume Básica.
Recursos de Flume.
Pilas de Flume.
Canales de Flume.
Configuración Flume.

Bases de Spark

¿Qué es Apache Spark?.
Usando la consola de Spark.
RDDs (Resilient Distributed Datasets Sets de Datos Resistentes Distribuidos).
Programación Funcional en Spark.

Trabajando con RDDs en Spark

RDDs en detalle.
Pares LlaveValor en RDDs.
Programación Funcional en Spark.

Escribiendo y Desplegando Aplicaciones Spark

Aplicación Spark vs. Consola de Spark.
Creanto el SparkContext.
Construyendo una Aplicación Spark (Scala y Java).
Ejecutando una Aplicación Spark.
La Interfaz de usuario de una Aplicación Web Spark.
Configurando Propiedades Spark.
Logs.

Programación Paralela en Spark

Revisión: Spark en un Cluster.
Particiones RDD.
Particionando Archivos RDDs.
HDFS y Localización de Datos.
Ejecutando Operaciones Palalelas.
Tareas y Estados.

Cacheo y Persistencia Spark

Linaje RDD.
Cacheo.
Persistencia Distribuida.

Patrones Comunes en Procesamiento de Datos en Spark

Casos de Uso Spark Comunes.
Algoritmos Iterativos en Spark.
Análisis y Procesamiento gráfico.
Aprendiendo Máquina.
Ejemplo: kmeans.

Preview: Spark SQL

Spark SQL y el Contexto SQL.
Creando DataFrames.
Transformando y Consultando DataFrames.
Guardando DataFrames.
Comparando Spark SQL con Impala.

NÚMERO PLAZAS

10-20

PROFESORES

Curso impartido por profesor certificado por Cloudera.

METODOLOGÍA

El curso se impartirá de forma presencial. Durante el curso los estudiantes realizarán ejercicios para mejorar la compresión y aplicar los conocimientos recibidos.

CONTACTO

Para más información puede contactar a través del teléfono +34 868 88 4223 o mediante correo electrónico: certic.um.es