Ir arriba

cloudera_logo

Cloudera Developer Training for Spark and Hadoop I

 

 

PRESENTACIÓN

Esta acción formativa de 28 horas ofrece a los participantes los conceptos clave y la especialización necesaria para procesar datos en un clúster Hadoop utilizando los productos y técnicas más actuales como Apache Spark, Impala, Hive, Flume, y Sqoop.

A la finalización de la formación, el participante conocerá:

  • Cómo se distribuyen, almacenan y procesan los datos en un Cluster Hadoop.
  • Cómo utilizar Sqoop y carga real-time de datos con Flume.
  • Cómo procesar los datos en cluster con Apache Spark.
  • Cómo presentar datos estructurados como tablas en Impala y Hive.
  • Cómo elegir el mejor formato de almacenamiento para diferentes patrones de uso de datos.
  • Buenas prácticas para el almacenamiento de datos.

Tras la realización del presente curso oficial el alumno estará preparado para superar el examen de certificación Cloudera Certified Developer for Apache Hadoop (CCDH).

 

REQUISITOS

Este curso está especialmente ideado para desarrolladores e ingenieros con experiencia en programación. Los ejemplos y ejercicios se presentan en Python y Scala, por ello se requiere el conocimiento de uno de estos lenguajes de programación. También es necesario tener conocimientos básicos de Linux. No se requiere conocimiento previo de Hadoop.

 

TEMARIO

Introducción

Introducción a Hadoop y el Ecosistema Hadoop

  • Problemas con los sistemas a gran escala tradicionales.
  • Hadoop!
  • El Ecosistema Hadoop.

Arquitectura Hadoop y HDFS

  • Procesamiento Distribuido en un Cluster.
  • Almacenamiento: Arquitectura HDFSStorage.
  • Almacenamiento: Usando HDFS.
  • Administración de Recursos: Arquitectura YARN.
  • Administración de Recursos: Trabajando con YARN.

Importando Datos Relacionales con Apache Sqoop

  • Sqoop.
  • Exportación e Importación Básicos.
  • Limitando Resultados.
  • Mejorando el Rendimiento de Sqoop.
  • Sqoop 2.

Introducción a Impala y Hive

  • ¿Por qué usar Impala y Hive?.
  • Comparando Hive con Bases de Datos tradicionales.
  • Casos de Uso de Hive.

Modelando y Administrando Datos con Impala y Hive

  • Almacenamiento de Datos.
  • Creando Bases de Datos y Tablas.
  • Cargando Datos en Tablas.
  • HCatalog.
  • Cacheo de Metadatos de Impala.

Formato de Datos

  • Seleccionando un Formato de Archivos.
  • Soporte de Formatos de Archivo en la herramienta Hadoop.
  • Esquemas Avro.
  • Usando Avro con Hive y Sqoop.
  • Evolución del Esquema Avro.
  • Compresión.

Particionado de Datos

  • Particionando.
  • Particionando en Impala y Hive.

Capturando Datos con Apache Flume

  • ¿Qué es Apache Flume?.
  • Arquitectura Flume Básica.
  • Recursos de Flume.
  • Pilas de Flume.
  • Canales de Flume.
  • Configuración Flume.

Bases de Spark

  • ¿Qué es Apache Spark?.
  • Usando la consola de Spark.
  • RDDs (Resilient Distributed Datasets Sets de Datos Resistentes Distribuidos).
  • Programación Funcional en Spark.

Trabajando con RDDs en Spark

  • RDDs en detalle.
  • Pares LlaveValor en RDDs.
  • Programación Funcional en Spark.

Escribiendo y Desplegando Aplicaciones Spark

  • Aplicación Spark vs. Consola de Spark.
  • Creanto el SparkContext.
  • Construyendo una Aplicación Spark (Scala y Java).
  • Ejecutando una Aplicación Spark.
  • La Interfaz de usuario de una Aplicación Web Spark.
  • Configurando Propiedades Spark.
  • Logs.

Programación Paralela en Spark

  • Revisión: Spark en un Cluster.
  • Particiones RDD.
  • Particionando Archivos RDDs.
  • HDFS y Localización de Datos.
  • Ejecutando Operaciones Palalelas.
  • Tareas y Estados.

Cacheo y Persistencia Spark

  • Linaje RDD.
  • Cacheo.
  • Persistencia Distribuida.

Patrones Comunes en Procesamiento de Datos en Spark

  • Casos de Uso Spark Comunes.
  • Algoritmos Iterativos en Spark.
  • Análisis y Procesamiento gráfico.
  • Aprendiendo Máquina.
  • Ejemplo: kmeans.

Preview: Spark SQL

  • Spark SQL y el Contexto SQL.
  • Creando DataFrames.
  • Transformando y Consultando DataFrames.
  • Guardando DataFrames.
  • Comparando Spark SQL con Impala.

Conclusión

 

NÚMERO PLAZAS

10-20

 

PROFESORES

Curso impartido por profesor certificado por Cloudera.

 

FECHAS Y LUGAR

El curso se desarrollará en el ALA del edificio Vitalis, frente a la Facultad de Informática. Se programarán dos ediciones:

  • Cloudera Developer Training for Spark and Hadoop (28 horas, 5 días) 27 al 31 de marzo 2017, 9:00 a 14:30
  • Cloudera Developer Training for Spark and Hadoop (28 horas, 5 días) 22 al 26 de Mayo, 16:00 a 21:30

 

Periodo realización

Fecha inicio (1ª Edición): 27/03/2017

Fecha fin: 31/03/2017

Periodo matrícula (1ª Edición)

De 11/02/2017 00:00:00 A 15/03/2017 23:59:00

Periodo realización

Fecha inicio (2ª Edición): 22/05/2017

Fecha fin: 26/05/2017

Periodo matrícula (2ª Edición)

De 11/02/2017 00:00:00 A 10/05/2017 23:59:00

 

METODOLOGÍA

El curso se impartirá de forma presencial. Durante el curso los estudiantes realizarán ejercicios para mejorar la compresión y aplicar los conocimientos recibidos.

 

MATRICULA

1ª Edición: Cloudera Developer Training for Spark and Hadoop (28 horas, 5 días) 27 al 31 de marzo 2017, 9:00 a 14:30

2ª Edición: Cloudera Developer Training for Spark and Hadoop (28 horas, 5 días) 22 al 26 de Mayo, 16:00 a 21:30

 

CONTACTO

Director CERTIC, Pedro M. Ruiz (pedrom @ um.es, 868884335)

Logo CERTIC

Centro de Certificación Profesional en Tecnologías de la Información y las Comunicaciones
Facultad de Informática
Universidad de Murcia
Campus de Espinardo - 30100 - Murcia
Tlf.: +34 868 88 4311 - Fax: +34 868 88 4151
certic@um.es

Logo Universidad de Murcia