
Cloudera Developer Training for Spark and Hadoop I
PRESENTACIÓN
Esta acción formativa de 28 horas ofrece a los participantes los conceptos clave y la especialización necesaria para procesar datos en un clúster Hadoop utilizando los productos y técnicas más actuales como Apache Spark, Impala, Hive, Flume, y Sqoop.
A la finalización de la formación, el participante conocerá:
- Cómo se distribuyen, almacenan y procesan los datos en un Cluster Hadoop.
- Cómo utilizar Sqoop y carga real-time de datos con Flume.
- Cómo procesar los datos en cluster con Apache Spark.
- Cómo presentar datos estructurados como tablas en Impala y Hive.
- Cómo elegir el mejor formato de almacenamiento para diferentes patrones de uso de datos.
- Buenas prácticas para el almacenamiento de datos.
Tras la realización del presente curso oficial el alumno estará preparado para superar el examen de certificación Cloudera Certified Developer for Apache Hadoop (CCDH).
REQUISITOS
Este curso está especialmente ideado para desarrolladores e ingenieros con experiencia en programación. Los ejemplos y ejercicios se presentan en Python y Scala, por ello se requiere el conocimiento de uno de estos lenguajes de programación. También es necesario tener conocimientos básicos de Linux. No se requiere conocimiento previo de Hadoop.
TEMARIO
Introducción
Introducción a Hadoop y el Ecosistema Hadoop
- Problemas con los sistemas a gran escala tradicionales.
- Hadoop!
- El Ecosistema Hadoop.
Arquitectura Hadoop y HDFS
- Procesamiento Distribuido en un Cluster.
- Almacenamiento: Arquitectura HDFSStorage.
- Almacenamiento: Usando HDFS.
- Administración de Recursos: Arquitectura YARN.
- Administración de Recursos: Trabajando con YARN.
Importando Datos Relacionales con Apache Sqoop
- Sqoop.
- Exportación e Importación Básicos.
- Limitando Resultados.
- Mejorando el Rendimiento de Sqoop.
- Sqoop 2.
Introducción a Impala y Hive
- ¿Por qué usar Impala y Hive?.
- Comparando Hive con Bases de Datos tradicionales.
- Casos de Uso de Hive.
Modelando y Administrando Datos con Impala y Hive
- Almacenamiento de Datos.
- Creando Bases de Datos y Tablas.
- Cargando Datos en Tablas.
- HCatalog.
- Cacheo de Metadatos de Impala.
Formato de Datos
- Seleccionando un Formato de Archivos.
- Soporte de Formatos de Archivo en la herramienta Hadoop.
- Esquemas Avro.
- Usando Avro con Hive y Sqoop.
- Evolución del Esquema Avro.
- Compresión.
Particionado de Datos
- Particionando.
- Particionando en Impala y Hive.
Capturando Datos con Apache Flume
- ¿Qué es Apache Flume?.
- Arquitectura Flume Básica.
- Recursos de Flume.
- Pilas de Flume.
- Canales de Flume.
- Configuración Flume.
Bases de Spark
- ¿Qué es Apache Spark?.
- Usando la consola de Spark.
- RDDs (Resilient Distributed Datasets Sets de Datos Resistentes Distribuidos).
- Programación Funcional en Spark.
Trabajando con RDDs en Spark
- RDDs en detalle.
- Pares LlaveValor en RDDs.
- Programación Funcional en Spark.
Escribiendo y Desplegando Aplicaciones Spark
- Aplicación Spark vs. Consola de Spark.
- Creanto el SparkContext.
- Construyendo una Aplicación Spark (Scala y Java).
- Ejecutando una Aplicación Spark.
- La Interfaz de usuario de una Aplicación Web Spark.
- Configurando Propiedades Spark.
- Logs.
Programación Paralela en Spark
- Revisión: Spark en un Cluster.
- Particiones RDD.
- Particionando Archivos RDDs.
- HDFS y Localización de Datos.
- Ejecutando Operaciones Palalelas.
- Tareas y Estados.
Cacheo y Persistencia Spark
- Linaje RDD.
- Cacheo.
- Persistencia Distribuida.
Patrones Comunes en Procesamiento de Datos en Spark
- Casos de Uso Spark Comunes.
- Algoritmos Iterativos en Spark.
- Análisis y Procesamiento gráfico.
- Aprendiendo Máquina.
- Ejemplo: kmeans.
Preview: Spark SQL
- Spark SQL y el Contexto SQL.
- Creando DataFrames.
- Transformando y Consultando DataFrames.
- Guardando DataFrames.
- Comparando Spark SQL con Impala.
NÚMERO PLAZAS
10-20
PROFESORES
Curso impartido por profesor certificado por Cloudera.
METODOLOGÍA
El curso se impartirá de forma presencial. Durante el curso los estudiantes realizarán ejercicios para mejorar la compresión y aplicar los conocimientos recibidos.
CONTACTO
Para más información puede contactar a través del teléfono +34 868 88 4223 o mediante correo electrónico: certic.um.es