
Administrador Cloudera para Apache Hadoop
PRESENTACIÓN
Acción formativa de 28 horas dirigida a administradores de sistemas y otros responsables de la gestión de clústers Apache Hadoop en entornos de producción o desarrollo. Tras la realización del presente curso oficial el alumno estará preparado para superar el examen de certificación Cloudera Certified Administrator for Apache Hadoop (CCAH).
Por qué realizar este curso
- Aumento constante del uso de tecnologías Big Data
- Alta demanda de profesionales HADOOP a corto y medio plazo
- Somos partner oficial de Formación Cloudera (referente mundial en tecnologías HADOOP)
- Certificado Oficial Cloudera, con reconocimiento internacional
- Garantía de calidad: Profesores con certificación requerida para formadores
Lo que aprenderás
- Cómo funciona Hadoop Distributed File System y MapReduce
- Qué configuraciones de hardware son óptimas para los clusters Hadoop
- Qué hay que tener en cuenta a nivel de red para construir un clúster
- Cómo configurar las opciones de Hadoop para obtener el mejor rendimiento
- Cómo configurar la Alta Disponibilidad de NameNode
- Cómo configurar NameNode Federation
- Cómo configurar el FairScheduler para cumplir los service-level agreements para múltiples usuarios de un cluster
- Cómo instalar e implementar la seguridad basada en Kerberos para tu cluster Cómo mantener y monitorizar tu cluster
- Cómo cargar datos de ficheros generados dinámicamente usando Flume, y de base de datos relacionales utilizando Sqoop
- Qué problemas existen desde el punto de vista de la Administración de Sistemas con otros proyectos Hadoop como Hive, Pig, y HBase
REQUISITOS
Este curso está diseñado para personas con un nivel básico de conocimientos en la administración de sistemas Linux. No es necesario tener un conocimiento previo de Hadoop.
TEMARIO
Introducción
Historia de Apache Hadoop
- ¿Porqué Hadoop?
- Componentes principales de Hadoop
- Conceptos fundamentales
HDFS
- Características de HDFS
- Lectura y escritura de archivos
- Consideraciones acerca de memoria de NameNode
- Aspectos generales de seguridad en HDFS
- Empleo del Namenode Web UI
- Empleo del File Shell de Hadoop
Obtención de datos en HDFS
- Ingestión de datos desde recursos externos con Flume
- Ingestinón de datos desde bases de datos relacionales con Sqoop
- REST Interfaces
- Buenas prácticas para la importación de datos
MapReduce
- ¿Qué es MapReduce?
- Conceptos básicos de MapReduce
- Arquitectura del clúster YARN
- Asignación de Recursos
- Recuperación ante fallos
- Empleo de YARN Web UI
- MapReduce Versión 1
Planificación de un cluster Hadoop
- Consideraciones generales de planificación
- Elección correcta de Hardware
- Consideraciones de red
- Configuración de nodos
- Planificación de la administración del clúster
Instalación y configuración inicial
- Tipos de desarrollo
- Instalación de Hadoop
- Especificaciones en la configuración de Hadoop
- Realizar la configuración inicial HDFS
- Realizar la configuración inicial de YARN y MapReduce
- Hadoop Logging
Instalación y configuración de Hive, Pig e Impala
- Hive
- Impala
- Pig
Clientes Hadoop
- ¿Qué es un cliente de Hadoop?
- Instalación y configuración de clientes Hadoop
- Instalación y configuración de Hue
- Autorizaciones y autenticación Hue
Cloudera Manager
- Objetivos de Cloudera Manager
- Características de Cloudera Manager
- Versiones Express y Enterprise
- Topología de Cloudera Manager
- Instalación de Cloudera Manager
- Instalación de Hadoop empleando Cloudera Manager
- Realización de tareas de administración básicas empleando Cloudera Manager
Configuración avanzada de un cluster
- Parámetros avanzados de configuración
- Configuración de puertos Hadoop
- Inclusión y exlusión explícitas de hosts
- Configuración de HDFS para la organización en rack
- Configuración de HDFS para obtención de alta disponibilidad
Seguridad Hadoop
- ¿Porqué es importante la seguridad en Hadoop?
- Conceptos del sistema de seguridad de Hadoop
- Qué es Kerberos y cómo trabaja
- Protección de un clúster Hadoop Cluster con Kerberos
Gestión y planificación de tareas o trabajos
- Administración de trabajos activos
- Organización de trabajos Hadoop
- Configuración del FairScheduler
- Organización de consultas Impala
Mantenimiento de un cluster
- Chequeo de estatus de HDFS
- Copia de datos entre clústers
- Eliminación y añadido de nodos en el clúster
- Rebalanceo del Clúster
- Actualización del clúster
Solución de problemas y monitorización de un cluster
- Sistema general de monitorización
- Monitorización de clústers Hadoop
- Solución de problemas habituales en el clúster de Hadoop
- Errores habituales en la configuración
Conclusiones
NÚMERO PLAZAS
10-20
PROFESORES
Curso impartido por profesor certificado por Cloudera.
METODOLOGÍA
El curso se impartirá de forma presencial. Durante el curso los estudiantes realizarán ejercicios para mejorar la compresión y aplicar los conocimientos recibidos de Hadoop.
CONTACTO
Para más información puede contactar a través del teléfono +34 868 88 4223 o mediante correo electrónico: certic.um.es