Big Data: adquisición y almacenamiento de datos

Por: Coursera . en: , ,

  • INTRODUCCIÓN
  • LA MÁQUINA VIRTUAL
    • A lo largo de estos cursos vamos a trabajar con un conjunto de herramientas contenidas en la máquina virtual Cloudera. En este apartado te explicamos cómo descargar e instalar dicha máquina virtual en tu ordenador.

      La MV-Cloudera requiere disponer de un equipo con las siguientes características: (1) máquina de 64 bits, (2) mínimo 6G de memoria (recomendable 8G), y (3) 20G disponibles en disco.


      Ten en cuenta que bajar e instalar la máquina virtual te llevará tiempo dado el tamaño y complejidad de la misma
  • MÓDULO 1 - Introducción al ecosistema Apache Hadoop
    • En este módulo se van a introducir los conceptos básicos sobre el uso de Apache Hadoop y su utilización para plantear análisis de grandes conjuntos de datos. Se van a presentar las herramientas principales y la arquitectura del sistema.

      Visualiza los vídeos, contesta el cuestionario tantas veces como quieras, realiza el ejercicio práctico sobre Hadoop y HDFS, y accede a los foros para discutir los temas que te parezcan más interesantes.
  • MÓDULO 2 - Tecnologías SQL y NoSQL. Consistencia, fiabilidad y escalabilidad
    • En este módulo se introducen conceptos básicos sobre la naturaleza de los datos a tratar y de qué forma los sistemas NoSQL se diferencian de las bases de datos relacionales. Se presenta el teorema CAP y se muestra su importancia en el contexto de los sistemas distribuidos. Finalmente, se muestran una serie de sistemas junto con su uso en la industria actual.

      Visualiza los vídeos, contesta el cuestionario tantas veces como quieras, y accede a los foros para discutir los temas que te parezcan más interesantes.
  • MÓDULO 3 - Adquisición de datos
    • En este módulo se presentan los desafíos que hay que resolver a la hora de incorporar datos a los sistemas NoSQL y una breve introducción a las herramientas asociadas al ecosistema Hadoop más importantes.

      Visualiza los vídeos, contesta el cuestionario tantas veces como quieras, realiza el ejercicio práctico sobre Apache Scoop, y accede a los foros para discutir los temas que te parezcan más interesantes.
  • MÓDULO 4 - Herramientas para el análisis de datos industrial
    • En este módulo se presenta el análisis industrial de grandes volúmenes de datos y se introducen una serie de herramientas y sistemas de segunda generación dedicados a resolver necesidades específicas de la industria.

      Visualiza los vídeos, contesta el cuestionario tantas veces como quieras, realiza los ejercicios prácticos sobre Apache Hive y Sparck, y accede a los foros para discutir los temas que te parezcan más interesantes.

Plataforma