Big Data: procesamiento y análisis

Universitat Autònoma de Barcelona via Coursera

Go to Course: https://www.coursera.org/learn/big-data-procesamiento-analisis

Introduction

**Course Review: Big Data: Procesamiento y Análisis on Coursera** **Overview** The "Big Data: Procesamiento y análisis" course offers an insightful journey into the fundamental methods and techniques for processing and analyzing data in the realm of Big Data. Unlike more advanced courses that delve into statistical methods or machine learning in exhaustive detail, this course provides a broad overview of the main characteristics of these techniques. The aim is to equip students with the knowledge needed to explore data, confirm hypotheses, and ultimately draw meaningful conclusions. **Course Structure** The course is skillfully designed into several modules, catering to learners at different stages. Each module builds upon the previous one, truly guiding participants through the multidimensional landscape of big data. 1. **Introduction**: The course kicks off with foundational notions about big data and the tools to be utilized throughout the sessions. 2. **Virtual Machine Setup**: If participants have previously enrolled in another course within the specialization, they can make use of the Cloudera virtual machine already installed on their systems. Otherwise, a comprehensive guide on downloading and installing the virtual machine is included, ensuring all students can engage with the hands-on content. 3. **Practice Material and Work Files**: Access to essential code files and databases is crucial, and the course provides organized resources to help learners follow along with applied sections effectively. 4. **Module 1 - Exploratory Data Analysis**: This initial module sets the stage for analyzing data by introducing practical tools and tasks related to exploratory data analysis. The thoughtful integration of quizzes after video lessons ensures learners can consistently gauge their understanding. 5. **Module 2 - Regression Models**: Participants will dive into key concepts of model calibration and validation, focusing on linear and logistic regression models. The discussions on regularization within the Big Data context provide valuable insights into model simplification. 6. **Module 3 - Regression and Classification Trees**: This module takes a deeper look at tree-based models—covering classification, regression, and ensemble methods—while also addressing uncertainty and overfitting, ensuring a comprehensive understanding of these critical concepts. 7. **Module 4 - Neural Networks and Unsupervised Techniques**: The final module explores neural networks and unsupervised techniques such as automatic classification and dimensionality reduction. An obligatory practical task is included, which encourages the application of learned skills in a real-world context. **Interactive Learning Experience** The proactive approach of the course encourages participant interaction through quizzes and forums after most topics. This fosters a sense of community and helps solidify understanding through discussion. **Recommendations** This course is highly recommended for individuals looking to gain a foundational understanding of Big Data analytics without becoming overwhelmed by the intricate details of machine learning or advanced statistics. It's perfect for beginners, data enthusiasts, or professionals wanting to refresh their knowledge base before delving into specialized areas of data science. **Conclusion** Overall, "Big Data: Procesamiento y análisis" is an excellent stepping stone for anyone interested in the dynamic field of data. The course design promotes active learning and provides ample resources for practical experience, striking an ideal balance between theory and application. It’s a great investment for anyone looking to understand the core aspects of Big Data analytics.

Syllabus

INTRODUCCIÓN

LA MÁQUINA VIRTUAL

ATENCIÓN: Si ya te instalaste la máquina virtual en el curso anterior de la Especialización no es necesario que vuelvas a hacerlo. En caso contrario, sigue leyendo.

Los ejercicios y sesiones prácticas pretenden mostrar un caso práctico de procesamiento y análisis de datos en el contexto de Big Data. En este sentido, será necesario trabajar con una máquina virtual que ya trae configuradas e instaladas una serie de componentes habituales al manejar Big Data. En este apartado te explicamos cómo descargar e instalar la máquina virtual Cloudera en tu ordenador. La MV-Cloudera requiere disponer de un equipo con las siguientes características: (1) máquina de 64 bits, (2) mínimo 6G de memoria (recomendable 8G), y (3) 20G disponibles en disco.

Ten en cuenta que bajar e instalar la máquina virtual te llevará tiempo dado el tamaño y complejidad de la misma

MATERIAL DE PRÁCTICAS Y FICHEROS DE TRABAJO

Para poder seguir la parte aplicada del curso, responder a los cuestionarios y trabajar con las herramientas que te explicamos, necesitarás acceder a una serie de ficheros de código, así como las bases de datos de trabajo, que hemos recopilado y comprimido. Verás que algunos vídeos llevan un código entre paréntesis que coincide con el nombre de alguno de estos ficheros. Esto significa que en el vídeo correspondiente se trabaja con dicho fichero.

A continuación te explicamos como incorporarlos en la máquina virtual.

MÓDULO 1 - Análisis Exploratorio de Datos

Durante la primera semana del curso se introducen el curso y las herramientas que se emplearán. Además también se presentan las tareas relacionadas con el Análisis Exploratorio de Datos. Cada pocos temas tratados en los vídeos encontrarás un pequeño custionario de 5 preguntas.

Visualiza los vídeos, contesta los cuestionarios tantas veces como quieras, y accede a los foros para discutir los temas que te parezcan más interesantes.

MÓDULO 2 - MODELOS DE REGRESIÓN

En el módulo 2 del curso se introducen conceptos de modelización generales (calibración y validación) y en particular los modelos de regresión lineal y regresión logística. Desde la perspectiva de Big Data, se incluyen aspectos relacionados con la regularización de los modelos para su simplificación.

Como en el módulo anterior, visualiza los vídeos, contesta los cuestionarios tantas veces como quieras, y accede a los foros para discutir los temas que te parezcan más interesantes.

MÓDULO 3 - ÁRBOLES DE REGRESIÓN Y CLASIFICACIÓN

En el módulo 3 del curso se introduce la família de modelos basada en árboles (clasificación, regresión, bosques) y aspectos generales sobre la incertidumbre y el sobreajuste. Después de cada tema, o de unos pocos temas, encontrarás un cuestionario para comprobar tu nivel de comprensión de los mismos.

Visualiza los vídeos, contesta los cuestionarios tantas veces como quieras, y accede a los foros para discutir los temas que te parezcan más interesantes.

MÓDULO 4 - REDES NEURONALES Y TÉCNICAS NO SUPERVISADAS

En el módulo 4 del curso se introduce la família de modelos basada en redes neuronales así como se introducen las técnicas básicas no supervisadas, tanto de clasificación automática como de reducción de la dimensionalidad. En este módulo, además de los cuestionarios convencionales, tendrás que realizar un trabajo práctico en el que trabajarás las técnicas aprendidas hasta el momento.

Visualiza los vídeos, contesta los cuestionarios tantas veces como quieras, realiza el ejercicios práctico, y accede a los foros para discutir los temas que te parezcan más interesantes.

Overview

El presente curso tiene como objetivo presentar los métodos y técnicas básicos para el procesamiento y análisis de datos en el contexto de Big Data. No prentende ser un curso exhaustivo sobre Machine Learning ni sobre métodos Estadísticos, simplemente se pretenden mostrar las características principales de estas técnicas para que el alumno pueda tener una visión general de las opciones que ofrece el análisis de datos para poder explorar, confirmar indicios y en definitiva, extraer conclusiones.

Skills

Reviews

Los maestros son excelentes, me hubiera gustado que detallen un poco más algunas funciones disponibles.

Curso completo y con el detalle necesario para comenzar a trabajar seriamente en esta disciplita del tratamiento de los datos.-

Muy buen curso, resumen de forma muy clara las técnicas. Los ejemplos son geniales. Felicitaciones

Bastante bueno y práctico. Enseña como tratar los datos y los principales modelos de Machine Learning.

Considero que el curso esta muy explicado para las personas que no estamos metidos tanto en este mundo, muchas gracias