Introducción a la Ingeniería de Datos - Módulo 2: Semana 2

Descripción

En esta semana, profundizaremos en el ciclo de vida de la ingeniería de datos y sus aspectos subyacentes, que se introdujeron en la semana anterior. Aprenderemos sobre las etapas del ciclo de vida de los datos, desde la generación hasta la disponibilidad para su uso en análisis y aprendizaje automático.

Contenido de la Semana

Ciclo de Vida de la Ingeniería de Datos

El ciclo de vida de la ingeniería de datos se compone de varias etapas clave:

Generación de Datos:
Ocurre en sistemas de origen antes de que comience el trabajo del ingeniero de datos.
Ingestión:
Proceso de obtener datos crudos de diversas fuentes.
Transformación:
Conversión de datos crudos en información útil.
Almacenamiento:
Guardar los datos transformados para su uso posterior.
Servir Datos:
Hacer que los datos estén disponibles para casos de uso como análisis y aprendizaje automático.

Aspectos Subyacentes del Ciclo de Vida

En la segunda lección de esta semana, exploraremos los siguientes aspectos subyacentes:

Seguridad
Gestión de Datos
Data Ops
Arquitectura de Datos
Orquestación
Ingeniería de Software

Enfoque de Aprendizaje

Es importante destacar que el enfoque de esta semana, al igual que el de la semana anterior, se centra más en un marco mental de alto nivel para la ingeniería de datos que en la construcción real de infraestructura de datos. Este marco mental es crucial para el éxito en todos los aspectos del trabajo como ingeniero de datos.

Actividad Práctica

Al final de la semana, aplicaremos este marco mental en la práctica utilizando AWS Cloud. En la actividad de laboratorio, trabajarás en tu primer pipeline de datos en la nube de extremo a extremo.

Conclusión

Únete a mí en el próximo video para comenzar a explorar la generación de datos y los sistemas de origen.

Introducción a la Generación de Datos en Sistemas de Origen

La primera etapa del ciclo de vida de la ingeniería de datos es la generación de datos y los sistemas de origen. Como ingeniero de datos, tu rol implica consumir datos de diversas fuentes. A continuación, se presentan los conceptos clave sobre la generación de datos en sistemas de origen.

Fuentes Comunes de Datos

1. Bases de Datos

Las bases de datos son uno de los sistemas de origen más comunes. Pueden ser: - Bases de datos relacionales: Representadas como tablas de datos relacionados. - Sistemas NoSQL: Incluyen bases de datos de clave-valor, almacenes de documentos, entre otros.

2. Archivos

Los datos también pueden ser consumidos en forma de archivos, tales como: - Archivos de texto - Archivos de audio (por ejemplo, MP3) - Archivos de video - Otros tipos de archivos

3. APIs (Interfaz de Programación de Aplicaciones)

Las APIs permiten realizar solicitudes web para obtener datos en formatos específicos, como XML o JSON.

4. Plataformas de Compartición de Datos

Estas plataformas permiten a las organizaciones compartir datos internamente o con terceros.

5. Dispositivos IoT (Internet de las Cosas)

Los dispositivos IoT son cada vez más comunes y pueden transmitir datos en tiempo real a una base de datos, accesibles a través de APIs o plataformas de compartición de datos.

Desafíos en la Generación de Datos

En un mundo ideal, los sistemas de origen entregarían datos de manera consistente y oportuna. Sin embargo, en la realidad, estos sistemas pueden ser impredecibles. Algunos de los problemas comunes incluyen: - Caídas del sistema - Cambios en el formato o esquema de los datos - Cambios en los datos mismos

Ejemplo de Desafío

Un ingeniero de datos recuerda un incidente en el que un equipo de ingenieros de software reorganizó las columnas de una base de datos sin notificarlo, lo que interrumpió los flujos de trabajo de datos downstream.

Importancia de la Colaboración

Es esencial comprender cómo están configurados los sistemas de origen y qué cambios se pueden esperar en los datos. Para tener éxito, es recomendable: - Trabajar directamente con los propietarios de los sistemas de origen. - Entender cómo generan datos y cómo estos pueden cambiar con el tiempo. - Evaluar cómo esos cambios impactarán en los sistemas downstream que construyes.

Desarrollar buenas relaciones de trabajo con los interesados de los sistemas de origen es una parte crucial de la ingeniería de datos.

Conclusión

La generación de datos en sistemas de origen es un aspecto fundamental en la ingeniería de datos. En el próximo video, se explorará la fase de ingestión de datos desde estos sistemas de origen.

Tabla Resumen de Sistemas de Origen

Tipo de Sistema	Descripción
Bases de Datos	Relacionales y NoSQL
Archivos	Texto, audio, video, etc.
APIs	Solicitudes web para obtener datos
Plataformas de Datos	Compartición de datos entre organizaciones
Dispositivos IoT	Transmisión de datos en tiempo real

Lista de Desafíos Comunes

Caídas del sistema
Cambios en el formato de datos
Cambios en el esquema de datos
Cambios en los datos mismos

¡Únete al próximo video para aprender sobre la ingestión de datos desde sistemas de origen!

Introducción a la Ingestión de Datos

La ingestión de datos es un paso fundamental en la ingeniería de datos, donde se mueve información cruda desde sistemas de origen hacia un pipeline de datos para su posterior procesamiento. Este proceso puede representar uno de los mayores cuellos de botella en el ciclo de vida de la ingeniería de datos.

Conceptos Clave

Sistemas de Origen: Entender cómo funcionan y generan datos es crucial para evitar problemas comunes en la fase de ingestión.
Frecuencia de Ingestión: Decidir con qué frecuencia se debe mover la información desde los sistemas de origen hacia el pipeline de datos es una decisión crítica. Las opciones incluyen:
Ingestión por Lotes: Procesar datos en intervalos de tiempo predefinidos (por ejemplo, cada hora o cada día).
Ingestión en Streaming: Procesar datos en tiempo real, haciendo que estén disponibles para sistemas posteriores casi inmediatamente.

Comparación entre Ingestión por Lotes y Streaming

Característica	Ingestión por Lotes	Ingestión en Streaming
Frecuencia de Ingestión	Periódica (ej. diaria, horaria)	Continua, en tiempo real
Herramientas	Procesamiento por lotes	Plataformas de streaming de eventos
Casos de Uso	Análisis, reportes semanales	Detección de anomalías en tiempo real
Costos	Generalmente menor en tiempo y recursos	Puede ser más costoso en mantenimiento
Ejemplo de Uso	Modelos de trading	Monitoreo en tiempo real

Consideraciones para la Ingestión

Costo y Mantenimiento: Evaluar si la ingestión en streaming es más costosa en términos de tiempo, dinero y mantenimiento en comparación con la ingestión por lotes.
Impacto en el Pipeline de Datos: Analizar cómo la elección entre ingestión por lotes y streaming influye en el resto del pipeline de datos.
Captura de Datos Cambiantes (CDC): Utilizar CDC para activar procesos de ingestión basados en cambios en los datos del sistema de origen.
Enfoque de Ingestión: Decidir entre un enfoque de "push" (el sistema de origen envía datos) o "pull" (se extraen datos del sistema de origen).

Recomendaciones

La ingestión por lotes es adecuada para muchos casos de uso comunes, como el trading de modelos y reportes semanales.
Adoptar un sistema de ingestión en streaming solo después de identificar un caso de negocio que justifique sus desventajas en comparación con la ingestión por lotes.
La ingestión en streaming y por lotes a menudo coexisten en un pipeline de datos, donde se eligen los límites entre ambos.

Conclusión

La ingestión de datos es un componente esencial en la ingeniería de datos, y la elección entre ingestión por lotes y streaming debe basarse en un análisis cuidadoso de los requisitos del negocio y las características de los datos. En el próximo video, exploraremos el almacenamiento de datos, que es parte integral de cada etapa en el ciclo de vida de la ingeniería de datos.

Introducción a la Ingeniería de Datos - Módulo 2: Almacenamiento

Descripción

En este módulo, exploraremos cómo interactuamos con los sistemas de almacenamiento de datos en nuestra vida diaria y cómo estos conceptos son fundamentales para el trabajo de un ingeniero de datos. Discutiremos los diferentes tipos de almacenamiento, sus características, y cómo elegir las soluciones adecuadas para nuestras arquitecturas.

Interacción Diaria con Sistemas de Almacenamiento

Dispositivos Comunes:
Laptop: Creación, eliminación y movimiento de archivos.
Smartphone: Envío y recepción de mensajes, interacción con aplicaciones.
Tipos de Almacenamiento:
Discos Duros y SSD: Almacenamiento de archivos.
RAM: Almacenamiento temporal para acceso rápido.

Componentes de Almacenamiento

Tipo de Almacenamiento	Velocidad de Lectura/Escritura	Costo Relativo	Volatilidad
Discos Magnéticos	Lenta	Bajo	No
SSD	Rápida	Moderado	No
RAM	Muy Rápida	Alto	Sí

Comparación de Almacenamiento

Discos Magnéticos:
Aún son fundamentales en sistemas modernos debido a su bajo costo (2-3 veces más baratos que SSD).
SSD:
Ofrecen velocidades más rápidas, pero son más costosos.
RAM:
Proporciona acceso rápido, pero es volátil y costosa (30-50 veces más que SSD).

Sistemas de Almacenamiento Modernos

Almacenamiento en la Nube: Distribuido en múltiples centros de datos.
Componentes Críticos:
Redes
CPU
Serialización
Compresión
Caché

Abstracciones de Almacenamiento

Tipos de Abstracciones:
Data Warehouse: Almacenamiento estructurado.
Data Lake: Almacenamiento de datos en bruto.
Data Lake House: Combinación de ambos conceptos.

Jerarquía de Almacenamiento

Ingredientes Crudos: Discos, RAM, SSD, redes, serialización.
Sistemas de Almacenamiento: Bases de datos, almacenamiento de objetos.
Abstracciones de Almacenamiento: Herramientas que combinan sistemas para satisfacer necesidades de almacenamiento.

Importancia del Conocimiento en Almacenamiento

Comprender los detalles de los sistemas de almacenamiento es crucial para evitar problemas de rendimiento y costos.
Ejemplo de error: Uso de inserciones de fila directa en lugar de un enfoque de carga masiva, resultando en un alto costo y bajo rendimiento.

Conclusión

Como ingeniero de datos, es esencial ser consciente de las soluciones de almacenamiento y sus implicaciones. A lo largo de este curso, profundizaremos en los detalles de diversas soluciones de almacenamiento y su impacto en el ciclo de vida de la ingeniería de datos.

Próximo Tema

En el siguiente módulo, abordaremos la siguiente etapa del ciclo de vida de la ingeniería de datos: la transformación de datos.

Introducción a la Ingeniería de Datos - Módulo 2: Consultas, Modelado y Transformación

Descripción

En este módulo, se explora la etapa de transformación del ciclo de vida de la ingeniería de datos, donde los ingenieros de datos añaden valor al convertir datos en bruto en información útil para los usuarios finales. Se abordan tres componentes clave: consultas, modelado y transformación.

Contenido

1. La Etapa de Transformación

La transformación es el proceso de convertir datos en bruto en información útil. Esto es crucial para los analistas de negocios y científicos de datos, quienes dependen de datos bien estructurados para realizar análisis y reportes.

2. Componentes de la Transformación

La transformación se compone de tres partes:

Consultas
Modelado
Transformación

2.1 Consultas

Las consultas son solicitudes para leer registros de una base de datos o sistema de almacenamiento. Se utiliza principalmente SQL (Structured Query Language) para realizar estas consultas.

Ejemplo de elementos en una consulta: - Limpieza de datos - Uniones (joins) - Agregaciones

Consecuencias de consultas mal escritas: - Impacto en el rendimiento de la base de datos - "Explosión de filas" (row explosion) - Retrasos en reportes y análisis

2.2 Modelado de Datos

El modelado de datos implica elegir una estructura coherente para los datos, reflejando las relaciones con el mundo real. Es esencial para hacer que los datos sean útiles para el negocio.

Ejemplo de modelado: - Normalización y desnormalización de datos para facilitar el acceso a los analistas.

Aspectos a considerar: - Definiciones y terminología de los stakeholders - Objetivos comerciales relacionados con los datos

2.3 Transformación de Datos

La transformación de datos implica manipular y enriquecer los datos para su uso posterior. Esto puede incluir:

Adición de marcas de tiempo
Transformaciones durante la ingestión
Normalización y agregación para reportes

3. Ejercicios Prácticos

A lo largo del curso, se realizarán ejercicios prácticos que involucrarán consultas, modelado y transformación de datos.

Conclusión

La etapa de transformación es fundamental en el ciclo de vida de la ingeniería de datos, y comprender sus componentes es esencial para proporcionar datos útiles a los usuarios finales. En el próximo video, se abordará la etapa final del ciclo de vida de la ingeniería de datos: la entrega de datos para casos de uso posteriores.

Introducción a la Ingeniería de Datos - Módulo 2: Servir Datos

Descripción

En esta lección, exploramos la etapa final del ciclo de vida de la ingeniería de datos: servir datos. Esta fase no solo implica hacer que los datos estén disponibles, sino que también permite a los interesados extraer valor comercial de ellos. A continuación, se presentan los conceptos clave y los casos de uso asociados con esta etapa.

Contenido

Fases del Ciclo de Vida de la Ingeniería de Datos

Ingesta de Datos
Transformación de Datos
Almacenamiento de Datos
Servir Datos

Casos de Uso para Servir Datos

Los datos tienen valor cuando se utilizan para casos de uso prácticos, como:

Analítica
Aprendizaje Automático
Reverse ETL

1. Analítica

La analítica implica identificar insights y patrones clave dentro de los datos. Los ingenieros de datos sirven datos que alimentan las siguientes formas comunes de analítica:

Inteligencia de Negocios (BI):
Los analistas exploran datos históricos y actuales para descubrir insights.
Se presentan en forma de informes o dashboards.
Ejemplo: Monitoreo de campañas de marketing y métricas de experiencia del cliente.
Analítica Operativa:
Monitoreo de datos en tiempo real para acciones inmediatas.
Ejemplo: Un equipo de e-commerce que necesita saber si su sitio web está caído.
Analítica Embebida:
Aplicaciones que muestran datos históricos y en tiempo real a los usuarios.
Ejemplo: Dashboards de bancos o aplicaciones de termostatos inteligentes.

2. Aprendizaje Automático

El rol del ingeniero de datos puede incluir servir datos para:

Almacenes de características: Facilitan el entrenamiento de modelos.
Inferencia en tiempo real: Proveer datos para decisiones instantáneas.
Sistemas de metadatos y catalogación: Rastrean la historia y linaje de los datos.

3. Reverse ETL

Este proceso implica tomar datos transformados y alimentarlos de nuevo en sistemas de origen. Ejemplo:

Datos de un sistema de gestión de relaciones con clientes (CRM) se transforman y almacenan en un data warehouse.
Los resultados de modelos de análisis se devuelven al CRM para mejorar la información del cliente.

Resumen

Hemos revisado las fases del ciclo de vida de la ingeniería de datos y los diferentes casos de uso para servir datos. En la próxima lección, profundizaremos en los aspectos subyacentes de cada fase del ciclo de vida.

Tabla Resumen de Casos de Uso

Caso de Uso	Descripción
Inteligencia de Negocios (BI)	Análisis de datos históricos y actuales para decisiones estratégicas.
Analítica Operativa	Monitoreo de datos en tiempo real para acciones inmediatas.
Analítica Embebida	Aplicaciones que muestran datos a los usuarios.
Aprendizaje Automático	Servir datos para entrenamiento de modelos y decisiones en tiempo real.
Reverse ETL	Alimentar datos transformados de vuelta a sistemas de origen.

Conclusión

La etapa de servir datos es crucial para maximizar el valor de los datos en diversas aplicaciones. A medida que avanzamos en el curso, exploraremos más a fondo cada uno de estos casos de uso y sus implicaciones en la ingeniería de datos.

Introducción a la Ingeniería de Datos: Módulo 2

Descripción

En este módulo, se explora el ciclo de vida de la ingeniería de datos, que incluye la ingesta, transformación, almacenamiento y entrega de datos a los usuarios finales. La ingeniería de datos ha evolucionado significativamente en la última década, ampliando su alcance más allá de la tecnología.

Evolución de la Ingeniería de Datos

Ciclo de Vida de la Ingeniería de Datos: Ingesta, transformación, almacenamiento y entrega de datos.
Madurez del Campo: Hace diez años, el enfoque principal de un ingeniero de datos era la capa tecnológica. Hoy en día, el campo se ha expandido para incluir prácticas empresariales tradicionales y nuevas.

Prácticas Clave en Ingeniería de Datos

Las prácticas que se aplican a lo largo del ciclo de vida de la ingeniería de datos se conocen como "corrientes subyacentes". Estas incluyen:

Corrientes Subyacentes	Descripción
Seguridad	Protección de datos y cumplimiento normativo.
Gestión de Datos	Estrategias para la organización y calidad de datos.
DataOps	Prácticas para mejorar la colaboración y la eficiencia en el manejo de datos.
Arquitectura de Datos	Diseño y estructura de sistemas de datos.
Orquestación	Coordinación de procesos y flujos de trabajo.
Ingeniería de Software	Desarrollo y mantenimiento de software relacionado con datos.

Próximos Pasos

En los próximos videos, se examinarán más a fondo cada una de estas corrientes subyacentes. Posteriormente, se explorará cómo el ciclo de vida de la ingeniería de datos y estas corrientes se manifiestan en la práctica, específicamente en la nube de AWS.

¡Comencemos!

Introducción a la Seguridad en la Ingeniería de Datos

Descripción

En este documento se resumen los conceptos clave sobre la seguridad en la ingeniería de datos, basados en la transcripción del video del módulo 2 del curso "Introducción a la Ingeniería de Datos". Se abordan principios fundamentales, mejores prácticas y la importancia de la cultura de seguridad en las organizaciones.

Principios Fundamentales de Seguridad

Confianza en el Manejo de Datos Sensibles
Los ingenieros de datos son responsables de proteger información personal y empresarial sensible.
La confianza de los propietarios de datos es crucial.
Principio de Mínimos Privilegios
Proporcionar acceso solo a los datos y recursos necesarios para realizar tareas específicas.
Aplicar este principio tanto a otros usuarios como a uno mismo.
Sensibilidad de los Datos
Hacer visible la información sensible solo cuando sea absolutamente necesario.
Evitar la ingestión de datos sensibles sin un propósito claro.
Seguridad en la Nube
Comprender la gestión de identidad y acceso (IAM), métodos de cifrado y protocolos de red.

Mejores Prácticas

Adoptar una Mentalidad Defensiva
Ser cauteloso al proporcionar credenciales o datos sensibles.
Diseñar sistemas de almacenamiento y tuberías de datos considerando posibles escenarios de ataque.
Prevención de Filtraciones de Datos
La mayoría de las filtraciones de datos son causadas por errores humanos, como compartir contraseñas de manera insegura o caer en ataques de phishing.
Cultura de Seguridad Organizacional
La seguridad debe ser una prioridad compartida por todos los miembros de la organización.
Evitar el "teatro de seguridad", donde se cumplen formalidades sin una verdadera cultura de seguridad.

Tabla de Comparación de Principios de Seguridad

Principio	Descripción
Mínimos Privilegios	Acceso limitado a datos y recursos necesarios.
Sensibilidad de Datos	Visibilidad de información sensible solo cuando es necesario.
Prevención de Filtraciones	Conciencia sobre errores humanos y ataques comunes.
Cultura de Seguridad	Compromiso organizacional con la seguridad de datos.

Conclusión

La seguridad en la ingeniería de datos no solo se basa en principios y protocolos, sino también en la responsabilidad individual y colectiva. A medida que avanzamos en el curso, se explorarán más aspectos de la seguridad en la arquitectura de datos.

Próximo Tema

En el próximo video, se abordará la gestión de datos como un componente clave en el ciclo de vida de la ingeniería de datos.

Introducción a la Gestión de Datos

Descripción

En este documento se resumen los conceptos clave sobre la gestión de datos, su importancia y las áreas de conocimiento que la componen, según el módulo 2 del curso de Introducción a la Ingeniería de Datos. Se hace énfasis en el papel del ingeniero de datos y la relevancia de la calidad de los datos.

Importancia de la Gestión de Datos

La gestión de datos es crucial para maximizar el valor de los activos de datos en una organización. La Data Management Association International (DAMA) es una organización dedicada a proporcionar recursos para una gestión de datos efectiva. Su publicación principal, el Data Management Book of Knowledge (DMBOK), es un recurso valioso para entender las prácticas de gestión de datos.

Definición de Gestión de Datos

Según el DMBOK, la gestión de datos se define como:

"El desarrollo, ejecución y supervisión de planes, programas y prácticas que entregan, controlan, protegen y mejoran el valor de los activos de datos e información a lo largo de su ciclo de vida."

Áreas de Conocimiento en Gestión de Datos

La gestión de datos abarca múltiples facetas y disciplinas. El DMBOK identifica 11 áreas de conocimiento en gestión de datos, que incluyen:

Área de Conocimiento
Gobernanza de Datos
Modelado de Datos
Integración de Datos
Interoperabilidad
Metadatos
Seguridad
Calidad de Datos
Usabilidad
Gestión de Datos Maestros
Almacenamiento de Datos
Arquitectura de Datos

Gobernanza de Datos

La gobernanza de datos es una función de gestión de datos que asegura la calidad, integridad, seguridad y usabilidad de los datos recolectados en una organización. Esta área interactúa con otras áreas de conocimiento y es fundamental para el éxito de la gestión de datos.

Calidad de los Datos

La calidad de los datos es un tema profundo y matizado, pero se puede resumir en los siguientes puntos clave:

Precisión: Los datos deben ser correctos y reflejar la realidad.
Completitud: Los datos deben estar completos y no faltar información relevante.
Descubribilidad: Los datos deben ser fáciles de encontrar y acceder.
Disponibilidad: Los datos deben estar disponibles en el momento adecuado.

Los datos de alta calidad son herramientas poderosas para la toma de decisiones y aportan un gran valor a la organización. En contraste, los datos de baja calidad pueden llevar a decisiones erróneas y afectar negativamente a la organización.

Conclusión

La gestión de datos es un aspecto esencial en la ingeniería de datos. A lo largo del curso, se explorarán más a fondo las áreas de conocimiento y se aprenderá cómo monitorear y asegurar la calidad de los datos en los pipelines de datos. En el próximo video, se abordará la arquitectura de datos y su relación con el ciclo de vida de los datos.

Introducción a la Arquitectura de Datos

La arquitectura de datos puede considerarse como un mapa o plano para los sistemas de datos de una organización. En este módulo, exploraremos los principios clave que guían el diseño de sistemas de datos efectivos y cómo estos pueden adaptarse a las necesidades cambiantes de una empresa.

Definición de Arquitectura de Datos

Según el libro Fundamentals of Data Engineering de Matt Housley y el autor de este curso, la arquitectura de datos se define como:

"El diseño de sistemas para apoyar las necesidades de datos en evolución de una empresa, logrado a través de decisiones flexibles y reversibles alcanzadas mediante una cuidadosa evaluación de compensaciones."

Desglose de la Definición

Evolución de las Necesidades de Datos: La arquitectura de datos debe soportar no solo las necesidades actuales, sino también las futuras. Esto implica que el diseño es un esfuerzo continuo.
Decisiones Flexibles y Reversibles: Las decisiones tomadas deben permitir adaptaciones a medida que las necesidades de la organización cambian.
Evaluación de Compensaciones: Las decisiones de diseño deben considerar factores como rendimiento, costo y escalabilidad.

Principios de una Buena Arquitectura de Datos

A continuación, se presentan los principios fundamentales que se revisarán a lo largo del curso:

Principio	Descripción
1. Elegir componentes comunes sabiamente	Seleccionar componentes que ofrezcan las características adecuadas para proyectos individuales y faciliten la colaboración entre equipos.
2. Planificar para el fracaso	Diseñar la arquitectura no solo para el funcionamiento óptimo, sino también para situaciones de fallo.
3. Arquitectura para la escalabilidad	Crear sistemas que puedan aumentar o disminuir su capacidad según la demanda.
4. La arquitectura es liderazgo	Pensar como un arquitecto y buscar mentoría para liderar y guiar a otros miembros del equipo.
5. Siempre estar arquitectando	La arquitectura no es un evento único; se debe evaluar y ajustar continuamente.
6. Construir sistemas desacoplados	Crear sistemas compuestos por componentes individuales que se puedan intercambiar fácilmente.
7. Tomar decisiones reversibles	Permitir cambios en la arquitectura sin necesidad de una reestructuración completa.
8. Priorizar la seguridad	Integrar principios de seguridad en el diseño, como el principio de menor privilegio y el principio de confianza cero.
9. Adoptar FinOps	Optimizar los sistemas para costos y generación de ingresos en un entorno de nube, donde los sistemas son escalables y de pago por uso.

Conclusión

Estos principios son fundamentales para desarrollar una arquitectura de datos robusta y adaptable. En las próximas sesiones, profundizaremos en cada uno de estos principios y su aplicación práctica en la ingeniería de datos.

¡Únete al próximo video donde exploraremos el concepto de DataOps!

Introducción a DataOps

Descripción

DataOps es un enfoque emergente en la ingeniería de datos que busca mejorar la calidad y el proceso de desarrollo de productos de datos, similar a cómo DevOps lo hace en el desarrollo de software. Este documento resume los conceptos clave de DataOps, sus pilares fundamentales y la importancia de la automatización, la observabilidad y la respuesta a incidentes en la gestión de datos.

Orígenes de DataOps

DataOps se inspira en el marco de DevOps, que surgió alrededor de 2007 para eliminar los silos entre los equipos de desarrollo y despliegue de software. Al igual que DevOps, DataOps busca:

Eliminar cuellos de botella.
Reducir desperdicios.
Identificar problemas rápidamente.
Iterar de manera rápida.

Pilares de DataOps

DataOps se basa en tres pilares fundamentales:

Pilar	Descripción
Automatización	Implementación de procesos automáticos para la gestión de cambios en los datos y su procesamiento.
Observabilidad	Monitoreo constante de los sistemas de datos para detectar fallos antes de que afecten a los usuarios.
Respuesta a Incidentes	Capacidad de identificar y resolver rápidamente las causas raíz de los problemas en los sistemas de datos.

1. Automatización

La automatización en DataOps se asemeja a la integración y entrega continua (CI/CD) en DevOps. Permite:

Automatizar procesos manuales en la construcción, prueba y despliegue de datos.
Acelerar ciclos de revisión y despliegue.
Reducir errores y aumentar la eficiencia.

Ejemplo de Automatización

Imaginemos que un ingeniero de datos debe construir un pipeline que ingesta datos de múltiples fuentes. Sin automatización, el proceso podría ser manual y propenso a errores. Con un enfoque de programación, se pueden establecer horarios para la ejecución de tareas, pero esto puede ser ineficiente.

Adoptar un marco de orquestación como Airflow permite:

Verificar dependencias entre tareas.
Iniciar automáticamente tareas sucesivas una vez que las anteriores se completan.
Notificar errores para evitar que tareas dependientes se ejecuten incorrectamente.

2. Observabilidad

La observabilidad es crucial porque todos los sistemas de datos eventualmente fallan. La falta de monitoreo puede llevar a:

Datos incorrectos en informes.
Decisiones mal informadas.
Pérdida de confianza por parte de los interesados.

Es fundamental establecer sistemas de monitoreo para detectar problemas antes de que sean reportados por otros.

3. Respuesta a Incidentes

La respuesta a incidentes implica:

Identificar rápidamente las causas raíz de un problema.
Resolverlo de manera eficiente.
Fomentar una comunicación abierta y sin culpas entre los miembros del equipo.

Los ingenieros de datos deben ser proactivos en la identificación de problemas antes de que sean reportados.

Conclusión

DataOps es un conjunto de prácticas en evolución que busca mejorar la calidad y eficiencia en la gestión de datos. Aunque no todas las organizaciones han adoptado estas prácticas, es esencial para los ingenieros de datos estar familiarizados con estos conceptos y su aplicación en el ciclo de vida de la ingeniería de datos.

Próximos Pasos

En la siguiente sección, se explorará más a fondo el concepto de orquestación, un componente clave de DataOps y fundamental en las arquitecturas y pipelines de datos modernos.

Orquestación en Ingeniería de Datos

Descripción

La orquestación en el contexto de la ingeniería de datos se asemeja a un director de orquesta que coordina diferentes instrumentos para crear una buena música. En este caso, el "música" es el flujo de datos a través de un pipeline, donde cada tarea debe ser gestionada y ejecutada de manera eficiente.

Conceptos Clave

Orquestación: Proceso de coordinar y gestionar tareas en un pipeline de datos.
Pipeline de Datos: Conjunto de procesos que permiten la ingesta, transformación, almacenamiento y entrega de datos.
DAG (Directed Acyclic Graph): Representación gráfica de cómo fluye la información a través de un pipeline, donde los nodos son tareas y las aristas son las dependencias entre ellas.

Importancia de la Orquestación

La orquestación es fundamental en el ciclo de vida de la ingeniería de datos y en las operaciones de datos (DataOps). Permite:

Automatizar la ejecución de tareas.
Establecer dependencias entre tareas.
Monitorear el estado de las tareas y recibir alertas en caso de fallos.

Enfoques de Orquestación

Ejecución Manual: Inicialmente, un ingeniero de datos puede ejecutar manualmente cada tarea en el pipeline. Esto es útil en las etapas de prototipado, pero no es sostenible a largo plazo.
Programación Pura: Se pueden programar tareas para que se ejecuten a horas específicas. Sin embargo, esto puede llevar a problemas si una tarea falla o si las tareas no se completan en el orden correcto.
Frameworks de Orquestación: Herramientas modernas como Apache Airflow, Dagster, Prefect y Mage permiten construir pipelines de datos sofisticados con capacidades de monitoreo y gestión de dependencias.

Ejemplo de un DAG

A continuación se presenta un ejemplo simplificado de un DAG para un pipeline de datos:

Tarea	Descripción
Ingesta de Datos	Extraer datos de múltiples fuentes.
Transformación 1	Transformar datos en vuelo desde la fuente 4.
Almacenamiento	Almacenar datos extraídos en el sistema de almacenamiento.
Transformación 2	Transformar datos para el caso de uso de Machine Learning.
Almacenamiento ML	Almacenar datos transformados para Machine Learning.
Transformación 3	Transformar datos para el caso de uso de Analytics.
Almacenamiento Analytics	Almacenar datos transformados para Analytics.

Visualización del DAG

[Fuente 1] --> [Ingesta de Datos] --> [Almacenamiento]
[Fuente 2] --> [Ingesta de Datos] --> [Almacenamiento]
[Fuente 3] --> [Ingesta de Datos] --> [Almacenamiento]
[Fuente 4] --> [Ingesta de Datos] --> [Transformación 1] --> [Almacenamiento]

Conclusión

La orquestación es un componente esencial en la ingeniería de datos que permite gestionar de manera eficiente el flujo de datos a través de un pipeline. A medida que avanzamos en el curso, se explorarán más a fondo las herramientas y técnicas para implementar orquestación en proyectos de datos.

Próximo Tema

En el siguiente video, se explorará la relación entre la ingeniería de software y el rol del ingeniero de datos.

Introducción a la Ingeniería de Datos - Módulo 2: Ingeniería de Software

Descripción

En esta lección, exploramos los aspectos fundamentales de la ingeniería de software dentro del ciclo de vida de la ingeniería de datos. Se discuten la importancia de escribir código de calidad y cómo la ingeniería de software ha evolucionado para convertirse en un componente esencial de la ingeniería de datos.

Contenido

Conceptos Clave

Ciclo de Vida de la Ingeniería de Datos:
Seguridad
Arquitectura de datos
Operaciones y gestión
Orquestación de pipelines de datos
Ingeniería de Software:
Diseño, desarrollo, implementación y mantenimiento de aplicaciones de software.
Necesidad de escribir código limpio, legible, testeable y desplegable.
Evolución de la Ingeniería de Datos:
Antes no existía la ingeniería de datos como profesión oficial.
Los ingenieros de software comenzaron a integrar aspectos de la ingeniería de datos en su trabajo.
La creciente diversidad y volumen de datos llevó a la especialización en ingeniería de datos.

Importancia del Código en la Ingeniería de Datos

Menos Código, Más Valor: Los ingenieros de datos actuales escriben menos código que sus predecesores, pero la calidad del código es más importante que nunca.
Lenguajes y Herramientas Comunes:
SQL
Spark
Kafka
Python
Java (y lenguajes de la máquina virtual de Java como Scala)
Bash
Otros lenguajes como Rust o Go.

Desarrollo de Frameworks de Código Abierto

Participación en el desarrollo de frameworks de código abierto.
Contribuciones a proyectos de código abierto mediante pull requests.

Infraestructura como Código

Desarrollo de soluciones de infraestructura como código y pipeline como código.

Habilidades Recomendadas

Es esencial desarrollar habilidades sólidas en ingeniería de software.
La colaboración con ingenieros de software en la organización es valiosa para mejorar la calidad del código.

Conclusión

La ingeniería de software es un componente crítico en el ciclo de vida de la ingeniería de datos. La capacidad de escribir código de alta calidad no solo es fundamental para el éxito en el rol de ingeniero de datos, sino que también aporta un valor significativo a la organización. En la próxima lección, se explorará cómo estos conceptos se aplican en la nube de AWS.

Próximos Pasos

Prepararse para ejercicios prácticos que aplican los conceptos discutidos.
Unirse a la próxima lección para ver la aplicación del ciclo de vida de la ingeniería de datos en AWS.

Introducción a la Ingeniería de Datos - Módulo 2

Descripción

En esta lección, se abordará la traducción de los conceptos del ciclo de vida de la ingeniería de datos a herramientas y tecnologías en la nube de AWS. Se mencionará la relevancia de estos conceptos en otras plataformas de nube, como Microsoft Azure y Google Cloud, y se destacará la importancia de adquirir habilidades técnicas en el contexto de AWS.

Contenido

Proveedores de Nube

AWS: Proveedor líder en la nube, asociado con el curso.
Otros Proveedores:
Microsoft Azure
Google Cloud Platform
Proveedores más pequeños

Relevancia de los Conceptos

Los conceptos aprendidos son aplicables independientemente de la plataforma de nube utilizada.
Las herramientas y detalles de implementación pueden variar entre plataformas.

Herramientas y Tecnologías

Se utilizarán herramientas específicas de AWS en los laboratorios del curso.
Morgan Willis presentará las herramientas que se utilizarán y su relación con el ciclo de vida de la ingeniería de datos.

Orientación a Ejercicios de Laboratorio

Se proporcionará una orientación sobre el ejercicio de laboratorio para la semana.

Conclusión

Este módulo tiene como objetivo equipar a los estudiantes con las habilidades técnicas necesarias para la ingeniería de datos utilizando herramientas y tecnologías ampliamente adoptadas en la industria.

Ciclo de Vida de la Ingeniería de Datos en AWS

Descripción

En este documento se resumen los conceptos clave del ciclo de vida de la ingeniería de datos en AWS, así como las herramientas y tecnologías asociadas. Se abordarán los sistemas de origen, la ingesta, el almacenamiento, la transformación y la entrega de datos.

Etapas del Ciclo de Vida de la Ingeniería de Datos

Sistemas de Origen
Amazon RDS: Servicio que permite aprovisionar instancias de bases de datos relacionales como MySQL o PostgreSQL. Simplifica la gestión operativa, incluyendo tareas de parcheo y actualización.
Amazon DynamoDB: Base de datos NoSQL sin servidor, ideal para aplicaciones que requieren acceso de baja latencia a grandes volúmenes de datos. Tiene un esquema flexible y es adecuado para juegos, IoT, aplicaciones móviles y análisis en tiempo real.
Amazon Kinesis Data Streams: Permite la transmisión de actividades de usuario en tiempo real desde plataformas de ventas.
Amazon SQS: Servicio de cola de mensajes que puede ser utilizado en la construcción de pipelines de datos.
Apache Kafka: Plataforma de transmisión de código abierto que puede ser implementada de forma independiente o a través de Amazon MSK.
Ingesta de Datos
Amazon DMS: Servicio para migrar y replicar datos de una fuente a un destino de manera automatizada.
AWS Glue ETL: Herramienta principal para procesos de integración de datos en los laboratorios del curso.
Amazon Kinesis Data Firehose: Utilizado para la ingesta de datos desde fuentes de transmisión.
Almacenamiento de Datos
Amazon Redshift: Opción de almacenamiento en un data warehouse.
Amazon S3: Almacenamiento de objetos para un data lake.
Lakehouse: Combinación de servicios que permite el acceso a datos estructurados y no estructurados.
Transformación de Datos
AWS Glue: Herramienta para la transformación de datos.
Apache Spark y DBT: Alternativas que pueden ser utilizadas en combinación con Glue.
Entrega de Datos
Análisis y Business Intelligence: Herramientas como Amazon Athena y Redshift para consultar datos estructurados y no estructurados. Uso de dashboards en Jupyter Notebook y herramientas como Amazon QuickSight, Apache Superset y Metabase.
Inteligencia Artificial y Aprendizaje Automático: Entrega de datos en lotes para entrenamiento de modelos y uso de bases de datos vectoriales para recomendaciones de productos.

Resumen de Herramientas y Servicios

Etapa	Herramientas y Servicios
Sistemas de Origen	Amazon RDS, Amazon DynamoDB, Amazon Kinesis, SQS, Apache Kafka
Ingesta	Amazon DMS, AWS Glue ETL, Kinesis Data Firehose
Almacenamiento	Amazon Redshift, Amazon S3
Transformación	AWS Glue, Apache Spark, DBT
Entrega	Amazon Athena, Redshift, Amazon QuickSight, Apache Superset, Metabase

Conclusión

Este documento proporciona una visión general de las herramientas y tecnologías que se utilizarán en el ciclo de vida de la ingeniería de datos en AWS. En el próximo video, se relacionarán los conceptos del ciclo de vida con tecnologías específicas en AWS.

Introducción a los Subyacentes del Ciclo de Vida de la Ingeniería de Datos en AWS

Descripción

En este documento se resumen los conceptos clave relacionados con los subyacentes del ciclo de vida de la ingeniería de datos en AWS, incluyendo seguridad, gestión de datos, operaciones de datos, orquestación y ingeniería de software. Se describen las herramientas y servicios relevantes que se utilizarán en el curso.

Subyacentes del Ciclo de Vida de la Ingeniería de Datos

1. Seguridad

Modelo de Responsabilidad Compartida: AWS es responsable de la seguridad de los centros de datos y servicios, mientras que el usuario es responsable de la seguridad de los sistemas construidos con esos recursos.
Gestión de Identidad y Acceso (IAM): Permite establecer roles y permisos que controlan el acceso a los recursos de AWS.
Seguridad de Red: Familiarizarse con Amazon Virtual Private Cloud (VPC) y grupos de seguridad, que son firewalls a nivel de instancia.

2. Gestión de Datos

AWS Glue: Utiliza crawlers y catálogos de datos para descubrir, crear y gestionar metadatos de datos almacenados en Amazon S3.
Lake Formation: Ayuda a gestionar y escalar permisos de acceso a datos de manera centralizada.

3. Operaciones de Datos

Amazon CloudWatch: Reúne métricas y proporciona características de monitoreo para recursos en la nube y aplicaciones.
Amazon CloudWatch Logs: Almacena y analiza registros operativos.
Amazon Simple Notification Service (SNS): Configura notificaciones entre aplicaciones o mediante texto o correo electrónico.

4. Orquestación

Apache Airflow: Herramienta de orquestación que se puede implementar como herramienta de código abierto o usar una versión administrada de AWS.
Nuevas Herramientas de Orquestación: Conocer herramientas como Dagster, Prefect y Mage que abordan problemas que Airflow no resuelve.

5. Ingeniería de Software

Amazon Cloud9: IDE para desarrollo, alojado en Amazon EC2.
Automatización de Despliegue: Uso de Amazon CodeDeploy y herramientas de CI/CD.
Control de Versiones: Manejo de versiones con Git y GitHub.

Tabla Resumen de Herramientas y Servicios

Subyacente	Herramienta/Servicio	Descripción
Seguridad	IAM	Controla el acceso a los recursos de AWS.
	VPC	Proporciona una red privada virtual.
Gestión de Datos	AWS Glue	Descubre y gestiona metadatos.
	Lake Formation	Gestiona permisos de acceso a datos.
Operaciones de Datos	Amazon CloudWatch	Monitorea recursos y aplicaciones.
	Amazon CloudWatch Logs	Almacena y analiza registros operativos.
	Amazon SNS	Configura notificaciones entre aplicaciones.
Orquestación	Apache Airflow	Herramienta de orquestación de flujos de trabajo.
	Dagster, Prefect, Mage	Nuevas herramientas de orquestación.
Ingeniería de Software	Amazon Cloud9	IDE para desarrollo en la nube.
	Amazon CodeDeploy	Automatiza el despliegue de código.

Conclusión

Este resumen proporciona una visión general de los subyacentes del ciclo de vida de la ingeniería de datos en AWS y las herramientas que se utilizarán en el curso. A medida que avanzas, podrás aplicar estos conceptos y herramientas en la creación de pipelines de datos en AWS.

Próximamente, se realizará un ejercicio práctico donde se implementará un pipeline de datos de extremo a extremo en AWS.

Introducción al Laboratorio de Ingeniería de Datos

Descripción

Este documento proporciona un resumen del laboratorio de ingeniería de datos en AWS, donde se explorará un pipeline de datos de extremo a extremo. Se describen las tareas que se realizarán, la estructura de los datos y las herramientas que se utilizarán.

Contenido del Laboratorio

El laboratorio se centra en un escenario donde trabajas como ingeniero de datos para un minorista que se especializa en modelos a escala de automóviles clásicos. El objetivo principal es construir un pipeline de datos que transforme y sirva información a un analista de datos en el equipo de marketing.

Tareas Principales

Exploración de la Base de Datos Relacional:
Tablas disponibles:
- Clientes
- Productos
- Líneas de productos
- Pedidos
- Detalles de pedidos
- Pagos
- Empleados
- Oficinas
Ingesta de Datos:
Extraer datos relevantes para el análisis.
Transformar los datos en una estructura más comprensible y rápida para consultas analíticas.
Modelado de Datos:
La transformación de datos se conoce como modelado de datos, que se abordará en detalle en el Curso 4 de la especialización.
La estructura final de los datos transformados será un esquema en estrella.

Estructura del Esquema en Estrella

Tabla Central (Tabla de Hechos): Contiene medidas relacionadas con los pedidos de ventas, como el total de ventas o el precio promedio.
Tablas Circundantes (Dimensiones): Proporcionan contexto adicional, como ubicaciones de clientes y detalles de pedidos.

Diagrama Arquitectónico del Pipeline

Base de Datos RDS MySQL: Representa el sistema fuente que contiene las tablas.
AWS Glue: Herramienta para ingerir datos y aplicar transformaciones.
ETL (Extracción, Transformación y Carga): Proceso que se aprenderá más a fondo en las próximas semanas.

Herramientas y Recursos

AWS Glue Crawler: Herramienta de gestión de datos que infiere la estructura de los datos en S3 y escribe metadatos en el catálogo de datos de AWS Glue.
Amazon Athena: Servicio que permite a los analistas consultar datos almacenados en S3 utilizando consultas SQL.

Configuración del Entorno

AWS Cloud9: Entorno de desarrollo integrado (IDE) que se creará como primer paso en el laboratorio.
Jupyter Notebook: Se utilizará para realizar análisis de los datos transformados.

Conclusión

Este laboratorio está diseñado para proporcionar una experiencia práctica en la interacción con un pipeline de datos en AWS. A medida que avances en la especialización, aprenderás más sobre las herramientas y técnicas involucradas en cada etapa del ciclo de vida de la ingeniería de datos.

Recursos Adicionales

Terraform: Herramienta de infraestructura como código que se explorará en el Curso 2 de la especialización.
Instrucciones del Laboratorio: Se proporcionarán instrucciones detalladas para la configuración y ejecución de los recursos del pipeline de datos.

¡Prepárate para sumergirte en el mundo de la ingeniería de datos!

Guía de Configuración del Laboratorio - Introducción a la Ingeniería de Datos

Descripción

En este documento se describen los pasos necesarios para acceder y configurar el laboratorio de la especialización en Ingeniería de Datos. Se detallan las instrucciones para abrir el entorno de trabajo, configurar AWS Cloud9 y lanzar el Jupyter Notebook.

Pasos para Configurar el Laboratorio

Acceso al Laboratorio
Inicia sesión en Coursera y selecciona el laboratorio correspondiente a la semana, titulado "Graded app".
Acepta el código de honor de Coursera y lanza la aplicación.
Inicio del Entorno AWS
Haz clic en el botón para iniciar el laboratorio y espera a que el círculo se vuelva verde para abrir la consola de AWS.
Ten en cuenta que la primera vez que inicies el laboratorio, el entorno se cargará en unos segundos. En intentos posteriores, puede tardar alrededor de 10 minutos debido a un procedimiento de limpieza en la cuenta de AWS.
Lanzar AWS Cloud9
Una vez que el icono esté verde, haz clic en él para abrir la consola de AWS en una nueva pestaña del navegador.
En la barra de búsqueda, escribe "Cloud9" y selecciona el servicio.
Haz clic en "Crear Entorno".
Configuración del Entorno
Nombre del entorno: de-c1w2
Tipo de instancia EC2: t3
Configuraciones de red: selecciona "Secure Shell" y elige la VPC llamada de-c1w2 y la subred pública de-c1w2 public subnet.
Haz clic en "Crear". AWS tardará unos minutos en configurar el entorno.
Descargar Archivos del Laboratorio
Una vez que el entorno esté listo, abre el IDE.
Copia el comando de la Paso 5 de las instrucciones del laboratorio y pégalo en el terminal para descargar el contenido del laboratorio desde un bucket S3.
Acceso a Instrucciones Detalladas
Abre el archivo marcado y selecciona "Preview" para ver el archivo c1_w2_Assignment.md.
Si las instrucciones no se muestran, haz clic en el botón de "Refresh".
Instalación de Terraform y Jupyter Notebook
Copia el comando del Paso 7 y pégalo en el terminal para instalar Terraform y lanzar el Jupyter Notebook.
Una vez instalado, recibirás una URL para acceder al Jupyter Lab. Copia esta URL y pégala en una nueva pestaña del navegador.

Navegación entre Entornos

Entorno Cloud9: Utilizado para configurar tu pipeline de datos.
Consola de Gestión de AWS: Para ver los detalles de los recursos de AWS creados.
Entorno Jupyter Lab: Utilizado en la última parte del laboratorio.

Notas Finales

Es normal sentirse abrumado al principio con la cantidad de pestañas abiertas, pero con la práctica, la navegación se volverá más familiar.
Recuerda regresar a la página de instrucciones del laboratorio al final para enviar tu trabajo.

En el próximo video, se explicarán los siguientes pasos para configurar tu pipeline de datos. ¡Nos vemos allí!

Introducción al Laboratorio de Ingeniería de Datos

Descripción

En este documento se presenta un resumen del contenido del laboratorio del Módulo 2 del curso de Introducción a la Ingeniería de Datos. Se describen los pasos necesarios para configurar el entorno, explorar la base de datos, crear recursos en AWS y ejecutar trabajos de transformación de datos.

Contenido del Laboratorio

1. Configuración del Entorno

Se utilizó un entorno de Cloud 9 con la estructura de carpetas necesaria para el laboratorio.
Se abrió el archivo c1w2_assignment.md que contiene las instrucciones detalladas.

2. Exploración del Sistema de Origen

La base de datos del sistema de origen ya está instanciada.
Para ver los detalles de la base de datos, se debe acceder a la consola de AWS y buscar el servicio RDS.
Se puede obtener el endpoint de la base de datos desde la consola o mediante un comando en la terminal.

Conexión a la Base de Datos

Para conectarse a la base de datos MySQL, se utiliza el siguiente comando:

mysql -h <endpoint> -u admin -p useradmin -P 3306

Para explorar las tablas, se utiliza el comando SHOW TABLES;.
Se puede revisar el script que pobló la base de datos en el archivo mysqlsampledatabase.sql.

3. Creación de Recursos para el Pipeline de Datos

Se utilizarán archivos de Terraform para crear y configurar los recursos necesarios, como AWS Glue y un bucket de S3.
Los archivos de Terraform se encuentran en la carpeta Terraform.

Recursos Declarados en `glue.tf`

Catálogo de datos de AWS Glue.
Conexión entre AWS Glue y la base de datos RDS.
Crawler de Glue para explorar el bucket de S3.
Trabajo de Glue que especifica la conexión al sistema de origen y la ubicación del script de transformación.

4. Ejecución de Terraform

Para crear los recursos, se deben ejecutar los siguientes comandos en la terminal:

cd Terraform
terraform init
terraform plan
terraform apply

Se debe confirmar la creación de los recursos escribiendo yes.

5. Ejecución del Trabajo de Glue

Una vez creados los recursos, se puede ejecutar el trabajo de Glue desde la terminal.
Para monitorear el estado del trabajo, se debe acceder a la sección de trabajos ETL en la consola de AWS Glue.

6. Consulta de Datos en Jupyter Lab

Se utilizará un notebook de Python para realizar consultas analíticas sobre los datos transformados.
Se importará el paquete AWS Wrangler para extraer datos de S3 utilizando Amazon Athena.

Ejemplo de Consultas

Consulta para extraer todos los productos de la tabla dim_products.
Consulta para encontrar las ventas totales por país.

7. Finalización del Laboratorio

Al finalizar, se debe regresar a la página de instrucciones del laboratorio y hacer clic en "submit".
El entorno del laboratorio expirará en 2 horas, por lo que es importante enviar el trabajo a tiempo.

Conclusión

Este laboratorio proporciona una experiencia práctica en la configuración de un entorno de datos, la exploración de bases de datos y la creación de pipelines de datos utilizando herramientas de AWS. Se recomienda seguir las instrucciones cuidadosamente y revisar los videos si se presentan dificultades.

Resumen de la Semana 2 - Introducción a la Ingeniería de Datos

Descripción

En esta segunda semana del curso de Introducción a la Ingeniería de Datos, se ha puesto un enfoque en el marco mental de alto nivel para la ingeniería de datos, en lugar de centrarse en la construcción de infraestructura de datos. Se exploró un pipeline de datos de extremo a extremo en AWS, lo que ayuda a los estudiantes a orientarse sobre cómo aplicar la teoría en la práctica.

Contenido

Ciclo de Vida de la Ingeniería de Datos

Se revisaron las etapas del ciclo de vida de la ingeniería de datos, que incluyen:

Generación de Datos y Sistemas de Origen
Ingesta de Datos
Transformación de Datos
Almacenamiento de Datos
Servir Datos

Estas etapas son fundamentales para convertir datos en bruto en información útil y disponible para los usuarios finales.

Corrientes Subyacentes

Además de las etapas del ciclo de vida, se discutieron las corrientes subyacentes que afectan la ingeniería de datos:

Seguridad
Gestión de Datos
DataOps
Arquitectura de Datos
Orquestación
Ingeniería de Software

Práctica y Teoría

La combinación de la práctica y el marco mental desarrollado durante esta semana ayudará a los estudiantes a tener éxito en todos los aspectos de su trabajo como ingenieros de datos.

Próximos Pasos

En las próximas lecciones, se realizará un análisis profundo sobre lo que significa construir una buena arquitectura de datos.

¡Nos vemos en la próxima clase!