Introducción a la Ingeniería de Datos

Descripción

En la última década, la digitalización ha transformado prácticamente todas las industrias. La comunicación digital y los datos digitales han reemplazado a los documentos en papel como el principal mecanismo de almacenamiento de información en sectores como la salud, finanzas, manufactura, educación y tecnología. Sin embargo, este aumento de datos también trae consigo riesgos y nuevos desafíos en su almacenamiento y procesamiento para generar valor. La creación de buenas canalizaciones de datos se ha vuelto crítica, lo que ha llevado a una creciente demanda de ingenieros de datos.

Instructor

El curso es impartido por Joe Res, un ingeniero de datos y arquitecto de datos con décadas de experiencia. Es profesor, podcaster y coautor del libro "Fundamentals of Data Engineering".

Conceptos Clave

Ingeniería de Datos: Es fundamental para el éxito de la ciencia de datos, proporcionando la infraestructura necesaria para que los científicos de datos puedan trabajar de manera eficiente.
Data-Centric AI: Se refiere a la disciplina de gestionar los datos de manera sistemática para construir sistemas de inteligencia artificial exitosos.
Importancia de la Infraestructura de Datos: La infraestructura adecuada puede reducir el tiempo para obtener valor de los datos de días o semanas a minutos o incluso segundos.

Contenido del Curso

El programa consta de cuatro cursos:

Curso	Descripción
1	Visión general de la ingeniería de datos y creación de canalizaciones de datos en la nube.
2	Ingesta de datos desde sistemas de origen, operaciones de datos y orquestación de canalizaciones de datos.
3	Almacenamiento de datos en la nube y su importancia en el ciclo de vida de la ingeniería de datos.
4	Modelado, transformación y servicio de datos para casos de uso finales.

Requisitos Previos

Experiencia previa trabajando con datos y Python.
Conocimientos en SQL y herramientas de la nube son deseables, pero no obligatorios.

Conclusión

La ingeniería de datos es una habilidad especializada y esencial en el entorno actual, especialmente con el auge de la inteligencia artificial. Este curso está diseñado tanto para aspirantes a ingenieros de datos como para aquellos que ya están en el campo y desean perfeccionar sus habilidades. ¡Estamos emocionados de comenzar este viaje juntos!

Introducción a la Ingeniería de Datos - Módulo 1: Visión General del Curso

Descripción

En este curso, te imaginarás como un ingeniero de datos recién contratado en una empresa del sector comercio. A lo largo de las lecciones, exploraremos el ciclo de vida de la ingeniería de datos, la importancia de construir infraestructuras de datos robustas y cómo traducir las necesidades de los interesados en requisitos del sistema.

Contenido del Curso

Escenario Inicial

Contratación: Has sido contratado como ingeniero de datos.
Contexto: La empresa inicialmente contrató a un científico de datos para realizar análisis sobre los intereses y comportamientos de los clientes.
Problema: El científico de datos se dio cuenta de que no existía la infraestructura de datos necesaria para realizar su trabajo.

Rol del Ingeniero de Datos

Construcción de Infraestructura: Tu tarea es construir sistemas de datos que cumplan con los objetivos de la empresa.
Traducción de Necesidades: Necesitarás traducir las necesidades de los interesados en requisitos del sistema.
Selección de Herramientas: Elegir las herramientas y tecnologías adecuadas es crucial.

Principios Fundamentales

Pensamiento Estratégico: Antes de implementar un sistema, es vital entender cómo este entregará valor a la organización.
Evitar Errores Comunes: No apresurarse a la implementación puede evitar desperdicios de tiempo y recursos.

Estructura del Curso

Semana 1:
Introducción a la ingeniería de datos.
Ciclo de vida de la ingeniería de datos.
Historia y contexto de la ingeniería de datos.
Valor agregado como ingeniero de datos.
Recolección de necesidades de los interesados.
Semana 2:
Profundización en cada etapa del ciclo de vida de la ingeniería de datos.
Teoría y orientación sobre la ingeniería de datos.
Práctica con pipelines de datos en la nube (AWS).
Semana 3:
Principios de una buena arquitectura de datos.
Semana 4:
Diseño y construcción de una arquitectura de datos que entregue valor basado en las necesidades de los interesados.

Enfoque de Aprendizaje

Sin Código Inicial: La primera semana se centrará en cómo pensar como un ingeniero de datos, sin escribir código ni usar herramientas en la nube.
Mentalidad Correcta: Tener la mentalidad adecuada es el primer paso hacia el éxito en este campo.

Conclusión

Este curso te preparará para abordar los desafíos de la ingeniería de datos, comenzando por entender el panorama general y luego profundizando en aspectos técnicos. ¡Únete al próximo video para explorar más sobre el ciclo de vida de la ingeniería de datos!

Introducción a la Ingeniería de Datos

Descripción

Este documento resume los conceptos clave del video "03_Data Engineering Defined" del módulo 1 de la introducción a la ingeniería de datos. Se exploran la evolución del campo de la ingeniería de datos, su definición, el ciclo de vida de la ingeniería de datos y los componentes fundamentales que la sustentan.

Evolución de la Ingeniería de Datos

Ingenieros de Software: Originalmente, los ingenieros de datos eran ingenieros de software que se enfocaban en construir aplicaciones.
Datos como Subproducto: Los datos generados por estas aplicaciones eran considerados un subproducto, útil solo para la solución de problemas y monitoreo.
Reconocimiento del Valor Intrínseco: Con el tiempo, las organizaciones comenzaron a reconocer el valor intrínseco de los datos, lo que llevó a la creación del rol de ingeniero de datos.

Definición de Ingeniería de Datos

Según el libro Fundamentals of Data Engineering, la ingeniería de datos se define como:

"El desarrollo, implementación y mantenimiento de sistemas y procesos que toman datos en bruto y producen información de alta calidad y consistente que apoya casos de uso posteriores, como análisis y aprendizaje automático."

Componentes Clave

La ingeniería de datos se sitúa en la intersección de: - Seguridad - Gestión de datos - DataOps - Arquitectura de datos - Orquestación - Ingeniería de software

Ciclo de Vida de la Ingeniería de Datos

El ciclo de vida de la ingeniería de datos se compone de varias etapas:

Etapa	Descripción
Generación de Datos	Datos generados por aplicaciones, usuarios o sensores.
Ingestión	Proceso de capturar y almacenar datos.
Transformación	Modificación y limpieza de datos para su análisis.
Almacenamiento	Guardar datos de manera eficiente y accesible.
Servicio	Proveer datos para su uso en análisis y aprendizaje automático.

Uso de Datos

Los casos de uso finales incluyen: - Análisis - Aprendizaje automático - Reverse ETL (enviar datos procesados de vuelta a los sistemas de origen)

Pipeline de Datos

El pipeline de datos se refiere a la combinación de arquitectura, sistemas y procesos que mueven los datos a través de las etapas del ciclo de vida de la ingeniería de datos. El trabajo de un ingeniero de datos implica: 1. Obtener datos de sistemas de origen. 2. Transformar esos datos en información útil. 3. Hacer que los datos estén disponibles para casos de uso posteriores.

Corrientes Subyacentes

Las corrientes subyacentes de la ingeniería de datos son componentes que abarcan todo el ciclo de vida:

Corriente Subyacente	Descripción
Seguridad	Protección de datos y sistemas.
Gestión de Datos	Estrategias para manejar y organizar datos.
DataOps	Prácticas para mejorar la colaboración y la eficiencia en la ingeniería de datos.
Arquitectura de Datos	Diseño de la estructura de los sistemas de datos.
Orquestación	Coordinación de procesos y flujos de trabajo.
Ingeniería de Software	Desarrollo de software para soportar sistemas de datos.

Conclusión

A lo largo del curso, se explorarán en detalle cada una de las etapas y corrientes subyacentes de la ingeniería de datos. Se enfatiza la importancia de tener una visión holística del ciclo de vida de la ingeniería de datos para transformar las necesidades de los interesados en requisitos para los sistemas, proporcionando así un valor real para la organización.

Nota

El siguiente video es opcional y ofrece una breve historia de los datos y la ingeniería de datos. No es necesario recordar esta historia para tener éxito en el curso, pero puede ser útil para entender el contexto actual.

Breve Historia de la Ingeniería de Datos

Descripción

Este documento resume la evolución de la ingeniería de datos desde sus inicios hasta la actualidad, destacando los hitos clave y las innovaciones que han dado forma a este campo.

Evolución de los Datos

Definición de Datos:
Los datos son bloques de información que pueden presentarse en diversas formas: palabras, números, o incluso fenómenos físicos como la luz o el viento.
En este contexto, nos referimos a datos digitalmente grabados, que pueden ser almacenados en computadoras o transmitidos a través de Internet.
Orígenes de los Datos Digitales:
1960s: Introducción de las primeras bases de datos computarizadas.
1970s: Emergen las bases de datos relacionales y se desarrolla el lenguaje SQL por ingenieros de IBM.
1980s: Creación del primer data warehouse por Bill Inman para la toma de decisiones analíticas.
1990s: Necesidad de herramientas y pipelines de datos para inteligencia empresarial, desarrollo de enfoques de modelado de datos por Ralph Kimball y Bill Inmon.
Era de Internet y Big Data:
1990s: La popularización de Internet y el auge de empresas como Amazon.
2000s: La explosión de datos lleva a la creación de tecnologías como MapReduce por Google y Apache Hadoop, que revolucionan la ingeniería de datos.
Definición de Big Data: Conjuntos de datos extremadamente grandes que pueden ser analizados para revelar patrones y tendencias. Se caracterizan por las tres Vs:
- Velocidad
- Variedad
- Volumen

Innovaciones Clave

Año	Innovación	Descripción
2004	Publicación de MapReduce	Paradigma de procesamiento de datos ultra-escalable.
2006	Apache Hadoop	Desarrollo de un ecosistema de tecnología de código abierto para datos a gran escala.
2000s	Amazon EC2 y S3	Creación de un entorno de computación escalable y flexible.
2010s	Emergen herramientas CloudFirst	Simplificación del trabajo con datos a gran escala.

Cambios en la Ingeniería de Datos

Transición de Batch a Event Streaming:
Cambio de procesamiento por lotes a un flujo continuo de eventos, permitiendo el manejo de datos en tiempo real.
Desaparición del Término "Big Data":
La gestión de datos se ha vuelto tan accesible que ya no se necesita un término separado; los ingenieros de datos ahora manejan datos de cualquier tamaño.

Rol Actual del Ingeniero de Datos

Interoperabilidad:
La ingeniería de datos se ha convertido en una disciplina que conecta diversas tecnologías para alcanzar objetivos empresariales.
Contribución a la Estrategia Empresarial:
Los ingenieros de datos están en el centro de la estrategia empresarial, contribuyendo directamente a la creación de valor.

Conclusión

La ingeniería de datos ha evolucionado significativamente, y hoy en día, los ingenieros de datos tienen la oportunidad de construir sistemas robustos utilizando herramientas desarrolladas por generaciones anteriores. En los próximos videos, se explorará cómo la ingeniería de datos se integra con otros roles y cómo identificar las necesidades de los usuarios finales.

¡Únete al próximo video para descubrir cómo la ingeniería de datos se ajusta al resto de tu organización!

Introducción a la Ingeniería de Datos: El Ingeniero de Datos entre Otros Interesados

Descripción

En este documento se resumen los conceptos clave sobre el rol del ingeniero de datos y su interacción con los interesados, tanto descendentes como ascendentes, en el contexto de la ingeniería de datos. Se discuten las necesidades de los consumidores de datos y la importancia de la comunicación con los propietarios de los sistemas de origen.

Conceptos Clave

Rol del Ingeniero de Datos
Obtener datos en bruto y transformarlos en información útil.
Hacer que los datos estén disponibles para los casos de uso posteriores.
Consumidores de Datos Descendentes
Incluyen analistas, científicos de datos, ingenieros de aprendizaje automático, y otros profesionales que toman decisiones basadas en datos.
Ejemplo: Un analista de negocios que necesita ejecutar consultas SQL para generar datos para análisis.
Consideraciones para Servir a los Consumidores de Datos
Frecuencia de las consultas y actualización de los dashboards.
Información específica que se necesita recuperar.
Latencia aceptable en los datos (por ejemplo, datos de una hora o un día de antigüedad).
Alineación en la definición de los datos requeridos (ej. zona horaria para ventas diarias).
Interacción con Interesados Ascendentes
Los interesados ascendentes son responsables del desarrollo y mantenimiento de los sistemas de origen.
Importancia de comunicarse con los propietarios de los sistemas de origen para entender el volumen, frecuencia y formato de los datos generados.
Establecer relaciones con los propietarios de sistemas para influir en cómo se sirven los datos en bruto.
Impacto de los Cambios en los Sistemas de Origen
Conocer de antemano interrupciones en el flujo de datos o cambios en el esquema de datos.
Comprender las aplicaciones que generan los datos consumidos.

Resumen de Interacciones

Tipo de Interesado	Rol	Consideraciones Clave
Descendentes	Analistas, científicos de datos, etc.	Frecuencia de consultas, definición de datos, latencia.
Ascendentes	Propietarios de sistemas de origen	Volumen, frecuencia, formato de datos, cambios en el sistema.

Conclusiones

Es fundamental que los ingenieros de datos comprendan las necesidades de los consumidores de datos y mantengan una comunicación efectiva con los propietarios de los sistemas de origen.
La alineación en la definición de los datos y la comprensión de los objetivos comerciales son esenciales para agregar valor a la organización.

Nota

El concepto de valor comercial es vago y se explorará más a fondo en el contexto de la recopilación de requisitos para sistemas de datos.

Introducción a la Ingeniería de Datos - Módulo 1: Requisitos del Sistema

Descripción

Este documento resume los conceptos clave sobre la recopilación de requisitos para sistemas en el contexto de la ingeniería de datos. Se abordan los diferentes tipos de requisitos, la importancia de entender las necesidades de los interesados y cómo traducir esas necesidades en requisitos específicos para el sistema.

Tipos de Requisitos

Los requisitos pueden clasificarse en varias categorías:

Tipo de Requisito	Descripción
Requisitos de Negocio	Definen los objetivos generales de la empresa, como aumentar ingresos o incrementar la base de usuarios.
Requisitos de Interesados	Necesidades de individuos dentro de la organización que deben cumplirse para realizar su trabajo.
Requisitos del Sistema	Describen lo que el sistema debe hacer para cumplir con los requisitos de negocio y de interesados.

Clasificación de Requisitos del Sistema

Los requisitos del sistema se dividen en dos categorías principales:

Requisitos Funcionales (¿Qué?)
Definen las funciones específicas que el sistema debe realizar.
Ejemplos en ingeniería de datos:
- Proveer actualizaciones regulares a una base de datos para paneles de análisis.
- Alertar a un usuario sobre anomalías en los datos.
Requisitos No Funcionales (¿Cómo?)
Describen cómo el sistema llevará a cabo las funciones requeridas.
Ejemplos incluyen:
- Especificaciones técnicas para la ingesta, orquestación o almacenamiento en los pipelines de datos.

Proceso de Recopilación de Requisitos

El primer paso en cualquier proyecto de ingeniería de datos es recopilar los requisitos del sistema. Este proceso incluye:

Conversaciones con los interesados: Es fundamental tener diálogos con aquellos que se beneficiarán del sistema.
Traducción de necesidades: Los interesados a menudo expresan sus necesidades en términos de objetivos de negocio, y es responsabilidad del ingeniero de datos traducir estas necesidades en requisitos concretos.

Consideraciones Adicionales

Al recopilar requisitos, también se deben tener en cuenta:

Restricciones de costo: Presupuestos disponibles para el proyecto.
Requisitos de seguridad y regulatorios: Normativas que deben cumplirse.

Conclusión

La recopilación de requisitos es un proceso crítico que varía según el sistema que se esté construyendo. La comunicación efectiva con los interesados, que pueden tener diferentes niveles de conocimiento técnico, es esencial para el éxito del proyecto. En los próximos videos, se presentarán consejos de expertos sobre cómo abordar este proceso.

Próximos Pasos

En el siguiente video, se presentará a Sol Rashidi, quien compartirá consejos sobre la comunicación con interesados de diferentes antecedentes técnicos.
También se contará con la participación de Jordan Morrow, conocido por su trabajo en alfabetización de datos, quien ofrecerá sugerencias sobre la recopilación de requisitos.

Si deseas, puedes avanzar al siguiente video donde se explorará un escenario práctico en el que un nuevo ingeniero de datos en una empresa de comercio electrónico necesita ayudar a los científicos de datos.

Introducción a la Ingeniería de Datos: Conversación con Sol Rashidi

Descripción

En esta transcripción, Sol Rashidi, una destacada ejecutiva en el ámbito de datos y inteligencia artificial, comparte su trayectoria profesional y ofrece valiosos consejos para aspirantes a ingenieros de datos. A lo largo de la conversación, se discuten temas como la importancia de los ingenieros de datos, la comunicación efectiva con líderes empresariales y la relevancia de entender el contexto empresarial.

Trayectoria Profesional de Sol Rashidi

Posición Actual: Chief Data and AI Officer en Royal Caribbean (desde 2016).
Experiencia: Ha trabajado en empresas multinacionales como Sony Music, Merck Pharmaceuticals y Estee Lauder.
Reconocimientos:
CDO del año.
Top 100 innovadores en datos y analítica.
Top 100 líderes de pensamiento en IA.
Una de las 50 mujeres más poderosas en tecnología.
Publicación: Autora del libro "Your AI Survival Guide".

Cómo Ingresó al Mundo de Datos y AI

Inicio Accidental: Comenzó su carrera en ingeniería de datos tras graduarse en química, buscando un trabajo que pudiera obtener fácilmente.
Evolución Profesional:
Se convirtió en consultora de SAP y luego lideró la gestión de datos empresariales en IBM.
Se unió a la iniciativa de IA de IBM tras el éxito de Watson.

Consejos para Aspirantes a Ingenieros de Datos

Resiliencia: Es fundamental tener una mentalidad fuerte y no rendirse ante los desafíos.
Comunicación: Desarrollar habilidades de comunicación es clave para interactuar con diferentes niveles de la organización.
Entender el Negocio: Conocer el lenguaje y las métricas del negocio es crucial para validar el trabajo de los ingenieros de datos.
Visibilidad: No tener miedo de pedir ser parte de funciones más visibles dentro de la organización.

Importancia de los Ingenieros de Datos

Papel Fundamental: Son la columna vertebral de las operaciones empresariales, asegurando que la información fluya correctamente.
Reconocimiento: Necesitan más reconocimiento y apoyo dentro de las organizaciones.

Comunicación con Líderes Empresariales

Conocer a la Audiencia: Adaptar el lenguaje técnico según el nivel de comprensión del interlocutor.
Estrategia de Comunicación:
Para líderes funcionales: Usar un lenguaje sencillo y centrarse en el impacto del trabajo.
Para líderes técnicos: Se puede utilizar un lenguaje más técnico y específico.

Tabla de Consejos de Comunicación

Tipo de Líder	Estrategia de Comunicación
Líder Funcional	Usar lenguaje sencillo y centrarse en el impacto.
Líder Técnico	Utilizar terminología técnica y mostrar habilidades.
Mixto	Combinar ambos enfoques según la conversación.

Conclusión

La conversación con Sol Rashidi resalta la importancia de los ingenieros de datos en las organizaciones modernas y la necesidad de una comunicación efectiva entre los técnicos y los líderes empresariales. Comprender el contexto y adaptar el lenguaje son habilidades esenciales para el éxito en este campo.

Introducción a la Ingeniería de Datos: Conversación con Jordan Morrow

Descripción

En esta conversación, Jordan Morrow, reconocido como uno de los fundadores de la alfabetización de datos, comparte su perspectiva sobre la importancia de la alfabetización de datos y cómo los ingenieros de datos pueden mejorar su comprensión del negocio para tener éxito en su trabajo.

¿Qué es la alfabetización de datos?

La alfabetización de datos se define como la capacidad de leer, trabajar, analizar y comunicar datos. Es esencial que no solo los profesionales de datos y análisis tengan confianza en el uso de datos, sino que todos en una organización tengan la oportunidad de sentirse cómodos al trabajar con datos.

Importancia de la alfabetización de datos

Adopción de productos de datos: Para que los productos de datos y las herramientas de inteligencia artificial sean adoptados, los usuarios deben sentirse cómodos utilizándolos.
Éxito en la estrategia de datos: La falta de habilidades en el uso de datos puede obstaculizar el éxito de las estrategias de datos en las organizaciones.
Cultura organizacional: Es fundamental evitar problemas culturales donde los empleados evitan trabajar con datos.

Recolección de requisitos y objetivos empresariales

Jordan enfatiza la importancia de entender a la audiencia al recopilar requisitos para productos de datos. Aquí hay algunos pasos clave:

Comprender los objetivos empresariales: Es crucial conocer los objetivos de la empresa a través de la comunicación y el networking.
Atender las necesidades de la audiencia: Identificar lo que los usuarios finales buscan, no solo lo que la empresa necesita.
Adaptar la comunicación: Asegurarse de que la historia del producto se alinee con los requisitos de la audiencia.

Diferentes audiencias

Las necesidades varían según el rol en la organización: - Director de ventas: Enfocado en alcanzar objetivos de ventas. - Director de marketing: Busca mejorar las estrategias de marketing. - Director financiero: Interesado en la gestión del flujo de caja.

Consejos para aspirantes a ingenieros de datos

Jordan sugiere que los ingenieros de datos deben:

Desarrollar habilidades en alfabetización empresarial: Comprender cómo opera un negocio es clave para construir soluciones efectivas.
Ser auténticos: No es necesario convertirse en un experto en ventas o en negocios, sino ser un ingeniero de datos competente que comprenda el contexto empresarial.

Conclusión

La conversación con Jordan Morrow resalta la importancia de la alfabetización de datos y la comprensión del negocio para los ingenieros de datos. Al desarrollar estas habilidades, los profesionales pueden contribuir de manera más efectiva al éxito de sus organizaciones.

Referencias

Morrow, J. (2023). Business 101 for the Data Professional (próximo lanzamiento).

Reunión de Recolección de Requisitos en Ingeniería de Datos

Descripción

En este documento se presenta un resumen de una conversación simulada entre un ingeniero de datos y un científico de datos, donde se discuten los requisitos para un proyecto de análisis de datos en tiempo real. Se abordan los desafíos actuales en la recolección y procesamiento de datos, así como las necesidades específicas del equipo de marketing.

Principales Conceptos

Recolección de Requisitos: Primer paso en cualquier proyecto de ingeniería de datos.
Roles:
Ingeniero de Datos: Encargado de la recolección y procesamiento de datos.
Científico de Datos: Utiliza los datos para análisis y toma de decisiones.
Desafíos Actuales:
Acceso limitado a la base de datos de producción.
Procesamiento manual de datos, lo que consume mucho tiempo.
Datos obsoletos que no cumplen con las necesidades del equipo de marketing.

Tabla de Desafíos y Soluciones Propuestas

Desafío	Descripción	Solución Propuesta
Acceso a datos	El equipo de software no permite acceso directo a la base de datos.	Implementar un sistema de ingesta de datos en tiempo real.
Procesamiento manual	Los datos se descargan manualmente, lo que consume tiempo.	Automatizar la transformación y el almacenamiento de datos en el formato requerido.
Datos obsoletos	Los datos proporcionados son de hace dos días.	Proveer actualizaciones en tiempo real para análisis inmediato.

Lista de Necesidades del Equipo de Marketing

Análisis en tiempo real de las ventas por región.
Acceso a datos actualizados para campañas publicitarias.
Mejora en el sistema de recomendaciones de productos.
Capacidad para observar tendencias a corto y largo plazo en las ventas.

Conclusiones

La conversación destaca la importancia de una comunicación efectiva entre los ingenieros de datos y los científicos de datos para identificar y resolver problemas en la recolección y procesamiento de datos. Se sugiere que la automatización y la mejora en el acceso a los datos son cruciales para satisfacer las necesidades del equipo de marketing y optimizar el tiempo de análisis.

Próximos Pasos

Reunirse con el equipo de marketing para entender mejor sus necesidades y expectativas.
Desarrollar un plan para implementar un sistema de ingesta de datos más eficiente.
Evaluar las herramientas y tecnologías que pueden facilitar la automatización del procesamiento de datos.

Este documento proporciona un resumen claro y conciso de la conversación y los puntos clave discutidos, lo que puede servir como base para futuras discusiones y desarrollos en el proyecto de ingeniería de datos.

Resumen del Video 11: Traducir las Necesidades de los Interesados en Especificaciones

Descripción

En este video, se exploran las conversaciones iniciales para la recopilación de requisitos entre un ingeniero de datos y un científico de datos. Se presentan los elementos clave que deben considerarse al extraer requisitos para sistemas de datos y se identifican otros interesados que podrían ser necesarios para completar la información.

Elementos Clave de la Recopilación de Requisitos

Identificar Sistemas Existentes y Problemas: Comprender qué soluciones están en uso y cuáles son los puntos de dolor asociados.
Acciones Planeadas por los Interesados: Conocer qué acciones se tomarán basadas en los datos proporcionados.
Confirmar Comprensión: Repetir lo aprendido a los interesados para asegurar que se ha entendido correctamente.
Identificar Otros Interesados: Reconocer a otros interesados que puedan proporcionar información adicional.

Detalles de la Conversación

Durante la conversación con el científico de datos, se discutieron varios puntos importantes:

Tema	Descripción
Análisis en Tiempo Real	El equipo de marketing necesita análisis en tiempo real de las ventas por región, pero solo recibe un volcado diario de datos. Esto es subóptimo y puede comprometer la base de datos de producción.
Problemas de Esquema	Se mencionaron problemas debido a cambios en el esquema o anomalías en los datos. Se sugiere implementar verificaciones automáticas para asegurar la calidad de los datos.
Requisitos Funcionales	Se identificó la necesidad de automatizar la ingesta y transformación de datos en el formato requerido por el científico de datos.
Requisitos No Funcionales	Se debe considerar la latencia, es decir, qué tan rápido se necesita que los datos estén disponibles después de ser grabados en el sistema fuente.
Claridad en el Tiempo Real	Es importante aclarar qué significa "tiempo real" para los interesados, ya que puede variar desde informes mensuales hasta latencias de segundos.

Estrategias para la Recopilación de Requisitos

Preguntar sobre Acciones: Es crucial preguntar a los interesados qué acciones planean tomar con los datos, en lugar de solo preguntar qué necesitan. Esto ayuda a identificar requisitos funcionales adicionales.
Ejemplos de Uso: En el caso del equipo de marketing, se debe entender cómo planean utilizar los datos para tomar decisiones sobre campañas de marketing y recomendaciones de productos.

Conclusiones

La conversación con el científico de datos reveló información valiosa sobre los sistemas existentes, los problemas actuales y los requisitos del sistema. Se identificaron otros interesados, como el equipo de marketing y los ingenieros de software, que serán necesarios para obtener información adicional.

Resumen de Pasos Clave

Identificar sistemas existentes y problemas.
Preguntar sobre las acciones planeadas por los interesados.
Confirmar la comprensión de los requisitos.
Identificar otros interesados que puedan ser relevantes.

En el próximo video, se explorará cómo encajan estos elementos dentro de un marco que se puede utilizar para abordar cualquier proyecto de ingeniería de datos.

Introducción a la Ingeniería de Datos: Pensando como un Ingeniero de Datos

Descripción

En este documento se resumen las ideas y conceptos clave del video "Thinking Like a Data Engineer" del curso de Introducción a la Ingeniería de Datos. Se presenta un marco de trabajo que guía a los ingenieros de datos a través del proceso de recopilación de requisitos, diseño e implementación de sistemas de datos.

Etapas del Proceso de Ingeniería de Datos

El proceso de ingeniería de datos se puede dividir en cuatro etapas principales:

Identificación de Objetivos Empresariales y Necesidades de los Stakeholders
Determinar los objetivos empresariales de alto nivel.
Identificar a todos los stakeholders relacionados con el proyecto.
Realizar conversaciones con los stakeholders para entender los sistemas actuales y sus necesidades.
Definición de Requisitos Funcionales y No Funcionales
Describir lo que el sistema debe hacer para satisfacer las necesidades de los stakeholders (requisitos funcionales).
Especificar cómo el sistema cumplirá con esos requisitos (requisitos no funcionales).
Documentar y confirmar los requisitos con los stakeholders.
Selección de Herramientas y Tecnologías
Identificar herramientas y tecnologías que cumplan con los requisitos del sistema.
Realizar un análisis de costo-beneficio para evaluar las opciones disponibles.
Elegir el conjunto óptimo de herramientas y tecnologías.
Prototipado y Pruebas
Crear un prototipo del sistema para evaluar su capacidad de satisfacer las necesidades de los stakeholders.
Iterar sobre el prototipo según la retroalimentación de los stakeholders.
Construir y desplegar el sistema de datos final.

Consideraciones Adicionales

Evolución del Sistema: Los sistemas de datos deben evolucionar con el tiempo debido a cambios en las necesidades de los stakeholders o la aparición de nuevas tecnologías.
Proceso Cíclico: Aunque se presenta como un proceso secuencial, en la práctica es cíclico y continuo, donde la comunicación constante con los stakeholders es clave.

Resumen de Requisitos

Tipo de Requisito	Descripción
Requisitos Funcionales	Lo que el sistema debe hacer para satisfacer las necesidades de los stakeholders.
Requisitos No Funcionales	Especificaciones técnicas sobre cómo el sistema cumplirá con los requisitos.

Conclusión

Este marco de trabajo proporciona una guía para los ingenieros de datos en la recopilación de requisitos, diseño e implementación de sistemas de datos. A medida que avanzamos en el curso, se revisarán cada una de estas etapas en detalle, comenzando con la identificación de objetivos empresariales y necesidades de los stakeholders.

¡Nos vemos en la próxima lección!

Introducción a la Ingeniería de Datos en la Nube

Descripción

Este documento resume el contenido del video "Data Engineering on the Cloud" del curso de Introducción a la Ingeniería de Datos. Se abordan conceptos clave sobre la ingeniería de datos, la evolución hacia la nube y las herramientas utilizadas en este contexto.

Contenido

Ciclo de Vida de la Ingeniería de Datos

Se ha discutido el ciclo de vida general de la ingeniería de datos.
Importancia de trabajar con las partes interesadas para entregar valor a la organización.

Evolución hacia la Nube

Antes, las empresas construían y mantenían su propia infraestructura de datos (sistemas on-premises).
Actualmente, muchas empresas optan por construir sus sistemas de datos completamente en la nube.
Algunas empresas aún mantienen sistemas on-premises debido a:
Restricciones regulatorias.
Preferencia por sistemas heredados.

Herramientas y Tecnologías

Las herramientas y tecnologías pueden variar entre empresas.
AWS es el proveedor de nube más utilizado, pero también se pueden encontrar otros como Google Cloud Platform y Microsoft Azure.
En este curso, se adoptará un enfoque "Cloud first" (primero la nube) para preparar a los estudiantes para escenarios comunes en la ingeniería de datos.

Enfoque del Curso

Se trabajará con AWS para construir pipelines de datos y arquitecturas en la nube.
Se utilizarán herramientas y tecnologías que son comunes en la infraestructura de datos de muchas empresas.
No se requiere conocimiento previo de computación en la nube, aunque tener familiaridad con conceptos básicos será útil.

Colaboración

Morgan Willis, un tecnólogo principal en la nube, se unirá para introducir las herramientas y recursos de AWS.

Tabla de Proveedores de Nube

Proveedor de Nube	Descripción
AWS	Primer proveedor de nube popular y más utilizado
Google Cloud Platform	Proveedor de nube de Google
Microsoft Azure	Proveedor de nube de Microsoft

Lista de Consideraciones

Sistemas On-Premises: Algunas empresas pueden tener sistemas heredados que prefieren mantener.
Migración a la Nube: Posibilidad de migrar sistemas on-premises a la nube.
Familiaridad con la Nube: Conocer los conceptos básicos de computación en la nube ayudará en el aprendizaje.

Conclusión

Al final del curso, los estudiantes podrán tomar un conjunto de requisitos técnicos y construir un pipeline de datos utilizando herramientas y tecnologías basadas en la nube. Se adoptará un enfoque de aprendizaje "just in time" para facilitar la comprensión de las herramientas a medida que se utilicen en los laboratorios.

Introducción a la Ingeniería de Datos

Descripción

Este documento resume la charla de Morgan Willis, tecnóloga principal en la nube de AWS, sobre la introducción a la ingeniería de datos. Se abordan conceptos fundamentales, la importancia de la práctica en la construcción de soluciones de ingeniería de datos y la certificación de AWS.

Contenido

Presentación de Morgan Willis

Nombre: Morgan Willis
Cargo: Tecnóloga principal en la nube en AWS
Experiencia:
Licenciatura en Ciencias de la Computación
Desarrolladora de software
Instructora en un boot camp de desarrollo de software
Formadora en AWS

Fundamentos de la Ingeniería de Datos

Conceptos Teóricos:
Recolección de requisitos
Visualización de proyectos de ingeniería de datos
Pensamiento como ingeniero de datos
Práctica en Soluciones de Ingeniería de Datos:
Importancia de construir soluciones prácticas
Ejercicios en laboratorios de cursos

Desafíos al Comenzar en AWS

Conceptos Clave:
Regiones y zonas de disponibilidad
Nubes privadas virtuales
Subredes
Opciones de computación y bases de datos
Almacenamiento, redes y configuraciones de seguridad

Certificación de AWS

Certificación: AWS Certified Data Engineer Associate
Objetivo: Validar habilidades y conocimientos en servicios de datos de AWS
Tareas Clave:
Ingesta y transformación de datos
Orquestación de pipelines de datos
Diseño de modelos de datos
Gestión de ciclos de vida de datos
Aseguramiento de la calidad de los datos

Recursos Adicionales

Cursos recomendados:
AWS Cloud Practitioner
Cloud Technical Essentials
Recursos semanales para profundizar en los temas tratados

Conclusión

Morgan Willis invita a los estudiantes a comenzar con los conceptos básicos de la computación en la nube en AWS y a seguir explorando el vasto mundo de la ingeniería de datos. Se anima a los estudiantes a estudiar y considerar la certificación de AWS tras completar el programa.

Este documento proporciona una visión general de la charla y los temas tratados, ofreciendo un punto de partida para aquellos interesados en la ingeniería de datos en la nube.

Introducción a la Nube de AWS

Descripción

En este documento se resumen los conceptos clave sobre la nube de AWS, su infraestructura y los recursos que ofrece para la construcción de sistemas de datos y aplicaciones. Se explican las ventajas de utilizar AWS en comparación con los centros de datos locales, así como la estructura de regiones y zonas de disponibilidad.

Conceptos Clave

Nube de AWS: Entrega de recursos de TI bajo demanda a través de Internet con un modelo de pago por uso.
Recursos de TI: Incluyen computación, almacenamiento y redes.
Elasticidad y Escalabilidad: Los recursos se ajustan automáticamente según la demanda, evitando la necesidad de predecir la capacidad.

Recursos de AWS

Tipo de Recurso	Ejemplos
Computación	Máquinas virtuales, servicios de contenedores, funciones sin servidor
Almacenamiento	Amazon S3, Amazon Elastic Block Store, bases de datos relacionales y NoSQL
Redes	Amazon Virtual Private Cloud (VPC)

Ventajas de AWS

Pago por uso: Solo se paga por los recursos utilizados al final del mes.
Escalabilidad: Los servicios se ajustan automáticamente a las necesidades del usuario.
Distribución geográfica: Los recursos están disponibles en múltiples regiones y zonas de disponibilidad, lo que mejora la resiliencia y disponibilidad.

Estructura de AWS

Regiones: Colecciones de centros de datos en áreas geográficas específicas (ej. US East, Asia Pacific).
Zonas de Disponibilidad (AZ): Grupos de centros de datos dentro de una región, diseñados para ser independientes entre sí.

Ejemplo de Regiones de AWS

Región	Ejemplo de Zonas de Disponibilidad
US East (N. Virginia)	AZ1, AZ2, AZ3
Asia Pacific (Mumbai)	AZ1, AZ2, AZ3
Europa (Frankfurt)	AZ1, AZ2, AZ3

Conclusión

La nube de AWS proporciona una infraestructura robusta y flexible para la construcción de sistemas de datos. A medida que avances en tu aprendizaje sobre AWS, estos conceptos serán fundamentales para entender cómo utilizar los servicios de manera efectiva. En el próximo video, exploraremos algunos de los servicios centrales de AWS que utilizarás en estos cursos.

Introducción a los Servicios Básicos de AWS

Descripción

En este documento se presenta un resumen de los servicios básicos de Amazon Web Services (AWS) que se abordarán en el curso de Introducción a la Ingeniería de Datos. Se clasifican en cinco categorías: computación, red, almacenamiento, bases de datos y seguridad.

1. Computación

AWS ofrece una variedad de servicios de computación, siendo el más destacado Amazon Elastic Compute Cloud (EC2).

Amazon EC2

Proporciona máquinas virtuales (VMs) en la nube de AWS.
Permite ejecutar diferentes sistemas operativos (Linux, macOS, Windows).
Control total sobre la instancia, incluyendo el sistema operativo y aplicaciones.
Usos comunes:
Máquina de desarrollo
Servidor web
Cargas de trabajo de aprendizaje automático
Escalabilidad horizontal: se pueden desplegar instancias individuales o un grupo de ellas.

Otros Servicios de Computación

AWS Lambda: Funciones sin servidor que ejecutan código en respuesta a eventos.
Amazon Elastic Container Service y Amazon Elastic Kubernetes Service: Servicios para la gestión de contenedores.

2. Redes

Al crear instancias de EC2 y otros recursos, es necesario ubicarlos en una red.

Amazon Virtual Private Cloud (VPC)

Red privada en la nube que se puede crear y controlar.
Aislada de otras redes en AWS.
Permite definir el espacio de IP privado y crear subredes.
Cada VPC abarca todas las zonas de disponibilidad dentro de una región, pero no se puede extender a otras regiones.

3. Almacenamiento

AWS ofrece diferentes tipos de almacenamiento:

Tipo de Almacenamiento	Descripción
Almacenamiento de Objetos	Ideal para datos no estructurados (documentos, fotos, videos). Se utiliza principalmente Amazon S3.
Almacenamiento en Bloque	Usado para bases de datos y sistemas de archivos de máquinas virtuales. Se puede adjuntar Amazon Elastic Block Store (EBS) a instancias de EC2.
Almacenamiento de Archivos	Organiza datos en archivos y directorios. Amazon Elastic File System (EFS) es un servicio de almacenamiento de archivos escalable.

4. Bases de Datos

Las bases de datos son un tipo de servicio de almacenamiento que permite gestionar datos estructurados.

Servicios de Bases de Datos

Amazon Relational Database Service (RDS): Servicio de base de datos relacional en la nube.
Amazon Redshift: Servicio de almacenamiento de datos que permite almacenar, transformar y servir datos.

5. Seguridad

AWS opera bajo un modelo de responsabilidad compartida:

Responsabilidad de AWS: Seguridad de la infraestructura física y de los componentes subyacentes.
Responsabilidad del Usuario: Gestión del sistema operativo, actualizaciones, configuraciones de red y acceso a datos.

Analogía

Se puede comparar con un edificio de apartamentos: - El propietario se encarga de la seguridad del edificio. - El inquilino es responsable de asegurar su apartamento.

Conclusión

Este documento proporciona una visión general de los servicios básicos de AWS que se explorarán en el curso. En los próximos videos, se presentará la consola de administración de AWS y se ofrecerán instrucciones para crear una cuenta gratuita, aunque esto es opcional para el éxito en el curso.

Introducción a la Consola de Administración de AWS

Descripción

Este documento proporciona un resumen de la consola de administración de AWS, su interfaz y cómo interactuar con ella para realizar tareas básicas, como lanzar instancias EC2. Está diseñado para aquellos que son nuevos en AWS y no requieren experiencia previa en servicios en la nube.

Contenido

1. Introducción a AWS

No es necesario tener experiencia previa en servicios en la nube para completar los ejercicios prácticos del curso.
Se configurará un entorno de AWS para cada laboratorio, por lo que no es necesario tener una cuenta propia.

2. Consola de Administración de AWS

La consola es el primer lugar donde se accede al iniciar un nuevo laboratorio.
La interfaz puede cambiar con el tiempo, pero las instrucciones básicas de navegación se mantendrán.

2.1 Navegación en la Consola

Sección "Recientemente Visitados": Muestra los servicios accedidos recientemente.
Barra de búsqueda: Permite buscar servicios específicos, como EC2.

3. Lanzamiento de una Instancia EC2

Para lanzar una nueva instancia EC2, sigue estos pasos:

Acceder al panel de EC2:
Selecciona "Lanzar instancia".
Configuración de la instancia:
Proporciona un nombre para la instancia.
Selecciona una Amazon Machine Image (AMI), por ejemplo, Amazon Linux.
Elige el tipo de instancia (por defecto, t2.micro).
Procede sin un par de claves para conectarte a la instancia.
Acepta los valores predeterminados y lanza la instancia.

4. Características de la Instancia EC2

Tipo de instancia: t2.micro
Especificaciones:
Procesador: 3.3 GHz
Memoria: 1 GB de RAM

5. Tipos de Instancias EC2

AWS ofrece una amplia variedad de tipos de instancias, que incluyen: - Instancias optimizadas para computación. - Instancias optimizadas para memoria. - Instancias optimizadas para almacenamiento. - Instancias de alto rendimiento.

6. Gestión de Costos

Es importante detener o eliminar recursos no utilizados para evitar cargos innecesarios.
Los cargos por instancias EC2 solo se aplican cuando están en ejecución.

7. Información de la Cuenta

Para encontrar el número de cuenta y la región:
Haz clic en el menú desplegable junto a tu nombre de cuenta.
Cambia la región desde el menú desplegable correspondiente.

8. Conclusión

Este documento proporciona una orientación básica sobre la consola de administración de AWS. En los laboratorios, se proporcionarán instrucciones detalladas para interactuar con la consola y configurar los recursos necesarios para construir un pipeline de datos.

Tabla de Especificaciones de Instancias EC2

Tipo de Instancia	Procesador	Memoria (RAM)
t2.micro	3.3 GHz	1 GB

Lista de Pasos para Lanzar una Instancia EC2

Acceder a la consola de AWS.
Buscar y seleccionar EC2.
Hacer clic en "Lanzar instancia".
Configurar nombre y AMI.
Seleccionar tipo de instancia.
Proceder sin par de claves.
Aceptar valores predeterminados y lanzar.

Este resumen proporciona una base para comenzar a trabajar con AWS y la consola de administración, facilitando la comprensión de los conceptos y herramientas necesarias para los laboratorios del curso.

Resumen de la Semana 1: Introducción a la Ingeniería de Datos

Descripción

En esta primera semana del curso de Introducción a la Ingeniería de Datos, se han abordado conceptos fundamentales sobre el rol del ingeniero de datos, la terminología relacionada con la nube de AWS y el proceso de construcción de sistemas de datos. A continuación, se presenta un resumen de los puntos clave discutidos.

Escenarios del Ingeniero de Datos

Los ingenieros de datos pueden encontrarse en diversas situaciones, tales como:

Ser el primer ingeniero de datos en una empresa, construyendo sistemas desde cero.
Unirse a un equipo de datos ya establecido.
Tomar el control de sistemas existentes que necesitan modificaciones o expansiones.

Pasos para Construir Sistemas de Datos Exitosos

Para construir sistemas de datos efectivos, es crucial seguir estos pasos:

Entender las necesidades de los interesados: Identificar cómo los stakeholders derivarán valor de los datos.
Definir requisitos: Convertir las necesidades en requisitos claros para el sistema.
Elegir herramientas y tecnologías: Seleccionar las herramientas adecuadas para cumplir con los requisitos.
Construir y evaluar el sistema de datos: Implementar el sistema y realizar evaluaciones para asegurar su efectividad.

Marco de Trabajo para Pensar como un Ingeniero de Datos

Se presentó un marco de trabajo que ayuda a estructurar el pensamiento del ingeniero de datos en etapas:

Etapa	Descripción
Identificación de objetivos	Definir metas de negocio y necesidades de los interesados.
Definición de requisitos	Establecer requisitos claros para el sistema.
Selección de herramientas	Elegir las tecnologías adecuadas.
Construcción y evaluación	Implementar y evaluar el sistema de datos.

Historia de la Ingeniería de Datos

Se exploró la evolución de la ingeniería de datos y se discutió el enfoque "cloud-first" en la construcción de sistemas de datos.

Recursos y Conceptos Esenciales

Se revisaron conceptos y recursos fundamentales para comenzar a construir en la nube de AWS.

Próximos Pasos

En la próxima semana, se profundizará en cada una de las etapas del ciclo de vida de la ingeniería de datos y se llevará a cabo una actividad práctica donde los participantes construirán su primer pipeline de datos en AWS.

¡Nos vemos en la próxima semana!