Curso de Especialización en Ingeniería de Datos

Descripción

En este segundo curso de la especialización en ingeniería de datos, se profundiza en la ingesta de datos desde sistemas de origen, así como en conceptos de DataOps y la orquestación de canalizaciones de datos. Este curso es fundamental para entender las etapas iniciales del ciclo de vida de la ingeniería de datos.

Contenido del Curso

Temas Principales

Visión General de la Ingesta de Datos
Importancia de la ingesta de datos en el ciclo de vida de la ingeniería de datos.
Relación entre la ingesta de datos y el modelado de aprendizaje automático.
Sistemas de Origen de Datos
Tipos de sistemas de origen: bases de datos, almacenamiento de objetos, etc.
Interacción con sistemas de origen en el trabajo de un ingeniero de datos.
Ingesta de Datos
Métodos de ingesta de datos desde sistemas de origen.
Desafíos en la ingesta de datos y su impacto en la calidad de los datos.
DataOps y Orquestación
Organización y supervisión de flujos de trabajo de canalización de datos.
Importancia de mantener la calidad y el rendimiento de los datos.
Datos Estructurados vs. No Estructurados
Diferencias entre datos tabulares y no estructurados (texto, imágenes, videos).
Creciente relevancia de los datos no estructurados en el mundo actual.

Importancia de la Ingesta de Datos

La ingesta de datos representa aproximadamente el 80% del trabajo en sistemas de IA.
Ignorar la ingesta de datos puede limitar las capacidades de análisis y modelado.
La calidad de los datos ingeridos es crucial para el éxito de los modelos de IA.

Desafíos en la Ingesta de Datos

Identificación de lagunas en los datos y su impacto en el rendimiento del modelo.
Procesamiento y filtrado de datos para asegurar su calidad.
Escalabilidad y complejidad en la ingesta de grandes volúmenes de datos.

Conclusiones

La ingesta de datos y la organización de flujos de trabajo son fundamentales para el éxito en la ingeniería de datos.
La creciente cantidad de datos no estructurados presenta nuevos desafíos y oportunidades para los ingenieros de datos.
La capacidad de procesar y analizar datos no estructurados será clave para el futuro de la ingeniería de datos.

Tabla Resumen de Temas

Tema	Descripción
Visión General	Introducción a la ingesta de datos y su importancia en IA.
Sistemas de Origen	Tipos de sistemas y su interacción con la ingesta de datos.
Métodos de Ingesta	Estrategias para la ingesta de datos y sus desafíos.
DataOps y Orquestación	Organización y supervisión de flujos de trabajo de datos.
Datos Estructurados vs. No Estructurados	Comparación y relevancia de ambos tipos de datos en la actualidad.

Lista de Recursos

Libro: Fundamentals of Data Engineering por Joe Reis.
Artículos: Investigación sobre DataOps y mejores prácticas en la ingesta de datos.
Herramientas: Software y plataformas para la ingesta y procesamiento de datos.

Próximos Pasos

Continuar con el siguiente video para profundizar en los temas tratados.
Prepararse para aplicar los conceptos aprendidos en proyectos prácticos de ingeniería de datos.

Curso sobre Sistemas de Origen, Ingestión y Canalizaciones de Datos

Descripción

Este curso se centra en la comprensión de los sistemas de origen, la ingesta de datos y la creación de canalizaciones de datos. A lo largo de cuatro semanas, se explorarán diferentes tipos de sistemas fuente, técnicas de ingesta, prácticas de DataOps y la organización de canalizaciones de datos.

Contenido del Curso

Semana 1: Introducción a los Sistemas Fuente

Objetivo: Analizar los diferentes tipos de sistemas fuente y cómo interactuar con ellos.
Temas a tratar:
Generación de datos en sistemas fuente.
Almacenamiento y características de los datos.
Tipos de sistemas fuente comunes:
- Bases de datos
- Almacenamiento de objetos
- Fuentes de streaming
Laboratorios: Trabajo práctico con sistemas fuente en AWS.

Semana 2: Ingestión de Datos

Enfoque: Configuración de diferentes tipos de ingesta desde los sistemas fuente.

Semana 3: DataOps y Automatización

Contenido:
Análisis de las prácticas actuales de DataOps.
Uso de infraestructura como código para automatizar tareas de canalización.
Herramientas para supervisar la calidad de los datos.

Semana 4: Organización de Canalizaciones de Datos

Actividades:
Coordinación de tareas en canalizaciones de datos.
Configuración de gráficos acíclicos dirigidos (DAG) mediante Apache Airflow.
Implementación de soluciones de monitoreo para canalizaciones de datos.

Resumen

Este curso abarca un amplio espectro de conocimientos necesarios para la ingeniería de datos, desde la comprensión de los sistemas fuente hasta la organización y monitoreo de canalizaciones de datos. Se recomienda a los participantes que se preparen para un aprendizaje intensivo y práctico.

Próximos Pasos

Acompáñame en el siguiente video para profundizar en los diferentes tipos de sistemas fuente y su importancia en el ciclo de vida de la ingeniería de datos.

Introducción a los Sistemas Fuente en Ingeniería de Datos

En este documento se resumen los conceptos clave sobre los sistemas fuente que un ingeniero de datos puede encontrar, así como los tipos de datos que se pueden ingerir de estos sistemas.

Tipos de Datos

Los datos con los que un ingeniero de datos trabaja se pueden clasificar en tres categorías principales:

Datos Estructurados:
Organizados en tablas con filas y columnas.
Ejemplos: hojas de cálculo, bases de datos relacionales, archivos CSV.
Datos Semiestructurados:
No están en forma tabular, pero tienen cierta estructura.
Ejemplo común: JSON (JavaScript Object Notation).
Contiene pares clave-valor, donde cada valor puede ser de diferentes tipos de datos (números, cadenas, matrices, etc.).
Ejemplo de JSON: json { "FirstName": "Joe", "LastName": "Reis", "Address": { "City": "Madrid", "PostalCode": "28001", "Country": "España" } }
Datos No Estructurados:
No tienen una estructura predefinida.
Ejemplos: texto, video, audio, imágenes.
Aunque no tienen una estructura visible, pueden tener características inherentes (dimensiones de píxeles, colores, etc.).

Sistemas Fuente

Los sistemas fuente de los que se pueden ingerir datos se pueden clasificar en tres tipos generales:

Tipo de Sistema Fuente	Descripción
Bases de Datos	Almacenan información de forma organizada, permitiendo operaciones CRUD (Crear, Leer, Actualizar, Eliminar).
Archivos	Pueden ser documentos, imágenes, videos o archivos CSV. Representan una secuencia de bytes que contienen información.
Sistemas de Streaming	Proporcionan un flujo continuo de datos en forma de mensajes sobre eventos.

Bases de Datos

Bases de Datos Relacionales:
Almacenan información en tablas con filas y columnas.
Bases de Datos No Relacionales (NoSQL):
Almacenan datos no tabulares.

Archivos

Los archivos pueden ser de diferentes tipos:
Estructurados: Ej. hojas de cálculo.
Semiestructurados: Ej. archivos JSON o XML.
No estructurados: Ej. archivos de texto, imágenes, videos, audio.

Sistemas de Streaming

Proporcionan un flujo continuo de datos, donde cada mensaje representa un evento.
Ejemplo: un termostato inteligente que envía lecturas de temperatura a través de plataformas como Kinesis o Kafka.

Resumen

Como ingeniero de datos, se extraerán datos sin procesar de diferentes sistemas de origen, que pueden ser estructurados, semiestructurados o no estructurados. Los sistemas fuente incluyen bases de datos, archivos y sistemas de streaming. En las próximas secciones del curso, se explorarán más a fondo las características de cada uno de estos sistemas fuente, comenzando con las bases de datos relacionales.

Próximos Pasos

Acompáñame en el siguiente video para empezar a explorar las bases de datos relacionales.

Introducción a Bases de Datos Relacionales

Las bases de datos relacionales son sistemas de almacenamiento de datos que se utilizan ampliamente en aplicaciones web y móviles, así como en sistemas corporativos como la gestión de relaciones con clientes (CRM), recursos humanos (HR) y planificación de recursos empresariales (ERP). Este documento resume los conceptos clave sobre las bases de datos relacionales, su estructura y su uso en el contexto de la ingeniería de datos.

Conceptos Clave

1. Bases de Datos Relacionales

Definición: Un sistema que almacena datos en tablas relacionadas entre sí mediante claves.
Uso Común: Utilizadas en sistemas de procesamiento de transacciones en línea (OLTP) para manejar un alto volumen de transacciones simultáneas.

2. Estructura de la Base de Datos

Tablas: Organizadas para reflejar la estructura de la información en el negocio.
Ejemplo en comercio electrónico:
- Tabla de Clientes
- Tabla de Productos
- Tabla de Pedidos

Ejemplo de Estructura de Tablas

Tabla	Descripción
Clientes	Información sobre los clientes
Productos	Información sobre los productos
Pedidos	Información sobre los pedidos

3. Redundancia y Normalización

Redundancia: Ocurre cuando la misma información se repite en múltiples filas o tablas.
Normalización: Proceso para minimizar la redundancia y asegurar la integridad de los datos al almacenar información de manera lógica en múltiples tablas.

4. Claves en Bases de Datos

Clave Primaria: Columna que identifica de manera única cada fila en una tabla.
Clave Foránea: Columna en una tabla que referencia la clave primaria de otra tabla.

Ejemplo de Claves

Tabla	Clave Primaria	Clave Foránea
Clientes	id	-
Productos	id	-
Pedidos	id	customer_id (referencia a Clientes)

5. Esquema de Base de Datos

Define la estructura de las tablas, incluyendo nombres de columnas y tipos de datos.
Ejemplo de columnas en la tabla de Clientes:
id (entero)
nombre (cadena)
apellido (cadena)
edad (entero)

Interacción con Bases de Datos

Para interactuar con bases de datos relacionales, se utiliza un Sistema de Gestión de Bases de Datos Relacionales (RDBMS). Algunos RDBMS populares incluyen:

MySQL
PostgreSQL
Oracle
SQL Server

Lenguaje de Consulta Estructurado (SQL)

Definición: Conjunto de comandos para realizar operaciones en bases de datos relacionales.
Uso: Parte integral del trabajo diario de un ingeniero de datos.

Consideraciones Finales

Aunque la normalización proporciona integridad y minimiza la redundancia, puede ser lenta al consultar datos. Dependiendo del caso de uso, los ingenieros de datos pueden optar por diferentes modelos de almacenamiento, incluyendo el enfoque de "una gran tabla" (OBT) para un procesamiento más rápido.

En el próximo video, se explorarán comandos SQL necesarios para la práctica en el laboratorio, seguido de una introducción a bases de datos NoSQL.

Este documento proporciona una visión general de las bases de datos relacionales y su importancia en la ingeniería de datos, así como los conceptos fundamentales que los ingenieros de datos deben comprender.

Introducción a SQL en la Base de Datos Rentio

En este documento se presenta un resumen del curso sobre el uso de SQL en una base de datos transaccional para una compañía ficticia de alquiler de DVDs llamada Rentio. Se abordarán conceptos clave, comandos SQL básicos y la estructura de la base de datos.

Descripción de la Base de Datos

La base de datos de Rentio incluye tablas que contienen información sobre:

Tiendas
Personal
Clientes
Inventario de DVDs
Transacciones de alquiler

Esquema de la Base de Datos

La base de datos está normalizada, lo que significa que los datos, como las direcciones de las tiendas, el personal y los clientes, se almacenan en tablas separadas para reducir la redundancia y facilitar las actualizaciones. Las tablas principales que se utilizarán son:

Tabla	Descripción
`film`	Información sobre los títulos y duración de los films.
`category`	Lista de categorías de films.
`film_category`	Relación entre `film` y `category` mediante `film_id` y `category_id`.

Comandos SQL Básicos

SELECT y FROM

El comando más básico en SQL comienza con la cláusula SELECT, donde se especifica qué datos se desean, seguido de la cláusula FROM, que indica de qué tabla se recuperarán los datos.

SELECT title, release_year FROM film;

LIMIT

Para limitar el número de resultados devueltos, se puede usar la cláusula LIMIT.

SELECT title, release_year FROM film LIMIT 10;

WHERE

Para filtrar resultados, se utiliza la cláusula WHERE.

SELECT * FROM film WHERE length < 60;

ORDER BY

Para ordenar los resultados, se puede usar la cláusula ORDER BY.

SELECT * FROM film WHERE length < 60 ORDER BY length ASC;

JOIN

Para explorar datos de más de una tabla, se utiliza la cláusula JOIN. Por ejemplo, para obtener títulos de films y sus categorías:

SELECT film.title, category.name 
FROM film 
JOIN film_category ON film.film_id = film_category.film_id 
JOIN category ON film_category.category_id = category.category_id 
WHERE film.length < 60;

Tipos de JOIN

INNER JOIN: Devuelve solo los registros que tienen valores coincidentes en ambas tablas.
LEFT JOIN: Devuelve todos los registros de la primera tabla y los registros coincidentes de la segunda tabla.
RIGHT JOIN: Devuelve todos los registros de la segunda tabla y los registros coincidentes de la primera tabla.
FULL JOIN: Devuelve todos los registros de ambas tablas, combinando los que tienen valores coincidentes.

GROUP BY y COUNT

Para agrupar resultados y contar registros, se utiliza GROUP BY junto con COUNT.

SELECT category.name, COUNT(*) AS film_count 
FROM film 
JOIN film_category ON film.film_id = film_category.film_id 
WHERE film.length < 60 
GROUP BY category.name 
ORDER BY film_count DESC;

Conclusión

Este resumen cubre algunos de los comandos SQL más comunes y su aplicación en la base de datos Rentio. El curso también incluye operaciones de manipulación de datos como CREATE, INSERT INTO, UPDATE y DELETE. Se recomienda leer las instrucciones cuidadosamente al realizar los ejercicios en el laboratorio.

Al finalizar el laboratorio, se explorarán bases de datos NoSQL.

Introducción a las Bases de Datos NoSQL

En los inicios de los años 2000, empresas tecnológicas como Google y Amazon comenzaron a superar las capacidades de sus bases de datos relacionales. La necesidad de procesar grandes volúmenes de datos provenientes de diversas fuentes llevó al desarrollo de bases de datos distribuidas no relacionales, conocidas como NoSQL. Este documento resume los conceptos clave sobre las bases de datos NoSQL, sus características y tipos.

¿Qué son las Bases de Datos NoSQL?

NoSQL no significa "No SQL", sino "No solo SQL". Es una categoría de bases de datos que se aleja del marco relacional tradicional. Algunas bases de datos no relacionales aún admiten SQL o lenguajes de consulta similares.

Características de las Bases de Datos NoSQL

Estructuras no tabulares: Soportan varios formatos de datos, incluyendo:
Clave-valor
Documentos
Columnas anchas
Grafos
Flexibilidad de esquema: No requieren esquemas predefinidos, lo que permite mayor flexibilidad en el almacenamiento de datos.
Escalabilidad horizontal: Distribuyen automáticamente datos y cargas de trabajo a través de múltiples servidores.
Consistencia eventual: Permiten leer datos de nodos que pueden no tener la última actualización, priorizando la velocidad sobre la consistencia en tiempo real.

Comparación con Bases de Datos Relacionales

Característica	Bases de Datos Relacionales	Bases de Datos NoSQL
Estructura	Tabular	No tabular
Esquema	Fijo	Flexible
Consistencia	Fuerte	Eventual
Escalabilidad	Vertical	Horizontal
Soporte de transacciones ACID	Sí	Variable (algunas lo soportan)

Tipos Comunes de Bases de Datos NoSQL

1. Bases de Datos Clave-Valor

Descripción: Almacenan datos como pares clave-valor, similar a un archivo JSON o un diccionario de Python.
Uso: Ideal para escenarios que requieren búsquedas rápidas de datos, como el almacenamiento de sesiones de usuario en aplicaciones web o móviles.

Ejemplo: - Clave: user_session_id - Valor: { "productos_vistos": [...], "carrito": [...] }

2. Almacenes de Documentos

Descripción: Un tipo especial de base de datos clave-valor que almacena datos en documentos similares a JSON. Cada documento tiene una clave única.
Organización: Los documentos se agrupan en colecciones, que son análogas a las tablas en bases de datos relacionales.

Ejemplo: - Colección: usuarios - Documento: { "id": 1, "nombre": "Juan", "email": "juan@example.com" }

Ventajas y Desventajas

Ventajas:
Flexibilidad en el esquema.
Eficiencia en la recuperación de datos relacionados.
Desventajas:
Dificultad para realizar combinaciones de información entre documentos.
La flexibilidad puede llevar a problemas de gestión y consultas complejas.

Aplicaciones de Bases de Datos NoSQL

Ambos tipos de bases de datos, relacionales y NoSQL, pueden ser utilizados en una amplia gama de aplicaciones. Sin embargo, en aplicaciones de procesamiento de transacciones en línea (OLTP) como banca y comercio electrónico, la consistencia y la integridad de los datos son críticas.

Conclusión

Las bases de datos NoSQL ofrecen una alternativa poderosa a las bases de datos relacionales, especialmente en escenarios donde la escalabilidad y la flexibilidad son esenciales. Sin embargo, es importante considerar las implicaciones de la consistencia eventual y la gestión de datos al elegir una solución NoSQL.

En el próximo video, exploraremos los principios de atomicidad, consistencia, aislamiento y durabilidad (ACID), que son fundamentales para los sistemas OLTP. ¡Nos vemos allí!

Resumen sobre Bases de Datos y Principios ACID

Descripción

Este documento resume los conceptos clave sobre bases de datos relacionales y no relacionales, así como los principios ACID que garantizan la integridad y confiabilidad de las transacciones en sistemas de procesamiento de transacciones en línea (OLTP).

Tipos de Bases de Datos

Tipo de Base de Datos	Descripción
Relacionales	Cumplen con los principios ACID y son ideales para transacciones confiables.
No Relacionales (NoSQL)	Pueden no cumplir con ACID de forma predeterminada, pero permiten configuraciones para cumplir con estos principios.

Principios ACID

Los principios ACID son fundamentales para garantizar la integridad de las transacciones en bases de datos. A continuación se describen cada uno de ellos:

Atomicidad
Garantiza que las transacciones se traten como una unidad indivisible.
Si una parte de la transacción falla, toda la transacción se anula.
Ejemplo: En una compra, si se deduce el costo de la cuenta pero no se actualiza el inventario, la transacción se revertirá.
Coherencia
Asegura que cualquier cambio en los datos siga las reglas definidas por el esquema de la base de datos.
La base de datos debe pasar de un estado válido a otro.
Ejemplo: Si el inventario no puede bajar de cero, un pedido que exceda el stock disponible fallará.
Aislamiento
Permite que las transacciones se ejecuten de forma independiente, incluso si se inician simultáneamente.
Ejemplo: Si dos clientes piden el mismo artículo al mismo tiempo, uno de los pedidos fallará si no hay suficiente inventario.
Durabilidad
Asegura que una vez completada una transacción, sus efectos son permanentes, incluso ante fallos del sistema.
Esto es crucial para mantener la confiabilidad de la base de datos.

Consistencia Sólida

La consistencia sólida se refiere a que todos los nodos de un sistema distribuido proporcionen los mismos datos actualizados.
Es un resultado del cumplimiento de los principios ACID, especialmente en sistemas de bases de datos distribuidos.

Consideraciones Finales

No todas las bases de datos deben cumplir con todos los principios ACID para ser efectivas.
Algunas bases de datos NoSQL pueden relajar uno o más principios para mejorar el rendimiento y la escalabilidad.
Como ingeniero de datos, es esencial entender cuándo es necesario cumplir con ACID para evitar problemas en el manejo de datos.

Próximos Pasos

En el siguiente laboratorio, se trabajará con DynamoDB, una base de datos de valores clave de NoSQL. Se recomienda revisar el video introductorio para familiarizarse con el entorno de trabajo.

Laboratorio de Amazon DynamoDB

Descripción

En este laboratorio, se trabajará con Amazon DynamoDB, una base de datos NoSQL de valores clave, y se aplicarán operaciones CRUD (Crear, Leer, Actualizar, Eliminar) a los datos. Se proporcionará una descripción general de las funciones de DynamoDB, los datos a utilizar y los métodos para interactuar con la base de datos.

Conceptos Clave

¿Qué es DynamoDB?

DynamoDB es una base de datos NoSQL que almacena datos en tablas. Cada tabla contiene elementos identificados de forma única por una clave principal. Los elementos se componen de atributos que describen los datos.

Ejemplo de Elementos

Clave (ID de Persona)	Atributos (Nombre, Edad, etc.)
1	Nombre: Juan, Edad: 30
2	Nombre: Ana, Edad: 25

Clave Principal

Clave de Partición: Identificador único de cada fila.
Clave de Clasificación: Se utiliza en claves compuestas para identificar elementos de forma única dentro de la misma partición.

Ejemplo de Clave Compuesta

Clave de Partición (ID de Pedido)	Clave de Clasificación (Número de Línea)	Atributos (Descripción del Artículo)
1001	1	Artículo: Laptop
1001	2	Artículo: Mouse

Esquema de Tablas

Las tablas en DynamoDB no tienen un esquema fijo, lo que permite que cada elemento tenga atributos distintos.

Operaciones CRUD en DynamoDB

Se utilizarán los siguientes métodos de Boto3 para realizar operaciones CRUD:

Operación	Método Boto3	Descripción
Crear Tabla	`CreateTable`	Crea una nueva tabla en DynamoDB.
Agregar/Actualizar Elemento	`putItem`, `updateItem`	Agrega o actualiza un elemento en la tabla.
Leer Elemento	`getItem`, `scan`, `query`	Lee elementos de la tabla.
Eliminar Elemento	`DeleteItem`	Elimina un elemento de la tabla.

Interacción con DynamoDB

Para interactuar con DynamoDB, se utilizará Boto3, el kit de desarrollo de software de AWS para Python. Se debe crear un objeto cliente que represente la tabla de DynamoDB.

Archivos JSON

Se proporcionan cuatro archivos JSON que contienen datos para cargar en las tablas de DynamoDB: 1. Catálogo de Productos: Contiene información sobre productos. 2. Foro: Información sobre foros de AWS. 3. Hilo: Detalles sobre hilos en foros. 4. Respuesta: Información sobre respuestas a hilos.

Ejercicio Inicial

Importar Paquetes: Importar los paquetes necesarios en Jupyter Notebook.
Definir Variables: Definir variables para el laboratorio.
Crear Tablas: Utilizar el método CreateTable de Boto3 para crear las tablas.

Ejemplo de Código para Crear Tablas

import boto3

def CreateTableDB(table_name, **kwargs):
    client = boto3.client('dynamodb')
    client.create_table(
        TableName=table_name,
        **kwargs
    )

# Ejemplo de uso
CreateTableDB('NombreTabla', AttributeDefinitions=[...], KeySchema=[...])

Conclusión

Al finalizar el laboratorio, se habrá creado y manipulado una base de datos en DynamoDB utilizando Python y Boto3. Se explorarán más conceptos en el siguiente video, donde se abordará el almacenamiento de archivos en la nube.

Almacenamiento de Objetos en Ingeniería de Datos

Descripción

El almacenamiento de objetos es un sistema fundamental en la ingeniería de datos, utilizado para almacenar y recuperar archivos de manera eficiente. Este documento resume los conceptos clave sobre el almacenamiento de objetos, su estructura, características y ventajas.

Conceptos Clave

1. Definición de Almacenamiento de Objetos

El almacenamiento de objetos trata los datos como objetos individuales, almacenándolos en una estructura plana, a diferencia de la jerarquía tradicional de carpetas y subcarpetas.

2. Características del Almacenamiento de Objetos

Estructura Plana: Aunque puede parecer jerárquico en la interfaz de usuario (como en Amazon S3), los archivos se almacenan en un nivel superior sin jerarquía.
Versatilidad: Puede almacenar diversos tipos de datos, incluyendo:
Archivos CSV
JSON
Texto
Vídeo
Imágenes
Audio
Datos binarios

3. Identificación y Metadatos

Cada objeto tiene un Identificador Único Universal (UUID) que actúa como clave para acceder y gestionar el objeto.
Los objetos incluyen metadatos que proporcionan información adicional, como:
Fecha de creación
Tipo de archivo
Propietario

4. Inmutabilidad

Los objetos son inmutables después de la escritura inicial, lo que significa que no se pueden modificar directamente. Para cambiar un objeto, se debe reescribir completamente y actualizar el UUID.

5. Control de Versiones

Permite mantener múltiples versiones de un objeto al agregar metadatos que especifican la versión, evitando sobrescribir el objeto anterior.

Ventajas del Almacenamiento de Objetos

Almacenamiento de Múltiples Formatos: Permite almacenar archivos sin una estructura de sistema de archivos específica, simplificando la gestión de datos.
Escalabilidad: Se puede ampliar fácilmente para manejar grandes volúmenes de datos.
Durabilidad y Disponibilidad: Los datos se replican en múltiples zonas de disponibilidad, garantizando su durabilidad incluso en desastres naturales. Por ejemplo, Amazon S3 ofrece una durabilidad de datos de 11 nueves.
Costo-Efectividad: Generalmente, el almacenamiento de objetos es más económico que otras opciones, especialmente para datos de acceso poco frecuente.

Aplicaciones del Almacenamiento de Objetos

El almacenamiento de objetos es fundamental en arquitecturas modernas como: - Lagos de Datos - Casas de Lagos de Datos

Próximos Pasos

En el siguiente laboratorio, se trabajará con el almacenamiento de objetos de Amazon, creando consultas de datos y gestionando el control de versiones. Posteriormente, se explorarán los registros de aplicaciones como fuentes de datos en sistemas de streaming.

Tabla Resumen de Características

Característica	Descripción
Estructura	Plana, sin jerarquía
Tipos de Datos	CSV, JSON, texto, vídeo, imágenes, audio, datos binarios
Identificación	UUID para cada objeto
Metadatos	Información adicional sobre el objeto
Inmutabilidad	Objetos no modificables después de la escritura inicial
Control de Versiones	Permite mantener múltiples versiones de un objeto
Escalabilidad	Fácil ampliación para grandes volúmenes de datos
Durabilidad	Replicación en múltiples zonas de disponibilidad
Costo	Generalmente más económico que otras opciones de almacenamiento

Este documento proporciona una visión general del almacenamiento de objetos y su importancia en la ingeniería de datos, preparando el camino para un aprendizaje más profundo en los próximos cursos.

Resumen del Curso sobre Registros de Información en Sistemas

Descripción

En este curso se aborda el concepto de registros de información en sistemas y aplicaciones, su importancia en el monitoreo y depuración, así como su potencial como fuente de datos valiosa para análisis posteriores.

Contenido

1. Introducción a los Registros

Los registros son una forma de documentar eventos en un sistema o aplicación.
Históricamente, los datos de las aplicaciones eran considerados subproductos sin valor intrínseco, pero son útiles para monitoreo y depuración.

2. Funciones de los Registros

Monitoreo: Los ingenieros utilizan registros para supervisar el estado de los sistemas.
Depuración: Ayudan a identificar errores y problemas en el funcionamiento de las aplicaciones.

3. Tipos de Datos en Registros

Los registros pueden incluir: - Actividades de usuarios (inicio de sesión, navegación). - Eventos del back-end (actualizaciones de bases de datos, errores).

4. Importancia de los Registros

Los registros son una fuente rica de datos que pueden ser utilizados para:
Análisis de datos.
Resolución de problemas.
Supervisión del rendimiento.
Aplicaciones de aprendizaje automático.
Automatización.

5. Estructura de un Registro

Un registro típico incluye: - Identificador de usuario: Cuenta personal, dirección IP. - Descripción del evento: Qué ocurrió y su estado. - Marca de tiempo: Cuándo ocurrió el evento.

6. Formatos de Registro

Los datos de registro pueden ser: - Texto simple no estructurado. - Formato JSON o CSV. - Datos codificados binarios.

7. Niveles de Registro

Los registros pueden clasificarse según su nivel, que indica la gravedad de la información: | Nivel de Registro | Descripción | |-------------------|--------------------------------------| | Debug | Información de depuración | | Info | Información general | | Warn | Advertencias sobre posibles problemas| | Error | Errores que requieren atención | | Fatal | Fallos críticos que necesitan atención urgente |

8. Conclusión

Es fundamental que los ingenieros de datos comprendan cómo trabajar con registros, sus tipos, formatos y aplicaciones, ya que serán una fuente importante de datos en su trabajo.

Próximos Pasos

Acompáñame en el siguiente video para explorar algunos de los sistemas de streaming y su relación con los registros de información.

Resumen del Curso sobre Arquitecturas Basadas en Eventos

Descripción

En este curso, se exploran las arquitecturas basadas en eventos, centrándose en la diferencia entre el procesamiento por lotes y en flujo, así como en el papel de las colas de mensajes y las plataformas de transmisión en la ingeniería de datos. Se definen conceptos clave como eventos, mensajes y transmisiones, y se describen los componentes de un sistema de streaming.

Contenido

1. Procesamiento por Lotes vs. Procesamiento en Flujo

Procesamiento por Lotes: Manejo de datos en fragmentos durante intervalos de tiempo específicos.
Procesamiento en Flujo: Procesamiento de datos en tiempo real, donde cada mensaje se procesa a medida que se recibe.

2. Terminología Clave

Evento: Un cambio en el estado del sistema o algo que ocurrió en el mundo (ej. clic en un enlace, cambio de temperatura).
Mensaje: Registro de información sobre un evento, que incluye detalles y metadatos.
Transmisión: Secuencia de mensajes generados continuamente.

3. Componentes de un Sistema de Streaming

Componente	Descripción
Productor de Eventos	Genera los mensajes en una transmisión (ej. dispositivos IoT, aplicaciones).
Consumidor de Eventos	Procesa cada mensaje individual (ej. servicios de pago, inventario).
Router de Eventos	Intermediario que filtra y distribuye eventos entre productores y consumidores.

4. Funcionamiento de un Sistema de Streaming

Productor: Envía mensajes a través del router.
Router: Desvincula al productor del consumidor, permitiendo comunicación asincrónica.
Consumidor: Procesa los mensajes recibidos.

5. Tipos de Sistemas de Streaming

Colas de Mensajes:
Actúan como almacenamiento temporal.
Los mensajes se leen en orden FIFO (primero en entrar, primero en salir).
Ejemplo: Amazon Simple Queue Service (SQS).
Plataformas de Streaming:
Los eventos se transmiten a un registro que solo se puede adjuntar.
Los mensajes no se eliminan, permitiendo la persistencia de datos.
Ejemplo: Apache Kafka, Amazon Kinesis Data Streams.

6. Conclusiones

Los sistemas de streaming son fundamentales en la ingeniería de datos, permitiendo la ingesta, transformación y servicio de datos en tiempo real. En la próxima lección, se explorará cómo conectarse a los sistemas fuente.

Próximos Pasos

Conectar a sistemas fuente.
Profundizar en la creación de canalizaciones de datos.

¡Nos vemos en la próxima lección!

Conexión a Sistemas Fuente en Ingeniería de Datos

Descripción

En esta lección, se abordarán los aspectos prácticos de la conexión a sistemas fuente en el contexto de la ingeniería de datos. Se explorarán los problemas comunes que pueden surgir al intentar acceder a datos y se discutirán las habilidades necesarias para resolver estos problemas. Además, se presentará una introducción a la seguridad en la nube y la creación de redes, con un enfoque en AWS.

Contenido

Problemas Comunes al Conectar a Sistemas Fuente

Los ingenieros de datos a menudo enfrentan problemas imprevistos al intentar acceder a datos. Algunos de estos problemas incluyen:

Administración de identidad y acceso: Configuraciones incorrectas que impiden el acceso a los datos.
Mensajería instantánea: Definiciones erróneas que pueden causar fallos en la conexión.
Configuraciones de red: Errores en la configuración que bloquean el acceso.
Credenciales de acceso: Uso de credenciales incorrectas que impiden la autenticación.

Importancia de la Resolución de Problemas

Resolver problemas de conexión es una habilidad fundamental para los ingenieros de datos. Durante las entrevistas, se recomienda evaluar la capacidad de los candidatos para solucionar problemas en un entorno simulado.

Conexión a Sistemas Fuente en AWS

Se presentará una demostración de cómo conectarse a diferentes sistemas fuente utilizando AWS. Los principios discutidos también son aplicables a otras plataformas en la nube.

Conceptos Clave de IAM

IAM (Identity and Access Management): Esencial para controlar y administrar el acceso a fuentes de datos en la nube.
Seguridad en la Nube: La gestión adecuada de permisos es crucial para proteger los datos.

Creación de Redes en AWS

Se ofrecerá una descripción general de la creación de redes, incluyendo:

Concepto	Descripción
VPC	Virtual Private Cloud, permite crear redes privadas en la nube.
Subredes	Segmentos de una VPC que permiten organizar y gestionar el tráfico.
Puertas de enlace	Conectan la VPC con otras redes o Internet.
Enrutamiento	Controla cómo se dirigen los datos dentro de la red.
Grupos de seguridad	Reglas que controlan el acceso a instancias dentro de la VPC.

Desafío de Laboratorio

Al final de la lección, se presentará un ejercicio de laboratorio que simula un escenario real en el que los estudiantes deberán:

Conectarse a un sistema fuente en la nube.
Identificar y resolver problemas de conexión.
Aplicar los conocimientos adquiridos sobre redes y seguridad.

Conclusión

Esta lección proporcionará una base sólida para entender cómo conectarse a sistemas fuente y resolver problemas comunes en la ingeniería de datos. Se espera que los estudiantes apliquen estos conceptos en el ejercicio de laboratorio y en situaciones del mundo real.

Conexión a Sistemas de Origen en AWS

Descripción

En este documento se resumen los conceptos y métodos para establecer conexiones a sistemas de origen en AWS, así como la importancia de la autenticación y la repetibilidad en estos procesos.

Contenido

1. Introducción

Para ingerir datos desde un sistema de origen, es fundamental establecer una conexión a la fuente de datos y verificar que se cuenta con los permisos necesarios para acceder a ella.

2. Métodos de Conexión

Existen varias formas de conectarse a bases de datos y otros recursos en AWS:

Método de Conexión	Descripción
Consola de AWS	Permite localizar la información de conexión (endpoint y puerto) de recursos como RDS. Es conveniente para tareas rápidas, pero no es repetible.
Interfaz de Línea de Comandos (CLI)	Permite ejecutar comandos directamente para obtener información de conexión y conectarse a la base de datos. Es más programático, pero sigue siendo manual.
SDK (Boto3)	Permite automatizar la conexión a sistemas fuente mediante código en un IDE o Jupyter Notebook. Mejora la repetibilidad y la automatización.
Conectores API	Utiliza JDBC o ODBC para conectar aplicaciones a un DBMS y realizar consultas.

3. Proceso de Conexión

Acceso a la Consola: Navegar a la consola de administración de AWS y localizar el recurso deseado.
Obtener Información de Conexión: Encontrar el endpoint y el número de puerto.
Autenticación: Usar credenciales (nombre de usuario y contraseña) para autenticar el acceso.
Conexión: Utilizar la sintaxis adecuada del sistema de gestión de bases de datos (DBMS) para conectarse.

4. Consideraciones

La consola de AWS puede cambiar su organización, lo que dificulta la repetibilidad de los pasos.
La CLI es útil para cargas de trabajo sencillas, pero puede ser manual.
Usar un SDK como Boto3 es recomendable para mejorar la automatización y la trazabilidad.

5. Recursos Adicionales

Se recomienda revisar materiales adicionales sobre los métodos de conexión mencionados. En el siguiente video se abordará la Gestión de Identidad y Acceso y los permisos necesarios para operar en AWS.

Conclusión

Establecer conexiones a sistemas de origen en AWS es un proceso que puede realizarse de diversas maneras, cada una con sus ventajas y desventajas. La elección del método dependerá de la necesidad de repetibilidad, automatización y la complejidad de la carga de trabajo.

Resumen sobre la Administración de Identidades y Accesos (IAM) en la Nube

Descripción

La administración de identidades y accesos (IAM) es un aspecto crucial para los ingenieros de datos que trabajan con canalizaciones de datos en la nube. Este documento resume los conceptos clave sobre IAM, su importancia en la seguridad de los datos y los componentes básicos que se utilizan en plataformas como AWS.

Importancia de IAM

Confianza en la Seguridad de los Datos: Los ingenieros de datos manejan información confidencial, como datos personales de clientes y secretos comerciales. La seguridad de estos datos es fundamental.
Errores Humanos: Más de la mitad de las filtraciones de datos en la nube se deben a errores humanos, como el almacenamiento inseguro de credenciales o configuraciones incorrectas de IAM.
Costos de Filtraciones: Las filtraciones de datos pueden resultar extremadamente costosas, tanto en términos financieros como de reputación.

Prácticas Recomendadas

Principio del Mínimo Privilegio: Conceder acceso solo a los recursos necesarios y durante el tiempo que sea necesario.
Configuraciones Seguras: Evitar almacenar datos sensibles en lugares públicos y proporcionar acceso innecesario a todos los miembros de la empresa.

Componentes de IAM en AWS

A continuación se presentan los componentes básicos de IAM en AWS:

Componente	Descripción
Usuario Raíz	Crea la cuenta en AWS y tiene acceso sin restricciones a todos los recursos.
Usuarios de IAM	Cuentan con permisos específicos para ciertos recursos.
Grupos de IAM	Conjuntos de usuarios a los que se les puede adjuntar políticas.
Políticas	Documentos JSON que definen los permisos y recursos que tienen los grupos o usuarios.
Roles de IAM	Permisos temporales asumidos por usuarios o aplicaciones para realizar acciones específicas.

Ejemplo de Políticas IAM

Una política de IAM puede permitir a un usuario acceder a recursos específicos. Por ejemplo: - Permitir acceso a cubos de S3 cuyo nombre comience con "ingeniería de datos de DLai". - Permitir acciones como enumerar o obtener objetos de esos cubos.

Conclusión

La administración de identidades y accesos es esencial para la seguridad de las canalizaciones de datos en la nube. Comprender los componentes de IAM y aplicar prácticas recomendadas puede ayudar a prevenir desastres de datos y proteger la información confidencial.

Recursos Adicionales

Materiales de lectura sobre IAM y sus componentes.
Videos adicionales sobre redes en la nube y su relación con IAM.

Este resumen proporciona una visión general de la importancia de IAM y sus componentes en la gestión segura de datos en la nube.

Resumen del Curso: Arquitectura de Canalizaciones de Datos en la Nube

Descripción

Este documento resume los conceptos clave sobre la creación de canalizaciones de datos en arquitecturas basadas en la nube, centrándose en la importancia de las redes y la infraestructura subyacente, especialmente en el contexto de AWS.

Conceptos Clave

Red de Recursos Conectados
Al crear una canalización de datos, se establece una red de recursos conectados.
La configuración de esta red es crucial para el flujo correcto de datos.
Principios Básicos de Redes
Las redes son conjuntos de dispositivos conectados que comparten datos.
Los principios de redes en la nube son similares entre los principales proveedores, como AWS.
Infraestructura de la Nube
La computación en la nube se basa en centros de datos físicos distribuidos globalmente.
AWS tiene una red global que se organiza en regiones y zonas de disponibilidad.

Estructura de AWS

Término	Descripción
Región	Área geográfica que contiene clústeres de zonas de disponibilidad.
Zona de Disponibilidad	Conjunto de uno o más centros de datos con redundancia en energía y conectividad.
VPC (Nube Privada Virtual)	Red personalizada dentro de una región que abarca varias zonas de disponibilidad.

Consideraciones al Crear Recursos en la Nube

Cumplimiento Legal: Almacenar datos en una región específica puede implicar cumplir con normativas de privacidad.
Latencia: La proximidad de los usuarios finales a la región de los recursos afecta la latencia.
Costo: Los precios de los recursos pueden variar entre regiones.

Configuración de Redes en la Nube

Subredes: Divisiones dentro de una VPC que permiten un control más detallado sobre el acceso a los recursos.
Reglas de Seguridad: Cada subred puede tener listas de control de acceso (ACL) y configuraciones de enrutamiento.
Tipos de Subredes:
Subredes Públicas: Para recursos accesibles desde Internet (ej. servidores web).
Subredes Privadas: Para recursos internos (ej. bases de datos).

Importancia de la Configuración de Red

La conexión a bases de datos y otros sistemas depende de múltiples capas de configuraciones de red y permisos de IAM.
Comprender la configuración de la red es esencial para la orquestación y automatización de canalizaciones de datos.

Próximos Pasos

Morgan explicará los detalles de las redes en AWS.
Se presentará un laboratorio donde se depurará la conexión a una base de datos.

Este resumen proporciona una visión general de los aspectos fundamentales de la creación de canalizaciones de datos en la nube, enfatizando la importancia de la infraestructura de red y las consideraciones necesarias para una implementación exitosa.

Creación de Redes en AWS para Ingenieros de Datos

Descripción

Este documento resume los conceptos básicos sobre la creación de redes en AWS, específicamente en el contexto de la implementación de sistemas de datos. Se abordarán elementos clave como las VPC (Virtual Private Clouds), subredes, puertas de enlace, tablas de rutas, listas de control de acceso y grupos de seguridad. Además, se presentará un escenario práctico para la implementación de una base de datos Amazon RDS y una instancia Amazon EC2.

Contenido

Conceptos Básicos

Amazon Virtual Private Cloud (VPC):
Permite crear una red virtual en la nube de AWS.
Abarca varias zonas de disponibilidad (AZ) en una región.
Subredes:
Divisiones más pequeñas del espacio IP privado de la VPC.
Se utilizan para agrupar recursos según requisitos de seguridad y acceso.
Puertas de Enlace:
Facilitan la comunicación entre la VPC y el mundo exterior (Internet).
Tablas de Rutas:
Controlan el tráfico de red dentro de la VPC.
Listas de Control de Acceso (ACL):
Definen qué tráfico puede entrar y salir de las subredes.
Grupos de Seguridad:
Actúan como un firewall virtual para controlar el tráfico hacia y desde las instancias.

Escenario Práctico

Diagrama de Red

+---------------------+
|        VPC          |
| 10.0.0.0/16        |
|                     |
|  +---------------+  |
|  | Subred Pública|  |
|  | 10.0.1.0/24   |  |
|  +---------------+  |
|                     |
|  +---------------+  |
|  | Subred Privada|  |
|  | 10.0.2.0/24   |  |
|  +---------------+  |
|                     |
|  +---------------+  |
|  | Subred Pública|  |
|  | 10.0.3.0/24   |  |
|  +---------------+  |
|                     |
|  +---------------+  |
|  | Subred Privada|  |
|  | 10.0.4.0/24   |  |
|  +---------------+  |
+---------------------+

Pasos para la Creación de la VPC y Subredes

Crear una VPC:
Asignar un nombre descriptivo.
Definir el rango de direcciones IP privadas (ej. 10.0.0.0/16).
Crear Subredes:
Crear al menos una subred pública y una privada por cada zona de disponibilidad.
Asignar rangos CIDR a las subredes:
- Subred Pública 1: 10.0.1.0/24
- Subred Privada 1: 10.0.2.0/24
- Subred Pública 2: 10.0.3.0/24
- Subred Privada 2: 10.0.4.0/24

Notación CIDR

CIDR (Classless Inter-Domain Routing):
Define el rango de direcciones IP.
Ejemplo: 10.0.0.0/16 significa que los primeros 16 bits son fijos para la red, y los 16 bits restantes se utilizan para las direcciones de host.

Consideraciones Finales

La VPC y las subredes creadas no tendrán acceso a Internet de forma predeterminada.
Se deben implementar recursos adicionales para habilitar la conectividad a Internet, como puertas de enlace NAT y tablas de rutas.

Próximos Pasos

En los siguientes videos, se explorará cómo implementar instancias EC2 y RDS en las subredes privadas y cómo configurar la conectividad a Internet.

Este documento proporciona una base sólida para entender la creación de redes en AWS y su aplicación en la ingeniería de datos.

Conectividad a Internet en una VPC de AWS

Descripción

En este documento se resumen los conceptos y pasos necesarios para habilitar la conectividad a Internet en una VPC (Virtual Private Cloud) de AWS, utilizando puertas de enlace de Internet y puertas de enlace NAT. Se explican las consideraciones sobre la ubicación de los recursos y la importancia de la seguridad en la configuración de la red.

Contenido

1. Introducción

Al crear una VPC, se pueden establecer subredes públicas y privadas. Sin embargo, por defecto, estas subredes no tienen conectividad a Internet. Para permitir el acceso a Internet, es necesario implementar puertas de enlace de Internet y NAT.

2. Consideraciones sobre la conectividad

Instancia EC2 y RDS: Se recomienda que tanto la instancia EC2 como la base de datos RDS se encuentren en subredes privadas.
Actualizaciones y solicitudes:
Las instancias EC2 necesitan descargar actualizaciones de Internet.
Se requiere un método para que los usuarios externos envíen solicitudes a la aplicación en la instancia EC2.

3. Puerta de enlace de Internet

Función: Permite que los recursos en subredes públicas se conecten a Internet, gestionando el tráfico entrante y saliente.
Analogía: Se puede comparar con una casa sin puerta; para permitir el acceso al exterior, se necesita instalar una puerta.

4. Puerta de enlace NAT

Definición: NAT (Network Address Translation) permite que los recursos en subredes privadas se conecten a Internet, evitando que Internet inicie conexiones con esos recursos.
Beneficio: Permite que las instancias EC2 en subredes privadas descarguen actualizaciones sin estar expuestas a Internet.

5. Balanceador de carga de aplicaciones (ALB)

Función: Distribuye el tráfico de aplicaciones entrante entre varias instancias EC2, actuando como punto de entrada para los usuarios externos.
Privacidad: Permite mantener la privacidad de las instancias EC2 al no exponerlas directamente a Internet.

6. Pasos para la implementación

Paso	Descripción
1	Crear una puerta de enlace de Internet y conectarla a la VPC.
2	Crear puertas de enlace NAT en cada subred pública.
3	Configurar las tablas de rutas para permitir el tráfico adecuado.
4	Definir reglas de seguridad para proteger la VPC.

7. Creación de la puerta de enlace de Internet

Acceder a la consola de administración de AWS.
Buscar "VPC" en la barra de búsqueda.
Seleccionar "Puertas de enlace a Internet" en el panel de navegación.
Hacer clic en "Crear puerta de enlace de Internet".
Asignar un nombre y crear la puerta de enlace.
Conectar la puerta de enlace a la VPC seleccionando "Adjuntar puerta de enlace a Internet".

8. Creación de puertas de enlace NAT

Desde el panel de navegación, seleccionar "Puertas de enlace NAT".
Hacer clic en "Crear puerta de enlace NAT".
Asignar un nombre y seleccionar la subred pública correspondiente.
Configurar una dirección IP elástica.
Repetir el proceso para crear una segunda puerta de enlace NAT en la otra subred pública.

9. Conclusión

Al finalizar estos pasos, se habrá configurado una VPC con conectividad segura a Internet y un control de acceso sólido. En los siguientes videos, se abordarán los detalles de la configuración de las tablas de rutas y las reglas de seguridad.

Este documento proporciona una guía clara sobre cómo habilitar la conectividad a Internet en una VPC de AWS, asegurando que se sigan las mejores prácticas de seguridad y configuración.

Configuración de Tablas de Rutas en AWS

Descripción

En este documento se resumen los pasos necesarios para configurar las tablas de rutas en una VPC de AWS, permitiendo la conectividad a Internet para subredes públicas y privadas. Se explican los conceptos básicos de las tablas de rutas y se detallan los procedimientos para su creación y asociación.

Conceptos Clave

VPC (Virtual Private Cloud): Red virtual en AWS donde se pueden lanzar recursos.
Subredes: Divisiones dentro de una VPC que pueden ser públicas o privadas.
Puerta de enlace de Internet: Permite la comunicación entre instancias en la VPC y el Internet.
Puerta de enlace NAT: Permite que las instancias en subredes privadas accedan a Internet sin recibir tráfico entrante.

Tablas de Rutas

Las tablas de rutas son esenciales para dirigir el tráfico de red dentro de la VPC. Cada subred puede asociarse a una tabla de rutas que contiene reglas que determinan hacia dónde se dirige el tráfico.

Tabla de Rutas Predeterminada

AWS crea automáticamente una tabla de rutas predeterminada al crear una VPC.
Permite la comunicación interna dentro de la VPC, pero no incluye rutas para la conectividad a Internet.

Configuración de Tablas de Rutas

Subredes Públicas:
Configurar la tabla de rutas para dirigir todo el tráfico de Internet a la puerta de enlace de Internet.
Subredes Privadas:
Dirigir el tráfico con destino a Internet a la puerta de enlace NAT de la subred pública.

Procedimiento de Configuración

Creación de Tablas de Rutas

Nombre de la Tabla	Subred Asociada
public-route-table-1	public-subnet-1
public-route-table-2	public-subnet-2
private-route-table-1	private-subnet-1
private-route-table-2	private-subnet-2

Crear Tabla de Rutas:
Desde el panel de control de la VPC, seleccionar "Tablas de rutas" y luego "Crear tabla de rutas".
Asignar un nombre y asociar la tabla a la subred correspondiente.

Configuración de Rutas

Subredes Públicas

Agregar Ruta:
Destino: 0.0.0.0/0 (todas las direcciones IP).
Objetivo: Puerta de enlace de Internet.

Subredes Privadas

Agregar Ruta:
Destino: 0.0.0.0/0.
Objetivo: Puerta de enlace NAT.

Resumen de Rutas

Tipo de Subred	Destino	Objetivo
Pública	`0.0.0.0/0`	Puerta de enlace de Internet
Privada	`0.0.0.0/0`	Puerta de enlace NAT

Conclusión

Las tablas de rutas están configuradas para gestionar el tráfico interno y externo de manera efectiva. Las subredes públicas pueden comunicarse con Internet, mientras que las subredes privadas pueden establecer conexiones salientes de forma segura. En el siguiente video, se abordarán configuraciones adicionales de red, como grupos de seguridad y ACL de red, para mejorar la seguridad de la VPC.

Resumen del Curso: Configuración de Redes en AWS

Descripción

En este curso, se abordaron conceptos fundamentales sobre la configuración de redes en Amazon Web Services (AWS), centrándose en la gestión de tráfico, grupos de seguridad y listas de control de acceso (ACL) para garantizar la conectividad y seguridad de las instancias en una Virtual Private Cloud (VPC).

Contenidos Clave

1. Tablas de Enrutamiento

Las tablas de enrutamiento son esenciales para dirigir el tráfico hacia la VPC.
Se deben configurar correctamente para permitir el acceso a Internet y entre subredes.

2. Grupos de Seguridad

Actúan como firewalls virtuales a nivel de instancia.
Características:
Estado: Permiten el tráfico de retorno automáticamente si se permite el tráfico entrante.
Reglas de Entrada: Se deben definir para permitir el tráfico deseado.
Ejemplo de Configuración:
- Permitir tráfico HTTP (puerto 80) y HTTPS (puerto 443) desde Internet.
- Permitir tráfico TCP (puerto 3306) desde instancias EC2 hacia RDS.

3. Listas de Control de Acceso (ACL)

Proporcionan una capa adicional de seguridad a nivel de subred.
Características:
Sin Estado: Se deben definir reglas explícitas para el tráfico entrante y saliente.
Permiten un control más detallado del tráfico.
De forma predeterminada, permiten todo el tráfico, pero se pueden modificar.

4. Diagrama de Conectividad

Se debe tener en cuenta la ubicación de los grupos de seguridad y las ACL en la arquitectura de red.

5. Solución de Problemas de Conectividad

Verificar la configuración de la VPC y la puerta de enlace de Internet.
Comprobar las tablas de enrutamiento y sus asociaciones con las subredes.
Revisar los grupos de seguridad y las ACL para asegurar que permiten el tráfico necesario.
Confirmar que las instancias están asociadas a los grupos y subredes correctos.

Ejemplo de Configuración de Grupos de Seguridad

Nombre del Grupo de Seguridad	Tipo de Tráfico	Puerto	Fuente
Albsg	HTTP	80	0.0.0.0/0
Albsg	HTTPS	443	0.0.0.0/0
RDS-SG	TCP	3306	Grupo EC2-SG

Conclusión

Este curso proporciona una base sólida para la gestión de redes en AWS, enfatizando la importancia de la configuración adecuada de las tablas de enrutamiento, grupos de seguridad y ACL. En el próximo laboratorio, se aplicarán estos conceptos para solucionar problemas de conectividad en bases de datos, utilizando los conocimientos adquiridos.

Este resumen en formato Markdown incluye los conceptos clave, ejemplos y una tabla para facilitar la comprensión de la configuración de redes en AWS.

Resumen del Laboratorio de Conexión a Base de Datos RDS desde EC2

Descripción

En este laboratorio, se aprenderá a conectarse a una base de datos RDS desde una instancia EC2, crear una tabla y cargar datos desde un archivo CSV almacenado en un bucket de S3. Se abordarán problemas comunes de conexión y permisos que pueden surgir durante el proceso.

Contenido del Laboratorio

Objetivos

Conectar a una base de datos RDS desde una instancia EC2.
Crear una tabla en la base de datos.
Cargar datos desde un archivo CSV en S3 a la tabla.

Pasos a Seguir

Conexión a la Base de Datos RDS
Acceder a la consola de AWS y buscar RDS.
Hacer clic en "Bases de datos" y anotar el punto final de la base de datos.
Conectarse a la instancia EC2 etiquetada como "bastion host".
Instalación de psql
Ejecutar el comando para instalar psql, la interfaz de línea de comandos para PostgreSQL.
Conectarse a la base de datos utilizando el punto final y las credenciales proporcionadas.
Solución de Problemas de Conexión
Verificar la configuración de red de la instancia EC2 y la base de datos RDS.
Asegurarse de que ambas instancias estén en la misma VPC.
Comprobar los grupos de seguridad y agregar reglas de entrada si es necesario.
Creación de la Tabla
Descargar el archivo SQL que contiene el esquema de la tabla.
Ejecutar el comando para crear la tabla en la base de datos.
Carga de Datos desde S3
Descargar el archivo CSV desde el bucket de S3.
Verificar y modificar los permisos del bucket para permitir la lectura desde la instancia EC2.
Ejecutar el script de Python para descargar el archivo CSV.
Copia de Datos a la Tabla
Utilizar el comando de copia para transferir los datos del archivo CSV a la tabla creada.
Ejecutar una sentencia SELECT para verificar que los datos se han cargado correctamente.

Problemas Comunes y Soluciones

Problema	Solución
Fallo en la conexión a la base de datos	Verificar que la instancia EC2 y la base de datos RDS estén en la misma VPC.
Problemas de permisos en S3	Modificar la política del bucket de S3 para permitir el acceso a la instancia EC2.
Error de autenticación	Asegurarse de que se está utilizando la contraseña correcta para la base de datos.

Consejos

Siempre verifica las configuraciones de red y permisos antes de intentar conectarte a recursos en AWS.
Utiliza las herramientas de la consola de AWS para diagnosticar problemas de conexión.
Mantén un registro de las credenciales y configuraciones utilizadas para evitar errores de autenticación.

Conclusión

Este laboratorio proporciona una experiencia práctica en la conexión a bases de datos y la manipulación de datos en AWS. Los problemas de conexión y permisos son comunes en el trabajo de un ingeniero de datos, y este ejercicio ayuda a desarrollar habilidades para resolverlos eficazmente.

Resumen del Curso sobre Sistemas de Origen, Ingestión y Canalizaciones de Datos

Descripción

Este documento resume los conceptos clave y las actividades de la primera semana del curso sobre sistemas de origen, ingesta y canalizaciones de datos. Se abordan los fundamentos de la ingeniería de datos, centrándose en la generación de datos y la conexión a sistemas de origen.

Contenidos Clave

Sistemas de Origen

Definición: Los sistemas de origen son aquellos donde se generan los datos que se utilizarán en el ciclo de vida de la ingeniería de datos.
Tipos Comunes:
Bases de Datos Relacionales: Almacenan datos en tablas y permiten consultas complejas.
Bases de Datos NoSQL: Diseñadas para manejar grandes volúmenes de datos no estructurados.
Almacenamiento de Objetos: Utilizado para almacenar archivos y datos no estructurados.
Sistemas de Registro y Transmisión de Eventos: Capturan y transmiten eventos en tiempo real.

Conexión a Fuentes de Datos

Arquitectura en la Nube: Se analizan las formas de conectarse a los sistemas de origen en un entorno basado en la nube.
Redes: Importancia de las redes para la conexión efectiva a los sistemas de origen.
IAM (Identity and Access Management): Garantiza la seguridad de los sistemas de origen y de la canalización de datos.

Problemas Comunes

Se discutieron problemas comunes que pueden surgir al trabajar con sistemas de origen.
Oportunidad de resolver problemas en un laboratorio práctico.

Próximos Pasos

La próxima semana se enfocará en la ingesta de datos desde los sistemas de origen.
Se explorarán:
Ingesta por Lotes: Procesamiento de datos en grupos.
Ingesta por Streaming: Procesamiento de datos en tiempo real.
Factores a considerar al diseñar la arquitectura de ingesta.

Conclusión

La primera semana del curso ha proporcionado una base sólida sobre los sistemas de origen y su importancia en la ingeniería de datos. Se espera que los participantes se sientan más cómodos y preparados para abordar la ingesta de datos en las próximas sesiones.