Blog de iNBest

Qué es data lake, para qué sirve y cómo funciona en AWS

Data lake te permite almacenar toda tu información estructurada y no estructurada de manera centralizada.

 

Además es posible ejecutar diferentes tipos de análisis de datos como consultas SQL, análisis de big data, búsqueda de texto completo, análisis en tiempo real y aprendizaje automático para toma de decisiones.

 

¿Para qué sirve un Data Lake?

 

Permite identificar y actuar ante oportunidades de crecimiento para los negocios más rápido gracias a que permite:

 

  • Atraer y retener clientes.
  • Impulsar la productividad.
  • Mantenimiento proactivo de dispositivos.
  • Hacer decisiones basadas en informes reales.

 

 Controles de seguridad en amazon web services

Diferencias entre Data Lake y Data warehouse

 

Un Data warehouse es una base de datos optimizada para analizar datos relacionales provenientes de sistemas transaccionales y aplicaciones de líneas de negocio. La estructura de los datos y esquema están definidos para incrementar la rapidez de bases SQL.

Lo que se traduce en mejor análisis y operaciones.

 DATA LAKE-1

Un Data Lake es diferente, ya que almacena datos relacionales de aplicaciones de negocio y datos no relacionales de aplicaciones moviles, dispositivos IoT y social media.  Su estructura no está aún definida cuando los datos son capturados, esto significa que es innecesario tener definido un diseño o preguntas que sean posibles de responder con la información.

 

Actualmente las empresas están migrando de Data warehouse a Data lake ya que ofrece la habilitación de diversos algortimos, uso de data science y nuevos modelos de información.

 

Characteristics

Data Warehouse

Data Lake

Data

Relational from transactional systems, operational databases, and line of business applications

Non-relational and relational from IoT devices, web sites, mobile apps, social media, and corporate applications

Schema

Designed prior to the DW implementation (schema-on-write)

Written at the time of analysis (schema-on-read)

Price/Performance

Fastest query results using higher cost storage

Query results getting faster using low-cost storage

Data Quality

Highly curated data that serves as the central version of the truth

Any data that may or may not be curated (ie. raw data)

Users

Business analysts

Data scientists, Data developers, and Business analysts (using curated data)

Analytics

Batch reporting, BI and visualizations

Machine Learning, Predictive analytics, data discovery and profiling

 

 

Herramientas de AWS para Data Lake

 

  • Storage en S3: Para crear la VPC donde vivirá el Data Lake
  • AWS Glue : Para catalogar los datos
  • Amazon Athena: Para peticiones de datos directo en S3
  • AWS Lambda: Para automatización de peticiones.
  • AWS Congnito: Para la creación de credenciales temporales.
  • AWS Kinesis: Para el procesamiento de datos en streaming
  • Amazon Elastic search: Para operar y escalar los consumos rápidamente.
  • AWS Redshift: Complemento data warehouse.
  • Amazon Quicksight: Para visualizar el análisis de datos.

 

Ejemplo de arquitectura:

 arquitectura de referencia

 

¿Qué es lo que debe permitir Data Lake?

 

  • Recopilación y almacenamiento de cualquier tipo de datos a cualquier escala y a bajo costo.
  • Proteger todos los datos con un repostitorio central.
  • Búsqueda de datos relevantes.
  • Modelos de gestión para gobernar los datos desde la ingesta, el almacenamiento, procesamiento y consumo.
  • Realizar nuevos tipos de análisis de manera expedita.
  • La integración de nuevas tecnologías incluyendo modelos de inteligencia artificial.

 

 solicita consultoría gratuita cloud computing

 

Alondra Castro
Escrito por Alondra Castro

Gerente de mercadotecnia, amante de las estrategias digitales, generación de contenido y tendencias.

Sobre este Blog

Nos encanta compartir el conocimiento, por lo que aquí encontrarás todo sobre Cloud computing, inteligencia artificial e innovación. ¡Suscríbete para disfrutar del mejor contenido!

Suscríbete a las actualizaciones por correo electrónico

Publicaciones destacadas

Publicaciones recientes

Nuevo llamado a la acción