The Wayback Machine - https://web.archive.org/web/20200809162739/https://github.com/topics/data-lake

#

data-lake

Here are 90 public repositories matching this topic...

Teradata / kylo

Star

Kylo is a data lake management software platform and framework for enabling scalable enterprise-class data lakes on big data technologies such as Teradata, Apache Spark and/or Hadoop. Kylo is licensed under Apache 2.0. Contributed by Teradata Inc.

spark hadoop data-lake teradata nifi kylo

Updated Jul 1, 2020
Java

goodreads_etl_pipeline

san089 / goodreads_etl_pipeline

Star

An end-to-end GoodReads Data Pipeline for Building Data Lake, Data Warehouse and Analytics Platform.

Updated Mar 9, 2020
Python

uber / marmaray

Star

Generic Data Ingestion & Dispersal Library for Hadoop

spark hadoop data-lake avro-schema ingest-data schema-format

Updated Jan 31, 2020
Java

Udacity-Data-Engineering-Projects

san089 / Udacity-Data-Engineering-Projects

Star

Few projects related to Data Engineering including Data Modeling, Infrastructure setup on cloud, Data Warehousing and Data Lake development.

Updated Mar 5, 2020
Python

Azure / usql

Star

U-SQL Examples and Issue Tracking

big-data azure data-lake u-sql

Updated Nov 26, 2019
C#

kaiwaehner / hivemq-mqtt-tensorflow-kafka-realtime-iot-machine-learning-training-inference

Star

Real Time Big Data / IoT Machine Learning (Model Training and Inference) with HiveMQ (MQTT), TensorFlow IO and Apache Kafka - no additional data store like S3, HDFS or Spark required

Updated Apr 6, 2020
Jupyter Notebook

Azure / AzureDataLake

Star

Samples and Docs for Azure Data Lake Store and Analytics

big-data azure data-lake

Updated Aug 1, 2020

amazon-s3-find-and-forget

awslabs / amazon-s3-find-and-forget

Star

Amazon S3 Find and Forget is a solution to handle data erasure requests from data lakes stored on Amazon S3, for example, pursuant to the European General Data Protection Regulation (GDPR)

aws big-data s3 data-lake parquet gdpr right-to-be-forgotten amazon-s3 data-erasure ccpa

Updated Aug 8, 2020
Python

datamindedbe / lighthouse

Star

Lighthouse is a library for data lakes built on top of Apache Spark. It provides high-level APIs in Scala to streamline data pipelines and apply best practices.

Updated Aug 4, 2020
Scala

aws-samples / aws-dbs-refarch-datalake

Star

Reference Architectures for Datalakes on AWS

glue amazon-emr data-transformation data-lake data-catalog data-analytics hive-metastore emr-cluster ingest-data

Updated May 13, 2020
HTML

zeebe-io / zeeqs

Star

Query API for aggregated Zeebe data

graphql data-lake zeebe

Updated Aug 7, 2020
Kotlin

LearningJournal / SparkProgrammingInScala

Star

Apache Spark Course Material

scala big-data spark apache-spark bigdata data-lake datalake spark-sql spark-scala

Updated Jul 26, 2020
Scala

aws-samples / analyzing-reddit-sentiment-with-aws

Star

Learn how to use Kinesis Firehose, AWS Glue, S3, and Amazon Athena by streaming and analyzing reddit comments in realtime. 100-200 level tutorial.

real-time reddit sentiment-analysis data-stream tutorials data-lake kinesis-firehose self-learning sentiment-classification amazon-athena aws-glue delivery-stream

Updated Jun 26, 2020
Python

rayyan17 / jobAnalytics_and_search

Star

JobAnalytics system consumes data from multiple sources and provides valuable information to both job hunters and recruiters.

python aws airflow sql spark analytics s3 jobs pyspark data-engineering data-lake redshift jobseeker jobsearch data-modeling data-pipeline jobscheduler

Updated Jul 27, 2020
Python

data-mill-cloud / data-mill

Star

A K8s-based infrastructure for analytics

infrastructure data-science machine-learning streaming spark analytics data-lake k8s lambda-architecture data-mill

Updated Jan 15, 2020
Shell

Jayvardhan-Reddy / Azure-Certification-DP-200

Star

Road to Azure Data Engineer Part-I: DP-200 - Implementing an Azure Data Solution

azure data-storage resources data-engineering data-lake azure-storage batch-processing data-engineer azure-data-factory microsoft-azure azure-portal azure-cosmos-db azure-services polybase certification-prep azure-databricks exam-prep azure-certification dp-200 sql-dw

Updated Aug 5, 2020

ec-europa / eubfr-data-lake

Star

EU Budget for Results - Data Lake

Updated Dec 2, 2019
JavaScript

FINRAOS / herd-mdl

Star

Herd-MDL, a turnkey managed data lake in the cloud. See https://finraos.github.io/herd-mdl/ for more information.

data-lake data-catalog mdl

Updated Jul 1, 2020
Java

datarootsio / terraform-module-azure-datalake

Star

Terraform module for an Azure Data Lake

azure terraform data-lake

Updated Aug 6, 2020
HCL

smart-data-lake / smart-data-lake

Star

Framework to quickly build and maintain Smart Data Lakes

scala spark hive hadoop transform-data data-lake data-pipelines comprehensive deltalake smart-data-lake

Updated Aug 7, 2020
Scala

nosinovacao / logstash-output-adls

Star

Logstash output plugin for Azure Data Lake Store (ADLS)

logstash azure data-lake webhdfs adl

Updated Sep 15, 2017
Ruby

ExpediaGroup / hiveberg

Star

Demonstration of a Hive Input Format for Iceberg

hive data-lake iceberg

Updated Jun 17, 2020
Java

yahwang / Awesome-Data-Engineering

Star

📒(GitBook) A curated list of awesome Data Engineering resources

data-engineering data-lake data-pipeline

Updated Aug 6, 2020

IBM-Cloud / nodejs-data-lake-dashboard

Star

Sample and tutorial that creates interactive dashboards using: Dynamic Dashboard Embedded, Cloud Object Storage, SQL Query, DB2 Warehouse and AppID.

cloud tutorial data-lake db2 ibm-cloud db2-warehouse

Updated Jul 20, 2020
TypeScript

jnorthrup / columnar

Star

An idiomatic kotlin dataframe toolkit for data engineering tasks of any size dataset

Updated Jul 30, 2020
Kotlin

alanchn31 / Data-Engineering-Projects

Star

Personal Data Engineering Projects

postgres airflow spark cassandra mongodb data-warehouse data-engineering data-lake scrapy data-modeling aws-redshift star-schema ingest-data data-engineering-nanodegree

Updated Jun 3, 2020
Jupyter Notebook

LearningJournal / Spark-Streaming-In-Python

Star

Apache Spark 3 - Structured Streaming Course Material

python big-data apache-spark bigdata pyspark data-lake spark-streaming spark-sql

Updated Aug 5, 2020
Python

codewell / data-kale

Star

The Simple Data Lake - Data Kale

python data data-lake

Updated Apr 17, 2020
Python

jkoth / Data-Lake-with-Spark-and-AWS-S3

Star

Create Data Lake on AWS S3 to store dimensional tables after processing data using Spark on AWS EMR cluster

apache-spark aws-s3 aws-emr pyspark data-engineering data-lake json-format udacity-nanodegree spark-dataframes dimensional-model star-schema etl-pipeline

Updated Oct 10, 2019
Python

YuanMaSa / aws-well-architected-framework

Star

Prominent data platform design with AWS well-architected framework

aws tutorial cloudformation lab data-lake architected-framework

Updated Dec 20, 2019
Python

Improve this page

Add a description, image, and links to the data-lake topic page so that developers can more easily learn about it.

Curate this topic

Add this topic to your repo

To associate your repository with the data-lake topic, visit your repo's landing page and select "manage topics."

You can’t perform that action at this time.