The Wayback Machine - https://web.archive.org/web/20230614235039/https://github.com/topics/dataquality

#

dataquality

Here are 59 public repositories matching this topic...

great-expectations / great_expectations

Always know what to expect from your data.

Updated Jun 14, 2023
Python

awslabs / deequ

Deequ is a library built on top of Apache Spark for defining "unit tests for data", which measure data quality in large datasets.

unit-testing scala spark dataquality

Updated Jun 12, 2023
Scala

OpenMetadata

open-metadata / OpenMetadata

Open Standard for Metadata. A Single place to Discover, Collaborate and Get your data right.

metadata data-science automation bigdata datascience data-catalog data-discovery metadata-api dbt governance data-profiling metadata-management dataengineering dataquality data-quality-monitoring bigdataanalytics data-observability datadiscovery

Updated Jun 14, 2023
TypeScript

datafold / data-diff

Compare tables within or across databases

mysql python postgres data-science sql database postgresql snowflake data-engineering rdbms dbt oracle-database data-quality dataengineering trino dataquality data-quality-monitoring databricks-sql

Updated Jun 14, 2023
Python

re-data / re-data

re_data - fix data issues before your users & CEO would discover them 😊

data-analysis dbt data-quality-checks data-quality dataquality open-source-tooling data-monitoring data-quality-monitoring data-testing dbt-packages data-observability data-reliability

Updated Jun 3, 2023
HTML

soda-core

sodadata / soda-core

⚡ Data quality testing for the modern data stack (SQL, Spark, and Pandas) https://www.soda.io

Updated Jun 14, 2023
Python

zingg

zinggAI / zingg

Scalable identity resolution, entity resolution, data mastering and deduplication using ML

Updated Jun 14, 2023
Java

chaos_genius

chaos-genius / chaos_genius

ML powered analytics engine for outlier detection and root cause analysis.

Updated Jun 9, 2023
Python

datacleaner / DataCleaner

The premier open source Data Quality solution

data-science data database etl desktop data-analysis mdm profiling datacleaner dataquality

Updated Aug 9, 2022
Java

IBM / lale

Library for Semi-Automated Data Science

python data-science machine-learning scikit-learn artificial-intelligence interoperability hyperparameter-optimization hyperparameter-tuning ibm-research automl automated-machine-learning dataquality hyperparameter-search ibm-research-ai pipeline-tests pipeline-testing

Updated Jun 8, 2023
Python

mapbox / osmcha-frontend

Frontend for the osmcha-django REST API

qa openstreetmap osm osmcha dataquality

Updated Jun 1, 2023
JavaScript

AutoViML / pandas_dq

Find data quality issues and clean your data in a single line of code with a Scikit-Learn compatible Transformer.

python data-science data machine-learning scikit-learn pandas dataquality dataqualitycheck

Updated Jun 4, 2023
Python

schic / DQCS

数据质量控制系统

data database etl dataquality

Updated Sep 29, 2021
Java

canimus / cuallee

A data quality acceleration library to get data sets verified in a friendly interface

unit-testing bigdata pandas python3 performance-metrics pyspark dataquality snowpark datachecker pydeequ

Updated Jun 11, 2023
Python

amora-data-build-tool

mundipagg / amora-data-build-tool

Amora Data Build Tool enables analysts and engineers to transform data on the data warehouse (BigQuery) by writing Amora Models that describe the data schema using Python's "PEP484 - Type Hints" and select statements with SQLAlchemy. Amora is able to transform Python code into SQL data transformation jobs that run inside the warehouse.

python bigquery machine-learning analytics data-engineering business-intelligence elt transformation data-modeling analytics-dashboard dataquality datacleaning analytics-engineering

Updated Jun 12, 2023
Python

qizhixinhit / Dirty-dataImpacts

Codes&Datasets

data-science dataquality

Updated Jun 27, 2021
C++

bikash / DataQuality

Tutorial and examples of Data Quality in Big Data System

big-data data-quality dataquality

Updated Apr 25, 2017

HuemulSolutions / huemul-bigdatagovernance

Huemul BigDataGovernance, es una framework que trabaja sobre Spark, Hive y HDFS. Permite la implementación de una estrategia corporativa de dato único, basada en buenas prácticas de Gobierno de Datos. Permite implementar tablas con control de Primary Key y Foreing Key al insertar y actualizar datos utilizando la librería, Validación de nulos, la…

Updated Apr 21, 2023
Scala

openclients

Data-Culpa / openclients

Open source clients for working with Data Culpa Validator services from data pipelines

data dataops dataquality datamonitoring datamonitor dataculpa

Updated May 3, 2022
Python

rodrigobaron / qafs

Quality Aware Feature Store

feature-engineering dataquality feature-store

Updated May 4, 2022
Python

Improve this page

Add a description, image, and links to the dataquality topic page so that developers can more easily learn about it.

Curate this topic

Add this topic to your repo

To associate your repository with the dataquality topic, visit your repo's landing page and select "manage topics."