Build software better, together

shenwanxiang / ChemBench

Star

MoleculeNet benchmark dataset & MolMapNet dataset

benchmark random robustness moleculenet data-splitting chemprop

Updated Mar 29, 2022
HTML

sharejing / Takin

Star

A Python toolkit for file processing, text cleaning and data splitting. 文件处理，文本清洗和数据划分的python工具包。

nlp text-cleaning file-processing data-splitting

Updated Oct 18, 2022
Python

Data-Splitter is a Python script designed to split a large CSV file containing data into three different formats: JSON, a database table, and another CSV file. The script ensures a random distribution of data across the three output formats based on custom-defined ratios.

sql-server python-script data-transformation data-engineering data-analysis data-integration data-manipulation database-connection data-conversion csv-processing json-processing numpy-library pandas-library csv-to-json data-splitting csv-to-database random-data-distributiony sqlalchemy-library data-distribution-strategies

Updated Jul 24, 2023
Jupyter Notebook

Nicolas-Bolouri / Cloud-Data-Protection-Analysis

Star

Comparative Analysis of Data Protection Mechanisms in Public Clouds

cryptography cloud-computing data-protection data-splitting

Updated Aug 29, 2023

Aravinda89 / split_train_eval_test

Star

splitting image dataset into train, val, test sets

data-splitting validation-set train-set test-set dataset-splitting

Updated Apr 23, 2023
Python

SahilSunda / ML_Project

Star

ML model for Crop Detection

machine-learning data-visualization data-extraction data-augmentation cnn-architecture vgg16-model data-splitting

Updated Dec 16, 2021
Python

Dimas263 / Preprocessing-Data-into-Train-Test-Val-Data

Star

Python Preprocessing for Sales Project Notebook

python data-mining exploratory-data-analysis jupyter-notebook data-visualization data-preprocessing data-processing data-cleansing data-splitting dimas263 dimas-dwi-putra dimas

Updated Jun 24, 2022
Jupyter Notebook

MadhuBala11 / DiabetesPrediction

Star

In this project, I have used logistic regression, a supervised machine learning algorithm, to predict whether a person has diabetes or not based on various features such as age, blood pressure, glucose level, body mass index, etc. I have used Python and popular libraries such as Pandas, Scikit-Learn, and Matplotlib to perfom model building

data-visualization logistic-regression data-exploration correlation-analysis datapreparation data-splitting additional-analysis-prediction

Updated Jan 26, 2024
Jupyter Notebook

katiebristol / data_splitter

Star

A basic Python script to split a .dat file into individual sample files.

python converter paleomagnetism data-converter data-splitting

Updated Apr 21, 2021
Python

aarryasutar / Credit_EDA

Star

This project focuses on cleaning and analyzing a loan application dataset to gain insights into the factors influencing loan defaults. Through systematic data cleaning, visualization, and merging with previous application data, it provides a robust foundation for further predictive modeling.

python numpy heatmap scikit-learn jupyter-notebook pandas seaborn matplotlib binning feature-engineering dataframe data-cleaning boxplot correlation-matrix data-splitting

Updated Jul 27, 2024
Jupyter Notebook

szcf-weiya / SplitClusterTest.jl

Sponsor

Star

Julia package for "FDR Control via Data Splitting for Testing-after-Clustering (arXiv: 2410.06451)"

fdr post-selection data-splitting

Updated Oct 30, 2024
Julia

krisssix / BankruptcyPrediction

Star

Predicting company bankruptcy using various machine learning models. The dataset is sourced from Kaggle: Company Bankruptcy Prediction.

Updated Aug 7, 2024
Python

JVTupinamba / Kennard-Stone-Mahalanobis

Star

As Tensorflow Kennard-Stone algorithmin uses euclidean distances, the need for an adaptation arrises when dealing with a big vector space that has unknown correlations between its variables, it may improve a lot neural networks performance.

mahalanobis-distance cov data-splitting

Updated Oct 12, 2021
Jupyter Notebook

yuerongz / DUPLEX-data-split-function

Star

Apply DUPLEX data split to the given dataset and return training and test datasets. REF: Snee, R. D. (1977). Validation of regression models: methods and examples. Technometrics, 19(4), 415-428.

data-split data-split-pytorch data-splitting

Updated Feb 10, 2020
Python

Lefteris-Souflas / Propensity-To-Lapse-Model-Building-Exercise

Star

Analyzed customer churn using transaction data. Built ML model to predict lapses. Dataset includes customer status, collection/redemption info, and program tenure. Delivered business presentation outlining modeling approach, findings, and churn reduction strategies.

neural-network random-forest logistic-regression support-vector-machine data-preprocessing feature-engineering decision-tree cluster-analysis gradient-boosting model-interpretation data-driven-decisions data-splitting model-optimization sas-visual-analytics model-selection-and-evaluation

Updated Apr 18, 2024

jesschannn / datasci_9_data_prep

Star

Focus on selecting datasets suitable for a machine learning experiment, with an emphasis on data cleaning, encoding, and transformation steps necessary to prepare the data.

logistic-regression data-cleaning pkl data-splitting ordinal-encoding

Updated Nov 23, 2023
Python

Lefteris-Souflas / Spark-Movies-Analytics

Star

Utilizing Apache Spark & PySpark to analyze a movie dataset. Tasks include data exploration, identifying top-rated movies, training a linear regression model, and experimenting with Airflow.

pipeline linear-regression cross-validation pyspark dag hyperparameter-tuning model-evaluation apache-airflow pyspark-mllib one-hot-encoding data-splitting pyspark-sql spark-session

Updated Apr 17, 2024
Jupyter Notebook

NabilahSharfina / Ruangguru-Bootcamp

Star

Final project program DBA mitra Ruangguru X Studi Independen Bersertifikat Kampus Merdeka batch 2

encoding numpy exploratory-data-analysis pandas seaborn forecasting outliers matplotlib multivariate-analysis categorical-data missing-values inner-join numerical-data univariate-analysis one-hot-encoding data-splitting handling-missing-value handling-outlier

Updated Jul 1, 2022
Jupyter Notebook

UERJ-LIVIA / Kennard-Stone-Mahalanobis

Star

As Tensorflow Kennard-Stone algorithmin uses euclidean distances, the need for an adaptation arrises when dealing with a big vector space that has unknown correlations between its variables, it may improve a lot neural networks performance.

mahalanobis-distance cov data-splitting

Updated Oct 12, 2021
Jupyter Notebook

MuhireIghor / health-pro-backend

Star

A sample model for predicting the systolic level of an individual by providing the age,cholesterol and blood pressure

machine-learning sklearn pandas python3 data-splitting

Updated Dec 7, 2023
JavaScript

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

data-splitting

Here are 22 public repositories matching this topic...

shenwanxiang / ChemBench

sharejing / Takin

omardbaa / Data-Splitter

Nicolas-Bolouri / Cloud-Data-Protection-Analysis

Aravinda89 / split_train_eval_test

SahilSunda / ML_Project

Dimas263 / Preprocessing-Data-into-Train-Test-Val-Data

MadhuBala11 / DiabetesPrediction

katiebristol / data_splitter

aarryasutar / Credit_EDA

szcf-weiya / SplitClusterTest.jl

krisssix / BankruptcyPrediction

JVTupinamba / Kennard-Stone-Mahalanobis

yuerongz / DUPLEX-data-split-function

Lefteris-Souflas / Propensity-To-Lapse-Model-Building-Exercise

jesschannn / datasci_9_data_prep

Lefteris-Souflas / Spark-Movies-Analytics

NabilahSharfina / Ruangguru-Bootcamp

UERJ-LIVIA / Kennard-Stone-Mahalanobis

MuhireIghor / health-pro-backend

Improve this page

Add this topic to your repo