Spark CSV Test

Adresse du fichier de données de test : https://storage.googleapis.com/ebap-data/technical-test/data-engineer/xag.csv

On dispose d'un fichier CSV, selon le modèle suivant: input.csv : userId,itemId,rating,timestamp

On souhaite construire 3 CSV de la façon suivante: aggratings.csv : userIdAsInteger,itemIdAsInteger,ratingSum lookupuser.csv : userId,userIdAsInteger lookup_product.csv : itemId,itemIdAsInteger

où: userId : identifiant unique d'un utilisateur (String) itemId : identifiant unique d'un produit (String) rating : score (Float) timestamp : timestamp unix, nombre de millisecondes écoulées depuis 1970-01-01 minuit GMT (Long/Int64) userIdAsInteger : identifiant unique d'un utilisateur (Int) itemIdAsInteger : identifiant unique d'un produit (Int) ratingSum : Somme des ratings pour le couple utilisateur/produit (Float)

Accessing the library

To start the App just run :

scala com.github.hosnimed.spark.App `input_file.csv` `output_folder`

or

>sbt run

input_file.csv : default to src/main/resources/xag.csv
output_folder : default to src/main/resources

Documentation

A link to the documentation

How to contribute

How others can contribute to the project

Name		Name	Last commit message	Last commit date
Latest commit History 7 Commits
project		project
src		src
.gitignore		.gitignore
README.md		README.md
build.sbt		build.sbt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Spark CSV Test

Accessing the library

Documentation

How to contribute

About

Releases

Packages

Languages

hosnimed/earlybirds-spark-csv-test

Folders and files

Latest commit

History

Repository files navigation

Spark CSV Test

Accessing the library

Documentation

How to contribute

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages