Créez des relations plusieurs-à-un entre les colonnes d'une table synthétique avec les UDF PySpark | de Matt Collins

Tirez parti de quelques équations simples pour générer des colonnes associées dans des tableaux de test.

J'ai récemment joué avec Databricks Labs Data Generator pour créer des ensembles de données entièrement synthétiques à partir de zéro. Dans ce cadre, j'ai étudié la création de données de ventes autour de différents magasins, employés et clients. En tant que tel, je voulais créer des relations entre les colonnes que je remplissais artificiellement, comme par exemple mapper les employés et les clients à un certain magasin.

En utilisant les UDF PySpark et un peu de logique, nous pouvons générer des colonnes associées qui suivent une relation plusieurs-à-un. Avec un peu de magie, nous sommes même capables d'étendre la logique pour donner une certaine variation à ce mappage – comme un client qui achète généralement dans son magasin local mais parfois dans un magasin différent.

Remarque : Vous pouvez ignorer cette section si cela n'est pas nécessaire !

Tout d'abord, nous devons créer un DataFrame avec notre première colonne générée aléatoirement. Dans notre cas, nous allons commencer par le magasin, car logiquement nous aurons « de nombreux employés par magasin » et « de nombreux clients faisant leurs achats de manière répétée dans un magasin ».

Avec un modèle de données Star Schema à l'esprit, nous allons commencer par notre table de faits sur les ventes – une table transactionnelle qui contiendra les valeurs clés pour l'identifiant de vente, l'identifiant de magasin, l'identifiant d'employé et l'identifiant de client, le montant de la vente ainsi qu'une date/heure. données pour l'achat. Nous pouvons ensuite renseigner les détails du magasin, de l'employé et du client dans des tableaux de dimensions plus loin.

Nous allons commencer petit : une table avec 1 000 ventes fera l’affaire. Il faut maintenant décider comment répartir ces ventes entre les magasins, les collaborateurs et les clients. Proposons ce qui suit :

# Magasins = 20
# Employés = 100
# Clients = 700

On peut aussi dire que les ventes seront enregistrées au cours du mois dernier :

Date de première vente = 2023-11-01
Date de la dernière vente = 2023-11-30

L'ID de vente doit être une colonne unique afin que nous puissions générer une colonne Id pour cela. Il faut maintenant répartir les 1000 ventes dans les 20 magasins. Par souci de simplicité, nous supposerons que c'est aléatoire.

En utilisant Databricks Lab Generator, nous pouvons le faire avec le code suivant :