import pandas as pd
import numpy as np
import os
import pyarrow
import yaml
from data_generator.utils import load_configs

np.set_printoptions(suppress=True)
pd.set_option('display.max_columns', None)

os.chdir("..")
os.getcwd()

'C:\\Users\\iaros\\My_documents\\Education\\projects\\fraud_detection_01'

# Базовые конфиги
base_cfg = load_configs("./config/base.yaml")

# Фрод конфиги
fraud_cfg = load_configs("./config/fraud.yaml")

# Пути к файлам
data_paths = base_cfg["data_paths"]

category_stats = pd.read_csv(data_paths["base"]["category_stats"])
fraud_kaggle = pd.read_csv("data/raw/fraudTest.csv.zip", compression="zip")
clients = pd.read_parquet(data_paths["clients"]["clients"])

# добавим колонку онлайн или не онлайн категория со значениями True и False соответсвенно

category_stats.loc[category_stats.category.str.contains("net"), "online"] = True
category_stats.loc[~category_stats.category.str.contains("net"), "online"] = False
category_stats.head(6)

# добавим долю категории, ее "вес" среди категорий - для определения распростаненности категории

category_stats["share"] = category_stats.cat_count.div(category_stats.cat_count.sum())
category_stats.head()

category_stats_final = category_stats.copy()

# умножим средние суммы транзакций по категориям и стандартное отклонение сумм на 15, для приближенности к ценам в рублях

category_stats_final[["avg_amt","amt_std"]] = category_stats_final[["avg_amt","amt_std"]] * 15
category_stats_final

# Найдем количество фрода по категориям из датасета kaggle. Для определения вероятности фрода при генерации транзакций

fraud_trans_count_by_cat = fraud_kaggle.query("is_fraud == 1") \
                                        .groupby("category", as_index=False).agg({"trans_num":"count"}) \
                                        .rename(columns={"trans_num":"fraud_count"})
fraud_trans_count_by_cat.head()

cat_stats_full = category_stats_final.merge(fraud_trans_count_by_cat, on="category")
cat_stats_full.head(3)

# доля фрода в категории

cat_stats_full["fraud_share"] = cat_stats_full.fraud_count.div(cat_stats_full.cat_count)
cat_stats_full.head()

# Добавим критерий возможности круглосуточной покупки в категории

cat_stats_full["round_clock"] = False

round_clock = ['gas_transport', 'grocery_pos','shopping_net', 'food_dining', 'misc_pos', 'misc_net', 'grocery_net']

for category in round_clock:
    cat_stats_full.loc[cat_stats_full.category == category, "round_clock"] = True
cat_stats_full

cat_stats_full.to_csv(data_paths["base"]["cat_stats_full"], index=False)

# вручную зададим веса правил детекта фрода - по каким правилам чаще будут генерироваться фрод/подозрительные транзакции
# воспользуюсь шкалой от 1 до 10

rule_names_and_weights = {"fast_geo_change":4, "fast_geo_change_online":7, \
                          "new_ip_and_device_high_amount":8, \
                          "new_device_and_high_amount":6, \
                          "trans_freq_increase":7}

# создадим пустой датафрейм для правил
rules_df = pd.DataFrame({"rule":pd.Series(dtype="str"),
             "weight":pd.Series(dtype="int")})
rules_df

# данные словаря запишем в датафрейм

for index, key in enumerate(rule_names_and_weights.keys()):
    rules_df.loc[index, "rule"] = key
    rules_df.loc[index, "weight"] = rule_names_and_weights[key]

# нормализуем веса - сделаем их долями от суммы всех весов

rules_df["weight"] = rules_df.weight.div(rules_df.weight.sum())
rules_df

# Флаг онлайн/оффлайн для правил
# Пока что только одно правило относится к оффлайну - fast_geo_change

rules_df["online"] = True
rules_df.loc[rules_df.rule == "fast_geo_change", "online"] = False
rules_df

rules_df.to_csv(data_paths["base_fraud"]["rules"], index=False)

cat_fraud_amts = cat_stats_full[['category', 'avg_amt', 'amt_std']].copy()

# конфиги для сумм compromised client фрода
compr_f_amt_cfg = fraud_cfg["purchase"]["amount"]

# Категории где более вероятна очень высокая сумма при мошенничестве
extreme_amt = compr_f_amt_cfg["extreme"]["categories"]

cat_fraud_amts["extreme"] = False
cat_fraud_amts.loc[cat_fraud_amts.category.isin(extreme_amt), "extreme"] = True
cat_fraud_amts.head()

# Назначение минимальной, максимальной, средней и отклонения суммы для фрода по критерию extreme
# extreme - категории где возможны очень высокие суммы
# other - остальные категории 

cat_fraud_amts["fraud_low"] = compr_f_amt_cfg["other"]["low"]
cat_fraud_amts["fraud_high"] = compr_f_amt_cfg["other"]["high"]
cat_fraud_amts["fraud_mean"] = compr_f_amt_cfg["other"]["mean"]
cat_fraud_amts["fraud_std"] = compr_f_amt_cfg["other"]["std"]

cat_fraud_amts.loc[cat_fraud_amts.extreme == True, "fraud_low"] = compr_f_amt_cfg["extreme"]["low"]
cat_fraud_amts.loc[cat_fraud_amts.extreme == True, "fraud_high"] = compr_f_amt_cfg["extreme"]["high"]
cat_fraud_amts.loc[cat_fraud_amts.extreme == True, "fraud_mean"] = compr_f_amt_cfg["extreme"]["mean"]
cat_fraud_amts.loc[cat_fraud_amts.extreme == True, "fraud_std"] = compr_f_amt_cfg["extreme"]["std"]
cat_fraud_amts.drop(columns=["avg_amt", "amt_std"], inplace=True)
cat_fraud_amts.head()

cat_fraud_amts.to_csv(data_paths["base_fraud"]["cat_fraud_amts"], index=False)

cat_stats_full = pd.read_csv(data_paths["base"]["cat_stats_full"])

drop_purch_cats = cat_stats_full.query("online == True and category != 'grocery_net'")[["category"]] \
                                .reset_index(drop=True).copy()

drop_purch_cats["weight"] = [0.75, 0.25]
assert drop_purch_cats.weight.sum() == 1
drop_purch_cats

drop_purch_cats.to_csv(data_paths["base_fraud"]["drop_purch_cats"], index=False)

accounts = clients[["client_id"]].copy()

accounts["account_id"] = 1

accounts.loc[0, "account_id"] = 10000

accounts.head()

# Кумулятивно складываем числа в серии. Получается в каждой записи будет результат сложения текущего и всех предыдущих чисел
# Т.е. 10000, 10000 + 1, 10001 + 1 и т.д. Так будут счета с номерами от 10000 до 10000 + n-1 клиентов

accounts["account_id"] = accounts["account_id"].cumsum()
accounts.head()

accounts.agg({"account_id":["min","max"]})

assert accounts.shape[0] == accounts.account_id.nunique(), "Values in account_id are not unique!"

accounts.shape[0]

5369

# Колонка is_drop. Дроп клиент или нет. Пока нет дропов.
# Они будут обозначаться непосредственно во время генерации активности дропов

accounts["is_drop"] = False
accounts.head()

# Пусть будет 10000 счетов

start_id = accounts.account_id.max() + 1
outer_accounts = pd.Series(data=np.arange(start_id, start_id + 10000, step=1), name="account_id", dtype="int")

outer_accounts.iloc[np.r_[0:3,-3:0]]

0       15369
1       15370
2       15371
9997    25366
9998    25367
9999    25368
Name: account_id, dtype: int64

# Не должно быть пересечений по account_id
assert accounts.merge(outer_accounts, on="account_id").empty, "Clients account ids are in the outer account ids"

accounts.to_csv(data_paths["base"]["accounts_default"], index=False)

outer_accounts.to_csv(data_paths["base"]["outer_accounts"], index=False)

	category	avg_amt	amt_std	cat_count	online
0	gas_transport	63.577001	15.828399	56370	False
1	grocery_pos	115.885327	51.552330	52553	False
2	home	57.995413	48.085281	52345	False
3	shopping_pos	76.862457	232.484678	49791	False
4	kids_pets	57.506913	48.748482	48692	False
5	shopping_net	83.481653	237.219758	41779	True

	category	avg_amt	amt_std	cat_count	online	share
0	gas_transport	63.577001	15.828399	56370	False	0.101436
1	grocery_pos	115.885327	51.552330	52553	False	0.094568
2	home	57.995413	48.085281	52345	False	0.094193
3	shopping_pos	76.862457	232.484678	49791	False	0.089597
4	kids_pets	57.506913	48.748482	48692	False	0.087620

	category	avg_amt	amt_std	cat_count	online	share
0	gas_transport	953.655019	237.425981	56370	False	0.101436
1	grocery_pos	1738.279905	773.284951	52553	False	0.094568
2	home	869.931194	721.279215	52345	False	0.094193
3	shopping_pos	1152.936859	3487.270165	49791	False	0.089597
4	kids_pets	862.603690	731.227232	48692	False	0.087620
5	shopping_net	1252.224798	3558.296372	41779	True	0.075180
6	entertainment	959.772599	963.449020	40104	False	0.072166
7	personal_care	723.495309	741.164119	39327	False	0.070768
8	food_dining	761.669074	726.735802	39268	False	0.070662
9	health_fitness	808.011475	719.478766	36674	False	0.065994
10	misc_pos	932.733689	2009.808415	34574	False	0.062215
11	misc_net	1179.003552	2454.586333	27367	True	0.049246
12	grocery_net	805.975010	343.626548	19426	True	0.034957
13	travel	1685.845238	8939.194422	17449	False	0.031399

	category	avg_amt	amt_std	cat_count	online	share	fraud_count
0	gas_transport	953.655019	237.425981	56370	False	0.101436	154
1	grocery_pos	1738.279905	773.284951	52553	False	0.094568	485
2	home	869.931194	721.279215	52345	False	0.094193	67

	category	avg_amt	amt_std	cat_count	online	share	fraud_count	fraud_share
0	gas_transport	953.655019	237.425981	56370	False	0.101436	154	0.002732
1	grocery_pos	1738.279905	773.284951	52553	False	0.094568	485	0.009229
2	home	869.931194	721.279215	52345	False	0.094193	67	0.001280
3	shopping_pos	1152.936859	3487.270165	49791	False	0.089597	213	0.004278
4	kids_pets	862.603690	731.227232	48692	False	0.087620	65	0.001335

Создание дополнительных данных для генерации транзакций¶

Создание признаков для категорий покупок¶

Сохранение `cat_stats_full` в csv¶

Правила для compromised client фрода¶

Выгрузка правил в csv¶

Распределение сумм для категорий, для compromised client фрода¶

Категории и их данные для purchase дроп фрода¶

Генерация счетов клиентов и внешних счетов¶

1. Счета клиентов¶

2. Внешние счета¶

Сохранение счетов в файлы¶

	rule	weight
0	fast_geo_change	0.12500
1	fast_geo_change_online	0.21875
2	new_ip_and_device_high_amount	0.25000
3	new_device_and_high_amount	0.18750
4	trans_freq_increase	0.21875

	category	extreme	fraud_low	fraud_high	fraud_mean	fraud_std
0	gas_transport	False	500	8000	4000	1000
1	grocery_pos	False	500	8000	4000	1000
2	home	False	500	8000	4000	1000
3	shopping_pos	True	1000	60000	20000	20000
4	kids_pets	False	500	8000	4000	1000

	client_id	account_id	is_drop
0	1	10000	False
1	2	10001	False
2	3	10002	False
3	4	10003	False
4	5	10004	False

	account_id
min	10000
max	15368

Создание дополнительных данных для генерации транзакций¶

Создание признаков для категорий покупок¶

Сохранение cat_stats_full в csv¶

Правила для compromised client фрода¶

Выгрузка правил в csv¶

Распределение сумм для категорий, для compromised client фрода¶

Категории и их данные для purchase дроп фрода¶

Генерация счетов клиентов и внешних счетов¶

1. Счета клиентов¶

2. Внешние счета¶

Сохранение счетов в файлы¶

Сохранение `cat_stats_full` в csv¶