import pandas as pd
import geopandas as gpd
import os
import pyarrow
import psycopg2
from dotenv import load_dotenv
from sqlalchemy import create_engine, text, MetaData, Table, Column, Integer, Float, \
                       BigInteger, String, Date, Boolean, DateTime
import yaml
from data_generator.utils import load_configs

os.chdir('..')

os.getcwd()

'C:\\Users\\iaros\\My_documents\\Education\\projects\\fraud_detection_01'

load_dotenv()

db_user = os.getenv("DB_USER")
db_pass = os.getenv("DB_PASSWORD")
db_host = os.getenv("DB_HOST")
db_name = os.getenv("DB_NAME")

base_cfg = load_configs("./config/base.yaml")

# пустая postgresql БД предварительно создана

engine = create_engine(f'postgresql+psycopg2://{db_user}:{db_pass}@{db_host}:5433/{db_name}')

# записываем структуру БД в переменную

metadata = MetaData()

# подгружаем данные всех клиентов
data_paths = base_cfg["data_paths"]
path_to_clts = data_paths["clients"]["clients"]

clients = pd.read_parquet(path_to_clts)
clients.head(2)

clients_types = clients.dtypes
clients_types

client_id              int64
city_id                int64
birth_date    datetime64[ns]
sex                   object
region                object
city                  object
timezone              object
lat                  float64
lon                  float64
population             int64
home_ip               object
dtype: object

clients_types["birth_date"] = "date"
clients_types

client_id       int64
city_id         int64
birth_date       date
sex            object
region         object
city           object
timezone       object
lat           float64
lon           float64
population      int64
home_ip        object
dtype: object

def add_table_to_metadata(table_name: str, metadata, df_types: pd.Series):
    """
    Добавление объекта sqlalchemy.Table в объект sqlalchemy.MetaData.
    ------------------------
    table_name: str. Название SQL таблицы.
    metadata: sqlalchemy.MetaData.
    df_types: pd.Series. Типы данных в датафрейме, предназначенном для выгрузки в таблицу.
              Можно передать измененную серию с типами в виде строк. Значения в серии 
              будут маппиться со значениями типов sqlalchemy.
              Принимаемые лейблы типов можно узнать из ключей словаря:
              {'int64':Integer, 'BigInt': BigInteger, 'float64': Float, 'object': String,
              'datetime64[ns]': Date}
            Значения индекса серии будут использованы как навзания колонок в SQL таблице.
    """
    if not isinstance(df_types, pd.Series):
        raise TypeError(f'df_types must be pd.Series object, but got {type(df_types)}')
        
    # маппинг для pandas типов и sqlalchemy типов
    # BigInt это кастомное значение для случаев очень больших целых чисел.
    # если нужен BigInt, то тогда нужно в df_types передать серию где будет значение BigInt для соответсвующей колонки
    
    types_mapping = {'int64':Integer, 'BigInt':BigInteger, 'float64':Float, 'object':String, 'datetime64[ns]':DateTime, \
                     'date':Date, 'bool':Boolean}

    # создание генератора на основании типов в датафрейме и типов sqlalchemy
    # затем добавление таблицы в metadata
    return Table(table_name, metadata, *[Column(col_name, types_mapping[str(dtype)]) \
                                         for col_name, dtype in df_types.items()])

clients_tab = add_table_to_metadata(table_name='clients', metadata=metadata, df_types=clients_types)

# Создаем таблицу clients в нашей БД
clients_tab.create(engine)

# функция добавления данных из датафрейма в имеющиюся таблицу SQL

def append_df_to_sql(df, table_name, engine, if_exists='append', index=False, \
                     chunksize: int | None=None):
    """
    df: pd.DataFrame. Данные для загрузки.
    table_name: str. Название таблицы в БД.
    engine: sqlalchemy.engine.base.Engine.
    if_exists: str. Аргумент pd.DataFrame.to_sql(). По умолчанию 'append'.
    index: bool. Аргумент pd.DataFrame.to_sql(). По умолчанию False.
    """
    if not isinstance(table_name, str):
        raise TypeError(f'table_name must be a string, but got {type(table_name)}')
        
    df.to_sql(table_name, engine, if_exists=if_exists, index=index, chunksize=chunksize)

# добавляем данные из датафрейма в таблицу accounts

append_df_to_sql(df=clients, table_name="clients", engine=engine)

# функция сверки количества строк в датафрейме и строк добавленных в БД
def count_rows(engine, table_name: str, df: pd.DataFrame | None=None):

    # проверка типа для table_name
    if not isinstance(table_name, str):
        raise TypeError(f'table_name must be a string, but got {type(table_name)}')
        
    with engine.connect() as con:
        query = con.execute(text(f'SELECT COUNT(*) FROM {table_name}'))
        row_count = query.scalar() # результат запроса в виде числа
    
    if df is not None:
        df_rows = df.shape[0]
        if df_rows != row_count:
            raise ValueError(f'''Dataframe row count is not equal to SQL table row count!
Dataframe: {df_rows}
SQL table: {row_count}''')
        else:
            print(f'Dataframe and SQL table row counts are equal.\n{row_count} rows')
    else:
        print(f'{row_count} rows in the SQL table')
        return row_count

# сверяем количество строк в датафрейме и в БД

count_rows(engine=engine, table_name="clients", df=clients)

Dataframe and SQL table row counts are equal.
5369 rows

txns_path = data_paths["generated"]["all_txns"]
all_txns = pd.read_parquet(txns_path)
all_txns.head(2)

txns_dtypes = all_txns.dtypes
txns_dtypes

client_id                 int64
txn_time         datetime64[ns]
unix_time                 int64
amount                  float64
type                     object
channel                  object
category                 object
online                     bool
merchant_id             float64
trans_city               object
trans_lat               float64
trans_lon               float64
trans_ip                 object
device_id               float64
account                 float64
is_fraud                   bool
is_suspicious              bool
status                   object
rule                     object
dtype: object

txns_dtypes["unix_time"] = "BigInt"

txns_table = add_table_to_metadata(table_name='txns', metadata=metadata, df_types=txns_dtypes)

txns_table.create(engine)

append_df_to_sql(df=all_txns, table_name="txns", engine=engine)

# сверяем размеры датафрейма и БД таблицы

count_rows(engine, 'txns', all_txns)

Dataframe and SQL table row counts are equal.
19982 rows

acc_path = data_paths["generated"]["accounts"]
accounts = pd.read_csv(acc_path)
accounts.head(2)

acc_dtypes = accounts.dtypes
acc_dtypes

client_id     int64
account_id    int64
is_drop        bool
dtype: object

accounts_tab = add_table_to_metadata(table_name="accounts", metadata=metadata, df_types=acc_dtypes)

accounts_tab.create(engine)

# заполняем таблицу accounts

append_df_to_sql(df=accounts, table_name="accounts", engine=engine)

# сверяем количество строк

count_rows(engine, 'accounts', accounts)

Dataframe and SQL table row counts are equal.
5369 rows

cities_path = data_paths["base"]["cities"]
cities = gpd.read_file(cities_path)
cities.drop(columns="geometry", inplace=True) # это геополигоны городов. Они не нужны в БД.
cities.head()

cities_dtypes = cities.dtypes
cities_dtypes

region         object
city           object
timezone       object
lat           float64
lon           float64
population      int64
city_id         int64
clients         int64
dtype: object

# создаем таблицу в БД

cities_tab = add_table_to_metadata(table_name='cities', metadata=metadata, \
                                   df_types=cities_dtypes)

cities_tab.create(engine)

# заполняем таблицу

append_df_to_sql(df=cities, table_name="cities", engine=engine)

# проверяем целостность
count_rows(engine, 'cities', cities)

Dataframe and SQL table row counts are equal.
77 rows

clnt_dev_path = data_paths["base"]["client_devices"]
client_devices = pd.read_csv(clnt_dev_path)
client_devices.head(2)

cl_dev_dtypes = client_devices.dtypes
cl_dev_dtypes

client_id     int64
platform     object
device_id     int64
dtype: object

cl_dev_tab = add_table_to_metadata(table_name='client_devices', metadata=metadata, \
                                   df_types=cl_dev_dtypes)

cl_dev_tab.create(engine)

append_df_to_sql(df=client_devices, table_name="client_devices", engine=engine)

count_rows(engine, 'client_devices', client_devices)

Dataframe and SQL table row counts are equal.
9718 rows

off_mer_path = data_paths["base"]["offline_merchants"]
offline_merchants = pd.read_parquet(off_mer_path)
offline_merchants.head()

off_mer_dtypes = offline_merchants.dtypes
off_mer_dtypes

city             object
city_id           int64
category         object
merchant_id     float64
merchant_lat    float64
merchant_lon    float64
dtype: object

merchants_table = add_table_to_metadata(table_name='offline_merchants', metadata=metadata, \
                                        df_types=off_mer_dtypes)

merchants_table.create(engine)

append_df_to_sql(df=offline_merchants, table_name="offline_merchants", engine=engine)

count_rows(engine, 'offline_merchants', offline_merchants)

Dataframe and SQL table row counts are equal.
6776 rows

fr_dev_path = data_paths["base_fraud"]["fraud_devices"]
fraud_devices = pd.read_csv(fr_dev_path)
fraud_devices.head()

fr_dev_dtypes = fraud_devices.dtypes
fr_dev_dtypes

device_id     int64
platform     object
dtype: object

fr_dev_table = add_table_to_metadata(table_name='fraud_devices', metadata=metadata, \
                                     df_types=fr_dev_dtypes)

fr_dev_table.create(engine)

append_df_to_sql(df=fraud_devices, table_name="fraud_devices", engine=engine)

count_rows(engine, 'fraud_devices', fraud_devices)

Dataframe and SQL table row counts are equal.
5500 rows

fr_ip_path = data_paths["base_fraud"]["fraud_ips"]
fraud_ips = pd.read_parquet(fr_ip_path)
fraud_ips.head(2)

fr_ip_dtypes = fraud_ips.dtypes
fr_ip_dtypes

city         object
lat         float64
lon         float64
fraud_ip     object
dtype: object

fr_ip_table = add_table_to_metadata(table_name='fraud_ips', metadata=metadata, \
                                    df_types=fr_ip_dtypes)

fr_ip_table.create(engine)

append_df_to_sql(df=fraud_ips, table_name="fraud_ips", engine=engine)

count_rows(engine, 'fraud_ips', fraud_ips)

Dataframe and SQL table row counts are equal.
7700 rows

rules_path = data_paths["base_fraud"]["rules"]
rules = pd.read_csv(rules_path)
rules

rules_dtypes = rules.dtypes
rules_dtypes

rule       object
weight    float64
online       bool
dtype: object

rules_table = add_table_to_metadata(table_name='rules', metadata=metadata, \
                                    df_types=rules_dtypes)

append_df_to_sql(df=rules, table_name="rules", engine=engine)

count_rows(engine, 'rules', rules)

Dataframe and SQL table row counts are equal.
5 rows

# Создадим единую devices таблицу т.к. во фроде участвуют как клиенты банка с устройствами из client_devices
# так и сторонние лица с устройствами из fraud_devices.
# Потом заджоиним devices ко всем транзакциям по device_id и c условием что транзакция - фрод
# Затем посчитаем кол-во девайсов во фроде по платформам. И дальше вычислим процент платфромы во фрод
# транзакциях
plat_query = """
            WITH devices AS (SELECT platform, device_id
            				FROM
            				client_devices
            				UNION
            				SELECT platform, device_id
            				FROM
            				fraud_devices),
			
            platforms AS (SELECT platform, COUNT(t.device_id) AS devices
                            FROM txns as t
                            JOIN devices as d
                            ON t.device_id = d.device_id AND t.is_fraud = true
                            GROUP BY platform)

            SELECT platform,
                   ROUND(100 * devices / (SELECT SUM(devices) FROM platforms), 2) AS percentage
            FROM platforms
            """

with engine.connect() as con:
    rs = con.execute(text(plat_query))
    plat_stats = pd.DataFrame(rs.fetchall())

plat_stats

	client_id	birth_date	sex	region	city	lat	lon	city_id	home_ip
0	1	1995-12-07	female	Рязанская	Рязань	54.625457	39.735999	18	2.60.0.1
1	2	1970-01-29	male	Москва	Москва	55.753879	37.620373	1	2.60.0.2

	client_id	txn_time	unix_time	amount	type	channel	category	online	merchant_id	trans_city	trans_lat	trans_lon	trans_ip	device_id	account	is_fraud	is_suspicious	status	rule
0	3937	2025-01-01 00:02:00	1735689720	1878.0	purchase	POS	grocery_pos	False	989.0	Пермь	58.045040	56.170369	not applicable	NaN	NaN	False	False	approved	not applicable
1	4275	2025-01-01 00:27:00	1735691220	1000.0	purchase	POS	gas_transport	False	727.0	Тамбов	52.715932	41.465163	not applicable	NaN	NaN	False	False	approved	not applicable

	region	city	timezone	lat	lon	population	city_id	clients
0	Москва	Москва	UTC+3	55.753879	37.620373	11514330	1	663
1	Санкт-Петербург	Санкт-Петербург	UTC+3	59.939125	30.315822	4848742	74	180
2	Новосибирская	Новосибирск	UTC+7	55.028102	82.921058	1498921	70	169
3	Свердловская	Екатеринбург	UTC+5	56.838633	60.605489	1377738	54	155
4	Нижегородская	Нижний Новгород	UTC+3	56.324209	44.005395	1250615	64	109

	city	city_id	category	merchant_id	merchant_lat	merchant_lon
0	Москва	1	gas_transport	1.0	55.711178	37.863932
1	Москва	1	grocery_pos	2.0	55.896746	37.370257
2	Москва	1	home	3.0	55.797594	37.382283
3	Москва	1	shopping_pos	4.0	55.723753	37.654267
4	Москва	1	kids_pets	5.0	55.907808	37.542508

	device_id	platform
0	9719	Android
1	9720	iOS
2	9721	Windows
3	9722	Windows
4	9723	Android

Загрузка сгенерированных транзакций и других данных в SQL БД¶

Создание engine для подключения к БД¶

Создание и заполнение таблицы `clients`¶

Создание и заполнение таблицы `txns`¶

Создание и заполнение таблицы `accounts`¶

Создание и заполнение таблицы `cities`¶

Создание и заполнение таблицы `client_devices`¶

Создание и заполнение таблицы `offline_merchants`¶

Создание и заполнение таблицы `fraud_devices`¶

Создание и наполнение таблицы `fraud_ips`¶

Создание и наполнение таблицы `rules`¶

Демонстрационные запросы к наполненной БД¶

Посчитаем процент платформ устройств с которых был совершен фрод¶

	rule	weight	online
0	fast_geo_change	0.12500	False
1	fast_geo_change_online	0.21875	True
2	new_ip_and_device_high_amount	0.25000	True
3	new_device_and_high_amount	0.18750	True
4	trans_freq_increase	0.21875	True

	platform	percentage
0	macOS	5.90
1	Windows	58.03
2	Android	30.82
3	iOS	3.28
4	Linux	1.97

Загрузка сгенерированных транзакций и других данных в SQL БД¶

Создание engine для подключения к БД¶

Создание и заполнение таблицы clients¶

Создание и заполнение таблицы txns¶

Создание и заполнение таблицы accounts¶

Создание и заполнение таблицы cities¶

Создание и заполнение таблицы client_devices¶

Создание и заполнение таблицы offline_merchants¶

Создание и заполнение таблицы fraud_devices¶

Создание и наполнение таблицы fraud_ips¶

Создание и наполнение таблицы rules¶

Демонстрационные запросы к наполненной БД¶

Посчитаем процент платформ устройств с которых был совершен фрод¶

Создание и заполнение таблицы `clients`¶

Создание и заполнение таблицы `txns`¶

Создание и заполнение таблицы `accounts`¶

Создание и заполнение таблицы `cities`¶

Создание и заполнение таблицы `client_devices`¶

Создание и заполнение таблицы `offline_merchants`¶

Создание и заполнение таблицы `fraud_devices`¶

Создание и наполнение таблицы `fraud_ips`¶

Создание и наполнение таблицы `rules`¶