data_location = "./dev"
date = datetime.date(2024, 2, 20)

def load_feature_view_for_date(
    feature_view_name: str,
    date: datetime.date,
    data_location: str,
) -> pd.DataFrame:
    file_name = f"{data_location}/feature/{feature_view_name}/{date:%Y-%m-%d}.pq"
    return pd.read_parquet(file_name)

prediction_requests = load_feature_view_for_date(
    "prediction_requests",
    date,
    data_location,
)
traffic_condition = load_feature_view_for_date(
    "traffic_condition",
    date,
    data_location,
)
taxi_availability = load_feature_view_for_date(
    "taxi_availability",
    date,
    data_location,
)

def join_features(
    predictions: pd.DataFrame, *feature_views: pd.DataFrame
) -> pd.DataFrame:
    results = predictions
    for feature_view in feature_views:
        results = pd.merge_asof(
            results,
            feature_view,
            on="timestamp",
            by="location",
        )
    return results


join_features(prediction_requests, traffic_condition, taxi_availability)

weather = load_feature_view_for_date("weather", date, data_location)

def calculate_brand_new_features(
    weather: pd.DataFrame,
    taxi_availability: pd.DataFrame,
) -> pd.DataFrame:
    return pd.merge_asof(
        taxi_availability,
        weather,
        on="timestamp",
        by="location",
    ).assign(
        actual_convertible=lambda x: x["convertible"].where(
            x["weather"] != "rain",
            0.0,
        )
    )[
        ["timestamp", "location", "actual_convertible"]
    ]


brand_new_features = calculate_brand_new_features(weather, taxi_availability)

join_features(
    prediction_requests,
    traffic_condition,
    taxi_availability,
    brand_new_features,
)

is_dev = os.environ["ENV"] == "dev"

if is_dev:
    weather = load_feature_view_for_date("weather", date, data_location)
    brand_new_features = calculate_brand_new_features(weather, taxi_availability)

# ... later
(
    join_features(
        prediction_requests,
        traffic_condition,
        taxi_availability,
        brand_new_features,
    )
    if is_dev
    else join_features(
        prediction_requests,
        traffic_condition,
        taxi_availability,
    )
)

import datetime

import pandas as pd

from util import load_feature_view_for_date


def prediction_requests(
    date: datetime.date,
    data_location: str,
) -> pd.DataFrame:
    return load_feature_view_for_date(
        "prediction_requests",
        date,
        data_location,
    )


def traffic_condition(date: datetime.date, data_location: str) -> pd.DataFrame:
    return load_feature_view_for_date("traffic_condition", date, data_location)


def taxi_availability(date: datetime.date, data_location: str) -> pd.DataFrame:
    return load_feature_view_for_date("taxi_availability", date, data_location)

import datetime

import pandas as pd

from util import load_feature_view_for_date


def prediction_requests(
    date: datetime.date,
    data_location: str,
) -> pd.DataFrame:
    return load_feature_view_for_date(
        "prediction_requests",
        date,
        data_location,
    )


def traffic_condition(date: datetime.date, data_location: str) -> pd.DataFrame:
    return load_feature_view_for_date("traffic_condition", date, data_location)


def taxi_availability(date: datetime.date, data_location: str) -> pd.DataFrame:
    return load_feature_view_for_date("taxi_availability", date, data_location)

import pandas as pd

from util import join_features


def all_features(
    prediction_requests: pd.DataFrame,
    traffic_condition: pd.DataFrame,
    taxi_availability: pd.DataFrame,
) -> pd.DataFrame:
    return join_features(
        prediction_requests,
        traffic_condition,
        taxi_availability,
    )

import pandas as pd

from util import join_features


def all_features(
    prediction_requests: pd.DataFrame,
    traffic_condition: pd.DataFrame,
    taxi_availability: pd.DataFrame,
) -> pd.DataFrame:
    return join_features(
        prediction_requests,
        traffic_condition,
        taxi_availability,
    )

import hamilton
from hamilton.driver import Builder
import combine_features, load_features

driver = (
    hamilton.driver.Builder()
    .with_modules(
        load_features,
        combine_features,
    )
    .build()
)

driver.execute(
    inputs={"date": date, "data_location": data_location},
    final_vars={"all_features"},
)["all_features"]

import datetime

import pandas as pd

from util import load_feature_view_for_date


def prediction_requests(
    date: datetime.date,
    data_location: str,
) -> pd.DataFrame:
    return load_feature_view_for_date(
        "prediction_requests",
        date,
        data_location,
    )


def traffic_condition(date: datetime.date, data_location: str) -> pd.DataFrame:
    return load_feature_view_for_date("traffic_condition", date, data_location)


def taxi_availability(date: datetime.date, data_location: str) -> pd.DataFrame:
    return load_feature_view_for_date("taxi_availability", date, data_location)

import datetime

import pandas as pd

from util import load_feature_view_for_date


def prediction_requests(
    date: datetime.date,
    data_location: str,
) -> pd.DataFrame:
    return load_feature_view_for_date(
        "prediction_requests",
        date,
        data_location,
    )


def traffic_condition(date: datetime.date, data_location: str) -> pd.DataFrame:
    return load_feature_view_for_date("traffic_condition", date, data_location)


def taxi_availability(date: datetime.date, data_location: str) -> pd.DataFrame:
    return load_feature_view_for_date("taxi_availability", date, data_location)

import datetime


import pandas as pd
from hamilton.function_modifiers import parameterize, value
from util import load_feature_view_for_date


@parameterize(
    prediction_requests={"feature_view_name": value("prediction_requests")},
    traffic_condition={"feature_view_name": value("traffic_condition")},
    taxi_availability={"feature_view_name": value("taxi_availability")},
    weather={"feature_view_name": value("weather")},
)
def parameterized_load_feature_view_for_date(
    feature_view_name: str,
    date: datetime.date,
    data_location: str,
) -> pd.DataFrame:
    return load_feature_view_for_date(feature_view_name, date, data_location)

import datetime


import pandas as pd
from hamilton.function_modifiers import parameterize, value
from util import load_feature_view_for_date


@parameterize(
    prediction_requests={"feature_view_name": value("prediction_requests")},
    traffic_condition={"feature_view_name": value("traffic_condition")},
    taxi_availability={"feature_view_name": value("taxi_availability")},
    weather={"feature_view_name": value("weather")},
)
def parameterized_load_feature_view_for_date(
    feature_view_name: str,
    date: datetime.date,
    data_location: str,
) -> pd.DataFrame:
    return load_feature_view_for_date(feature_view_name, date, data_location)

import hamilton
from hamilton.driver import Builder
import combine_features, load_features_2

driver = (
    hamilton.driver.Builder()
    .with_modules(
        load_features_2,
        combine_features,
    )
    .build()
)
driver.execute(
    inputs={"date": date, "data_location": data_location},
    final_vars={"all_features"},
)["all_features"]

import pandas as pd

from util import join_features


def all_features(
    prediction_requests: pd.DataFrame,
    traffic_condition: pd.DataFrame,
    taxi_availability: pd.DataFrame,
) -> pd.DataFrame:
    return join_features(
        prediction_requests,
        traffic_condition,
        taxi_availability,
    )

import pandas as pd

from util import join_features


def all_features(
    prediction_requests: pd.DataFrame,
    traffic_condition: pd.DataFrame,
    taxi_availability: pd.DataFrame,
) -> pd.DataFrame:
    return join_features(
        prediction_requests,
        traffic_condition,
        taxi_availability,
    )

import pandas as pd
from hamilton.function_modifiers import (
    ResolveAt,
    group,
    inject,
    resolve,
    source,
)

from util import join_features


@resolve(
    when=ResolveAt.CONFIG_AVAILABLE,
    decorate_with=lambda feature_views: inject(
        feature_views=group(
            **{feature_view: source(feature_view) for feature_view in feature_views}
        )
    ),
)
def all_features(
    prediction_requests: pd.DataFrame,
    feature_views: dict[str, pd.DataFrame],
) -> pd.DataFrame:
    return join_features(prediction_requests, *feature_views.values())

import pandas as pd
from hamilton.function_modifiers import (
    ResolveAt,
    group,
    inject,
    resolve,
    source,
)

from util import join_features


@resolve(
    when=ResolveAt.CONFIG_AVAILABLE,
    decorate_with=lambda feature_views: inject(
        feature_views=group(
            **{feature_view: source(feature_view) for feature_view in feature_views}
        )
    ),
)
def all_features(
    prediction_requests: pd.DataFrame,
    feature_views: dict[str, pd.DataFrame],
) -> pd.DataFrame:
    return join_features(prediction_requests, *feature_views.values())

import combine_features_2, load_features_2
from hamilton import settings

feature_views = ["traffic_condition", "taxi_availability"]

driver = (
    hamilton.driver.Builder()
    .with_modules(load_features_2, combine_features_2)
    .with_config(
        {"feature_views": feature_views, settings.ENABLE_POWER_USER_MODE: True}
    )
    .build()
)

import pandas as pd


def brand_new_features(
    weather: pd.DataFrame,
    taxi_availability: pd.DataFrame,
) -> pd.DataFrame:
    return pd.merge_asof(
        taxi_availability,
        weather,
        on="timestamp",
        by="location",
    ).assign(
        actual_convertible=lambda x: x["convertible"].where(x["weather"] == "rain", 0.0)
    )[
        ["timestamp", "location", "actual_convertible"]
    ]

import pandas as pd


def brand_new_features(
    weather: pd.DataFrame,
    taxi_availability: pd.DataFrame,
) -> pd.DataFrame:
    return pd.merge_asof(
        taxi_availability,
        weather,
        on="timestamp",
        by="location",
    ).assign(
        actual_convertible=lambda x: x["convertible"].where(x["weather"] == "rain", 0.0)
    )[
        ["timestamp", "location", "actual_convertible"]
    ]

import brand_new_features

feature_views = ["traffic_condition", "taxi_availability", "brand_new_features"]

driver = (
    hamilton.driver.Builder()
    .with_modules(
        load_features_2,
        combine_features_2,
        brand_new_features,
    )
    .with_config(
        {"feature_views": feature_views, settings.ENABLE_POWER_USER_MODE: True}
    )
    .build()
)

feature_views = ["traffic_condition", "taxi_availability"]

import datetime
import pandas as pd


def load_feature_view_for_date(
    feature_view_name: str,
    date: datetime.date,
    data_location: str,
) -> pd.DataFrame:
    file_name = f"{data_location}/feature/{feature_view_name}/{date:%Y-%m-%d}.pq"
    return pd.read_parquet(file_name)


def join_features(
    predictions: pd.DataFrame, *feature_views: pd.DataFrame
) -> pd.DataFrame:
    results = predictions
    for feature_view in feature_views:
        results = pd.merge_asof(
            results,
            feature_view,
            on="timestamp",
            by="location",
        )
    return results

import datetime
import pandas as pd


def load_feature_view_for_date(
    feature_view_name: str,
    date: datetime.date,
    data_location: str,
) -> pd.DataFrame:
    file_name = f"{data_location}/feature/{feature_view_name}/{date:%Y-%m-%d}.pq"
    return pd.read_parquet(file_name)


def join_features(
    predictions: pd.DataFrame, *feature_views: pd.DataFrame
) -> pd.DataFrame:
    results = predictions
    for feature_view in feature_views:
        results = pd.merge_asof(
            results,
            feature_view,
            on="timestamp",
            by="location",
        )
    return results

import datetime


import pandas as pd
from hamilton.function_modifiers import parameterize, value
from util import load_feature_view_for_date


@parameterize(
    prediction_requests={"feature_view_name": value("prediction_requests")},
    traffic_condition={"feature_view_name": value("traffic_condition")},
    taxi_availability={"feature_view_name": value("taxi_availability")},
    weather={"feature_view_name": value("weather")},
)
def parameterized_load_feature_view_for_date(
    feature_view_name: str,
    date: datetime.date,
    data_location: str,
) -> pd.DataFrame:
    return load_feature_view_for_date(feature_view_name, date, data_location)

import datetime


import pandas as pd
from hamilton.function_modifiers import parameterize, value
from util import load_feature_view_for_date


@parameterize(
    prediction_requests={"feature_view_name": value("prediction_requests")},
    traffic_condition={"feature_view_name": value("traffic_condition")},
    taxi_availability={"feature_view_name": value("taxi_availability")},
    weather={"feature_view_name": value("weather")},
)
def parameterized_load_feature_view_for_date(
    feature_view_name: str,
    date: datetime.date,
    data_location: str,
) -> pd.DataFrame:
    return load_feature_view_for_date(feature_view_name, date, data_location)

timestamp	location
2024-02-20 17:30:00+00:00	London
2024-02-20 17:45:00+00:00	San Francisco

timestamp	location	traffic
2024-02-20 16:00:00+00:00	London	BAD
2024-02-20 16:00:00+00:00	San Francisco	GOOD

timestamp	location	electric	self_driving	convertible
2024-02-20 17:00:00+00:00	London	1000	0	1000
2024-02-20 17:00:00+00:00	San Francisco	3000	3000	50

timestamp	location	traffic	electric	self_driving	convertible
2024-02-20 17:30:00+00:00	London	BAD	1000	0	1000
2024-02-20 17:45:00+00:00	San Francisco	GOOD	3000	3000	50

	timestamp	location	traffic	electric	self_driving	convertible
0	2024-02-20 17:30:00+00:00	London	BAD	1000	0	1000
1	2024-02-20 17:45:00+00:00	San Francisco	GOOD	3000	3000	50

Hamilton Global User Group February Meetup¶

How we migrated our features calculation to Hamilton¶

Outline¶

About Me¶

Machine learning & feature engineering¶

Key concepts¶

Prediction request¶

Features¶

Feature views¶

Feature "point-in-time" join¶

Simple feature calculation job¶

A bit of configuration first¶

Loading features¶

Putting features together¶

Adding a more complicated feature¶

But only in dev...¶

Limitations¶

Moving to Hamilton¶

Reorganizing our code¶

load_features.py¶

combine_features.py¶

Executing our DAG¶

Takeaway¶

Reuse a function with `parameterize`¶

Selecting inputs of a node based on configuration with `resolve`¶

Adding a new feature view easily¶

Our experience migrating to Hamilton¶

timestamp	location	weather
2024-02-20 12:00:00+00:00	London	rain
2024-02-20 12:00:00+00:00	San Francisco	fog

Hamilton Global User Group February Meetup¶

How we migrated our features calculation to Hamilton¶

Outline¶

About Me¶

Machine learning & feature engineering¶

Key concepts¶

Prediction request¶

Features¶

Feature views¶

Feature "point-in-time" join¶

Simple feature calculation job¶

A bit of configuration first¶

Loading features¶

Putting features together¶

Adding a more complicated feature¶

But only in dev...¶

Limitations¶

Moving to Hamilton¶

Reorganizing our code¶

load_features.py¶

combine_features.py¶

Executing our DAG¶

Takeaway¶

Reuse a function with parameterize¶

Selecting inputs of a node based on configuration with resolve¶

Adding a new feature view easily¶

Our experience migrating to Hamilton¶

Reuse a function with `parameterize`¶

Selecting inputs of a node based on configuration with `resolve`¶