%pip install relationalai

import relationalai as rai
from relationalai.std.graphs import Graph
from relationalai.std import alias
from relationalai.std import aggregates
import colorsys
import math

model = rai.Model("MyJaccardSimilarity")

# Model will hold these types:

# Represent nodes we will be comparing to each other
Person = model.Type("Person")

# Represent the nodes Person nodes are connected to, which we will use to compare
Language = model.Type("Language")

# Represent pairs of Person nodes and how similar they are
Similarity = model.Type("Similarity")

data = {
    "Sarah": ["Python", "Java", "Javascript"],
    "Alex": ["Python", "Julia", "C"],
    "Michael": ["Java", "C++", "R", "Javascript"],
    "Emily": ["Python", "Java", "Javascript", "CSS"],
    "Max": ["Javascript", "HTML", "CSS"],
}

with model.rule(dynamic = True):
    for person_name, languages in data.items():
        # Create a Person object
        person = Person.add(name = person_name)
        for lang in languages:
            language = Language.add(name = lang)
            # Connect the Person object to the Language object
            person.knows.add(language)

# Create graph
graph = Graph(model, undirected = True)
Node, Edge = graph.Node, graph.Edge

# add all Person and Language instances as Nodes
Node.extend(Person)
Node.extend(Language)

# The `knows` property is used to create edges between people and languages
Edge.extend(Person.knows)

# Compute Jaccard similarity between `Person` nodes based on connections to `Language` nodes
with model.rule():
    p1 = Person()
    p2 = Person()
    p1 < p2
    similarity_score = graph.compute.jaccard_similarity(p1, p2)
    Similarity.add(person1 = p1, person2 = p2).set(score = similarity_score)

similarity_graph = Graph(model, undirected = True)

# Add all Person and Language instances as Nodes and assign `name` and `node_type` properties (for displaying)
similarity_graph.Node.extend(Person, name = Person.name, node_type = "person")
similarity_graph.Node.extend(Language, name = Language.name, node_type = "language")

similarity_graph.Edge.extend(Person.knows)

# Add Similarity instances as Edges and assign `similarity` property
with model.rule():
    s = Similarity()
    similarity_graph.Edge.add(s.person1, s.person2, similarity = s.score)

def get_gradient_color(value):
    rgb = colorsys.hsv_to_rgb(1, value, 1)
    return '#{:02x}{:02x}{:02x}'.format(int(rgb[0] * 255), int(rgb[1] * 255), int(rgb[2] * 255))

similarity_graph.visualize(three = False, node_size_factor = 3, style = {
    "node": {
        "color": lambda n: {"person": "blue", "language": "pink"}.get(n["node_type"]),
        "label": lambda n: n["name"],
    },
    "edge": {
        "color": lambda e: get_gradient_color(e['similarity']) if e.get('similarity') else "green",
        "hover": lambda e: e.get("similarity"),
        "size": lambda e: math.exp(3*e.get('similarity', 0)),
    }
}).display(inline = True)

with model.query() as select:
    p1 = Person()
    p2 = Person()
    e = similarity_graph.Edge(p1, p2)
    response = select(alias(p1.name, 'person 1'), alias(p2.name, 'person 2'), alias(e.similarity, 'similarity'))

response

with model.query() as select:
    s = Similarity()
    aggregates.rank_desc(s.score) == 1
    response = select(alias(s.person1.name, 'person 1'), alias(s.person2.name, 'person 2'), s.score)

response

Jaccard Similarity

Let's add some data to our model

Creating the graph

Running the algorithm

Visualizing the results

Querying the Graph

Let's find out who are the two people most similar in their languages interest

person 1	person 2	similarity
Emily	Alex	0.166667
Emily	Michael	0.333333
Emily	Sarah	0.750000
Max	Emily	0.400000
Max	Michael	0.166667
Max	Sarah	0.200000
Sarah	Alex	0.200000
Sarah	Michael	0.400000