Neatsight calcule la distance médiatique entre les instances de la plateforme UADIA — utilisateurs, contenus, streams — en appliquant des métriques mathématiques de similarité sur leurs données publiques et privées validées. Le résultat est une cartographie des influences et des proximités éditoriales.
SMC (Simple Matching Coefficient) : contrairement à Jaccard, les co-absences de features comptent comme similarité. Utile si l'absence d'une activité est significative (ex : deux comptes sans stream sont-ils proches ?)
Hamming : compare bit à bit après binarisation des 6 features. Le seuil de binarisation est ajustable — il définit à partir de quel niveau une feature est "active".
Tversky : asymétrique, généralise Jaccard et Dice. Utile pour des recherches directionnelles (prototype → variantes) via α et β.
Objectif : Identifier les groupes d'instances partageant les mêmes thématiques de contenu.
Objectif : Trouver les pairs d'un influenceur — mêmes métriques d'engagement, même audience.
Objectif : Détecter les instances qui publient en même temps — co-activité ou réaction en chaîne.
Objectif : Mesurer si le réseau est homogène (bulle de filtre) ou diversifié.
Objectif : Identifier les partenaires potentiels proches d'un profil cible.
Moyenne des similarités de tous les liens actifs (au-dessus du seuil). Reflète la densité sémantique du réseau sélectionné.
Nombre de communautés d'influence distinctes identifiées par analyse des composantes connexes. Un cluster = un groupe d'instances plus proches entre elles qu'avec le reste du réseau.
Ratio liens actifs / liens possibles (n×(n-1)/2). Une densité de 10% sur 80 nœuds est normale — au-delà, le réseau est sur-connecté et le seuil devrait être relevé.
| Paramètre | Plage | Définition | Impact |
|---|---|---|---|
| Seuil de similarité | [0.00 – 1.00] | Valeur minimale de sim(A,B) pour qu'un lien soit tracé entre deux nœuds. En dessous, la paire est ignorée. | Bas → réseau dense · Haut → liens forts seulement |
| Nb. instances max | [10 – 200] | Nombre maximum de nœuds chargés dans le graphe. Limite le volume de calcul O(n²) des paires de similarité. | ≤ 50 → rapide · > 100 → calcul intensif |
| Profondeur temporelle | [7 – 365 j] | Fenêtre de temps maximale en jours. Les instances sans activité dans cette fenêtre sont exclues du calcul temporel. | Court → actifs récents · Long → historique étendu |
| Distance méd. moyenne | [0.000 – 1.000] | Score de cohésion global = moyenne arithmétique de toutes les valeurs sim(A,B) des liens actifs. Reflète l'homogénéité du réseau. | 0.7+ bulle · 0.3–0.7 équilibré · <0.3 fragmenté |
| Clusters d'influence | ℕ ≥ 1 | Nombre de communautés distinctes identifiées par analyse des composantes connexes du graphe de similarité filtré par le seuil. | 1 → masse unique · N → N niches distinctes |
| Densité des relations | [0.0% – 100%] | Ratio liens actifs / liens possibles = |E| / (n×(n−1)/2). Mesure le degré de connexion global du réseau. | <5% sparse · 10–30% modéré · >50% sur-connecté |
| Score d'influence | [0 – 100] | Score relatif normalisé d'un nœud = somme pondérée de ses liens sortants (×1) et entrants (×0.6), ramenée à 100 pour le nœud de tête. | 100 → nœud le plus central du réseau calculé |
| λ — Demie-vie temp. | [1 – 365 j] | Constante de décroissance de la similarité temporelle. À t=λ : sim = e⁻¹ ≈ 0.368. À t=2λ : sim ≈ 0.135. | Court → synchronies récentes · Long → cycles longs |
| Symbole | Nom | Domaine | Définition dans Neatsight |
|---|---|---|---|
| sim(A,B) ∈ [0,1] | Similarité normalisée | Général | Score de proximité entre deux instances. 1 = identiques, 0 = disjoints. |
| cos(θ) | Cosinus de l'angle | Algèbre linéaire | Angle entre vecteurs de features normalisés min-max. θ=0 → profils proportionnels. |
| r ∈ [−1,1] | Corrélation de Pearson | Statistique | Co-variation linéaire pondérée, normalisée en (r+1)/2 pour obtenir ∈ [0,1]. |
| J(A,B) ∈ [0,1] | Indice de Jaccard | Théorie des ensembles | |A∩B| / |A∪B|. Ratio intersection / union de tags actifs. |
| DSC ∈ [0,1] | Sørensen–Dice (F1) | Théorie des ensembles | 2|A∩B| / (|A|+|B|). Pénalise moins les petits ensembles que Jaccard. |
| OC ∈ [0,1] | Coefficient d'Overlap | Théorie des ensembles | |A∩B| / min(|A|,|B|). Mesure l'inclusion — 1 si le plus petit ensemble est contenu dans le plus grand. |
| T(A,B;α,β) | Indice de Tversky | Psychologie cognitive | |A∩B| / (|A∩B| + α|A\B| + β|B\A|). α=β=1 → Jaccard · α=β=0.5 → Dice. |
| SMC ∈ [0,1] | Simple Matching Coeff. | Statistique binaire | (f₁₁+f₀₀)/n. Contrairement à Jaccard, les co-absences comptent comme similarité. |
| d_H ∈ ℕ | Distance de Hamming | Théorie de l'information | Nombre de positions différentes entre deux vecteurs binaires. sim = 1 − d_H/n. |
| eng(u) | Taux d'engagement | Analytics social | (αL·likes + αC·comments) / (followers+1). Normalisé pour comparer des audiences de tailles différentes. |
| wᵢ ∈ [0,1] | Poids feature Pearson | Statistique pondérée | Importance relative de chaque feature : posts, followers, likes, comments, streams, score. |
| e^(−|Δt|/λ) | Décroissance expon. | Physique / Temporel | Fonction de similarité temporelle. Δt = écart en jours entre dernières activités. λ = demie-vie. |
| H ∈ [0,1] | Score hybride | Data fusion | wP·r + wJ·J + wT·T, avec wP+wJ+wT = 1. Combinaison multi-critères normalisée. |
Les méthodes implémentées dans Neatsight s'appuient sur des travaux académiques dont les auteurs ont formulé les mesures de similarité utilisées. Chaque entrée précise le contexte de recherche original et son application dans l'outil.