Neatsight — Distance Médiatique

Guide Neatsight Protocoles de mesure · Distance médiatique UADIA

Qu'est-ce que Neatsight ?

Neatsight calcule la distance médiatique entre les instances de la plateforme UADIA — utilisateurs, contenus, streams — en appliquant des métriques mathématiques de similarité sur leurs données publiques et privées validées. Le résultat est une cartographie des influences et des proximités éditoriales.

Flux d'utilisation en 6 étapes

1Sources — Cochez les tables à inclure (public) et les données privées accordées. Plus les sources sont riches, plus la distance est précise.
2Paramètres globaux — Ajustez le seuil de similarité (0.10–0.90), la profondeur temporelle et le nombre d'instances max.
3Méthode — Choisissez l'algorithme de distance dans le sélecteur. Chaque méthode affiche sa formule et ses paramètres spécifiques.
4Modèle IA — Sélectionnez le modèle pour la synthèse textuelle (Claude, GPT-4o, Mistral). N'affecte pas le calcul.
5Lancer — "Données plateforme" charge les vrais profils (session requise). "Démo" génère des données synthétiques.
6Analyser — Naviguez entre Force Graph, Sankey, Chord et Stream. Le panneau droit affiche la cohésion, les clusters et les top influenceurs.

💡 Conseil démarrage : Si le graphe est vide après "Données plateforme", baissez le seuil de similarité à 0.10–0.15. Avec 11 utilisateurs réels aux profils variés, les premiers liens apparaîtront entre les profils les plus proches.

Choisir la bonne méthode

📐

Cosinus

Mesure l'angle entre profils normalisés. Insensible aux écarts d'amplitude — deux petits créateurs actifs seront proches d'un grand.

Vecteurs6 features

📊

Pearson r

Co-variation linéaire pondérable par feature. Idéal pour détecter des croissances parallèles indépendamment du niveau absolu.

CorrélationPoids wᵢ

🏷

Jaccard / Dice / Overlap

Comparaison d'ensembles de tags. Jaccard = référence. Dice = F1-score. Overlap = inclusion partielle.

TagsEnsembles

🕰

Temporelle

Décroissance exponentielle sur l'écart de dernière activité. Révèle les synchronies de publication.

λ demie-vieFenêtre

💬

Interaction

Compare les taux d'engagement (likes + comments / followers). Deux comptes avec la même qualité d'audience convergent.

αL αCEngagement

⚗️

Hybride

Combinaison pondérée Pearson + Jaccard + Temporel. La somme des poids doit valoir 100% (indicateur ✓/⚠).

wP wJ wTComposite

Méthodes binaires (profils discrets)

SMC (Simple Matching Coefficient) : contrairement à Jaccard, les co-absences de features comptent comme similarité. Utile si l'absence d'une activité est significative (ex : deux comptes sans stream sont-ils proches ?)

Hamming : compare bit à bit après binarisation des 6 features. Le seuil de binarisation est ajustable — il définit à partir de quel niveau une feature est "active".

Tversky : asymétrique, généralise Jaccard et Dice. Utile pour des recherches directionnelles (prototype → variantes) via α et β.

Protocole 1 — Cartographie des communautés éditoriales

Objectif : Identifier les groupes d'instances partageant les mêmes thématiques de contenu.

→Sources : cocher Users + Sease + SeaseContent
→Méthode : Jaccard — activer les tags éditoriaux pertinents, seuil |A∩B| ≥ 2
→Seuil : 0.30 — assez permissif pour révéler les communautés
→Visualisation : Chord — révèle les croisements thématiques
→Lecture : les clusters = communautés. Les nœuds isolés = profils éditoriaux uniques.

Protocole 2 — Détection des influenceurs similaires

Objectif : Trouver les pairs d'un influenceur — mêmes métriques d'engagement, même audience.

→Sources : Users + données privées SocialMedia si accordées
→Méthode : Interaction — ajuster αC > αL (comment = engagement fort)
→Seuil : 0.70 — réseau serré de vrais similaires
→Visualisation : Force Graph — cliquer sur un nœud pour voir ses connexions
→Lecture : Top Influenceurs dans le panneau droit = score d'influence relative

Protocole 3 — Analyse de synchronie temporelle

Objectif : Détecter les instances qui publient en même temps — co-activité ou réaction en chaîne.

→Sources : tous les types de contenu
→Méthode : Temporelle — λ = 14j (demie-vie courte pour synchronies récentes)
→Fenêtre max : 60j — capture les cycles mensuels
→Visualisation : Stream — activité temporelle stackée par type
→Lecture : les pics alignés = événements synchrones ou tendances coordonnées

Protocole 4 — Audit de diversité du réseau

Objectif : Mesurer si le réseau est homogène (bulle de filtre) ou diversifié.

→Méthode : Hybride — wP=40%, wJ=40%, wT=20% (équilibre sémantique + éditorial)
→Seuil : 0.20 — large, pour voir toutes les connexions faibles
→Visualisation : Sankey — flux d'influence entre types d'instances
→Lecture : Score de cohésion élevé (>0.7) = réseau homogène. Faible (<0.3) = diversité maximale.

Protocole 5 — Prospection partenaires

Objectif : Identifier les partenaires potentiels proches d'un profil cible.

→Sources : Users + données privées Hierarchy + CompanyProject si accordées
→Méthode : Cosinus sur les 6 features normalisées
→Dans Force Graph : cliquer sur le nœud cible → ses voisins = candidats partenaires classés par similarité
→Vérifier dans le Top Influenceurs : les nœuds de rang 1–3 sont les plus connectés au réseau

Score de cohésion

Moyenne des similarités de tous les liens actifs (au-dessus du seuil). Reflète la densité sémantique du réseau sélectionné.

▲0.70 – 1.00 — Réseau très homogène. Possible bulle de filtre. Fort potentiel de diffusion interne.
◆0.40 – 0.70 — Réseau équilibré. Communautés distinctes avec ponts. Situation idéale pour la croissance.
▼0.00 – 0.40 — Réseau fragmenté. Profils très différents. Opportunités de niche mais diffusion lente.

Clusters détectés

Nombre de communautés d'influence distinctes identifiées par analyse des composantes connexes. Un cluster = un groupe d'instances plus proches entre elles qu'avec le reste du réseau.

Attention : avec peu de nœuds (11 utilisateurs), les clusters peuvent être instables selon le seuil choisi. Augmenter le nb. d'instances ou baisser le seuil stabilise la détection.

Connectivité réseau (densité)

Ratio liens actifs / liens possibles (n×(n-1)/2). Une densité de 10% sur 80 nœuds est normale — au-delà, le réseau est sur-connecté et le seuil devrait être relevé.

Visualisations — quand utiliser quoi

⬤Force Graph — navigation interactive, identification des nœuds centraux, exploration des connexions individuelles
→Sankey — flux d'influence entre types (User→Sease, Post→Stream), volume de connexions croisées
◉Chord — matrice relationnelle complète, symétrie et asymétrie des relations entre groupes
〜Stream — évolution temporelle de l'activité, détection de tendances et pics de publication

Optimiser les résultats

Seuil bas (0.10–0.25) : Révèle toutes les connexions faibles. Utile pour l'exploration initiale et la découverte de communautés inattendues. Risque de surcharge visuelle avec >50 nœuds.

Seuil élevé (0.60–0.85) : Ne montre que les paires très similaires. Idéal pour la prospection partenaires ou la détection de doublons éditoriaux.

Démo avant Live : Testez toujours vos paramètres sur les données synthétiques (80 nœuds) avant de lancer sur la plateforme réelle. Les formules, seuils et visualisations se comportent de façon identique.

Combinaisons méthode × visualisation recommandées

✓Jaccard + Chord — cartographie thématique complète, lecture des croisements éditoriaux
✓Pearson + Force Graph — clusters de croissance, identification des paires co-évolutives
✓Temporelle + Stream — synchronies, cascades de publication, tendances cycliques
✓Interaction + Force Graph — pairs d'audience, prospection d'influence
✓Hybride + Sankey — vue d'ensemble multi-critères, flux d'influence cross-type

Limites à connaître

⚠Les données privées (Hierarchy, AI, CampaignTools…) ne sont disponibles que si l'utilisateur cible a accordé la clé correspondante dans ses préférences de confidentialité.
⚠Les méthodes sur tags (Jaccard, Dice, Overlap, Tversky) nécessitent que les contenus Sease aient des tags définis — sinon les nœuds reçoivent des tags de fallback (sector/service).
⚠Le calcul de similarité est symétrique sauf pour Tversky (α≠β). Les liens ont la même valeur dans les deux sens pour toutes les autres méthodes.
⚠Le mode k-plus-proches-voisins (forçage de liens) n'est pas encore implémenté — avec peu de nœuds et un seuil élevé, le graphe peut rester vide.

Paramètres de l'interface

Paramètre	Plage	Définition	Impact
Seuil de similarité	[0.00 – 1.00]	Valeur minimale de sim(A,B) pour qu'un lien soit tracé entre deux nœuds. En dessous, la paire est ignorée.	Bas → réseau dense · Haut → liens forts seulement
Nb. instances max	[10 – 200]	Nombre maximum de nœuds chargés dans le graphe. Limite le volume de calcul O(n²) des paires de similarité.	≤ 50 → rapide · > 100 → calcul intensif
Profondeur temporelle	[7 – 365 j]	Fenêtre de temps maximale en jours. Les instances sans activité dans cette fenêtre sont exclues du calcul temporel.	Court → actifs récents · Long → historique étendu
Distance méd. moyenne	[0.000 – 1.000]	Score de cohésion global = moyenne arithmétique de toutes les valeurs sim(A,B) des liens actifs. Reflète l'homogénéité du réseau.	0.7+ bulle · 0.3–0.7 équilibré · <0.3 fragmenté
Clusters d'influence	ℕ ≥ 1	Nombre de communautés distinctes identifiées par analyse des composantes connexes du graphe de similarité filtré par le seuil.	1 → masse unique · N → N niches distinctes
Densité des relations	[0.0% – 100%]	Ratio liens actifs / liens possibles = \|E\| / (n×(n−1)/2). Mesure le degré de connexion global du réseau.	<5% sparse · 10–30% modéré · >50% sur-connecté
Score d'influence	[0 – 100]	Score relatif normalisé d'un nœud = somme pondérée de ses liens sortants (×1) et entrants (×0.6), ramenée à 100 pour le nœud de tête.	100 → nœud le plus central du réseau calculé
λ — Demie-vie temp.	[1 – 365 j]	Constante de décroissance de la similarité temporelle. À t=λ : sim = e⁻¹ ≈ 0.368. À t=2λ : sim ≈ 0.135.	Court → synchronies récentes · Long → cycles longs

Symboles mathématiques

Symbole	Nom	Domaine	Définition dans Neatsight
sim(A,B) ∈ [0,1]	Similarité normalisée	Général	Score de proximité entre deux instances. 1 = identiques, 0 = disjoints.
cos(θ)	Cosinus de l'angle	Algèbre linéaire	Angle entre vecteurs de features normalisés min-max. θ=0 → profils proportionnels.
r ∈ [−1,1]	Corrélation de Pearson	Statistique	Co-variation linéaire pondérée, normalisée en (r+1)/2 pour obtenir ∈ [0,1].
J(A,B) ∈ [0,1]	Indice de Jaccard	Théorie des ensembles	\|A∩B\| / \|A∪B\|. Ratio intersection / union de tags actifs.
DSC ∈ [0,1]	Sørensen–Dice (F1)	Théorie des ensembles	2\|A∩B\| / (\|A\|+\|B\|). Pénalise moins les petits ensembles que Jaccard.
OC ∈ [0,1]	Coefficient d'Overlap	Théorie des ensembles	\|A∩B\| / min(\|A\|,\|B\|). Mesure l'inclusion — 1 si le plus petit ensemble est contenu dans le plus grand.
T(A,B;α,β)	Indice de Tversky	Psychologie cognitive	\|A∩B\| / (\|A∩B\| + α\|A\B\| + β\|B\A\|). α=β=1 → Jaccard · α=β=0.5 → Dice.
SMC ∈ [0,1]	Simple Matching Coeff.	Statistique binaire	(f₁₁+f₀₀)/n. Contrairement à Jaccard, les co-absences comptent comme similarité.
d_H ∈ ℕ	Distance de Hamming	Théorie de l'information	Nombre de positions différentes entre deux vecteurs binaires. sim = 1 − d_H/n.
eng(u)	Taux d'engagement	Analytics social	(αL·likes + αC·comments) / (followers+1). Normalisé pour comparer des audiences de tailles différentes.
wᵢ ∈ [0,1]	Poids feature Pearson	Statistique pondérée	Importance relative de chaque feature : posts, followers, likes, comments, streams, score.
e^(−\|Δt\|/λ)	Décroissance expon.	Physique / Temporel	Fonction de similarité temporelle. Δt = écart en jours entre dernières activités. λ = demie-vie.
H ∈ [0,1]	Score hybride	Data fusion	wP·r + wJ·J + wT·T, avec wP+wJ+wT = 1. Combinaison multi-critères normalisée.

Ouvrages & sources fondatrices

Les méthodes implémentées dans Neatsight s'appuient sur des travaux académiques dont les auteurs ont formulé les mesures de similarité utilisées. Chaque entrée précise le contexte de recherche original et son application dans l'outil.

🌿

Paul Jaccard · 1901

Botaniste suisse · Université de Lausanne

→ JSTOR

Étude comparative de la distribution florale dans une portion des Alpes et des Jura. Bulletin de la Société Vaudoise des Sciences Naturelles, 37, 547–579.

Contexte de recherche : Jaccard cherchait à comparer la composition florale de zones géographiques différentes — combien d'espèces végétales deux régions partagent-elles, relativement à leur union totale. Son coefficient J = |A∩B|/|A∪B| est aujourd'hui le standard de la comparaison d'ensembles en biologie, NLP, et systèmes de recommandation. Dans Neatsight : comparaison des tags éditoriaux entre profils Sease et Cercle.

JaccardTags A∩B / A∪B

🌾

Thorvald Sørensen · 1948

Botaniste danois · Université de Copenhague

→ BHL

A method of establishing groups of equal amplitude in plant sociology based on similarity of species content. Kongelige Danske Videnskabernes Selskab, 5(4), 1–34.

Contexte de recherche : Sørensen développait une méthode de groupement de communautés végétales fondée sur la proportion d'espèces partagées. Son coefficient 2|A∩B|/(|A|+|B|) — redécouvert indépendamment par Lee Raymond Dice (1945) — pondère davantage les petits ensembles et est équivalent au F₁-score en évaluation de modèles. Dans Neatsight : méthode Dice pour comparer la richesse relative des profils en tags.

Dice / Sørensen2|A∩B|/(|A|+|B|)

📡

Richard W. Hamming · 1950

Mathématicien · Bell Labs

→ DOI

Error detecting and error correcting codes. Bell System Technical Journal, 29(2), 147–160.

Contexte de recherche : Hamming travaillait sur la détection et correction d'erreurs dans les transmissions binaires aux Bell Labs. Sa distance — nombre de bits différents entre deux mots de code — est devenue une mesure fondamentale en théorie de l'information, cryptographie et bioinformatique (comparaison de séquences ADN). Dans Neatsight : les 6 features numériques sont binarisées par un seuil ajustable, et la distance Hamming mesure combien de features ont des états différents.

Hammingd_H = Σ(aᵢ ≠ bᵢ)

🔬

Rogers & Tanimoto · 1960

Biologistes & ingénieurs · IBM / USDA

→ DOI

A computer program for classifying plants. Science, 132(3434), 1115–1118.

Contexte de recherche : Rogers et Tanimoto développaient l'un des premiers programmes de taxonomie numérique automatique — classer des espèces végétales par leurs caractéristiques binaires (présence/absence de traits morphologiques). Leur coefficient SMC = (f₁₁+f₀₀)/n considère les co-absences comme une similarité, contrairement à Jaccard. Dans Neatsight : deux profils qui n'ont ni l'un ni l'autre de streams ou de publications sont jugés similaires dans cette dimension.

SMC(f₁₁+f₀₀)/n

🔁

Levandowsky & Winter · 1971

Biologistes marins · Rockefeller University

→ DOI

Distance between sets. Nature, 234, 34–35.

Contexte de recherche : En étudiant les distributions de populations de microorganismes marins, Levandowsky et Winter avaient besoin d'une mesure de chevauchement asymétrique — un petit groupe est-il entièrement contenu dans un grand ? Leur coefficient OC = |A∩B|/min(|A|,|B|) atteint 1 si le plus petit ensemble est un sous-ensemble du plus grand. Dans Neatsight : utile pour détecter les profils de niche dont les tags sont un sous-ensemble d'un profil plus large.

Overlap|A∩B|/min(|A|,|B|)

🧠

Amos Tversky · 1977

Psychologue cognitif · Stanford University

→ DOI

Features of similarity. Psychological Review, 84(4), 327–352.

Contexte de recherche : Tversky (co-auteur avec Kahneman de la théorie des perspectives) étudiait comment les humains perçoivent la similarité — de façon asymétrique : "la Corée du Nord ressemble à la Chine" n'implique pas "la Chine ressemble à la Corée du Nord". Son indice T(A,B;α,β) permet de contrôler cette asymétrie via α (poids des traits de A absents de B) et β (inverse). Dans Neatsight : recherche directionnelle prototype→variantes ou comparaison d'un profil de référence à des candidats.

Tverskyα=β=0.5 → Diceα=β=1 → Jaccard

📈

Karl Pearson · 1895

Statisticien · University College London

→ DOI

Notes on regression and inheritance in the case of two parents. Proceedings of the Royal Society of London, 58, 240–242.

Contexte de recherche : Pearson travaillait sur l'hérédité biométrique — dans quelle mesure les caractéristiques physiques des parents prédisent celles des enfants. Son coefficient de corrélation r mesure la co-variation linéaire normalisée, indépendamment de l'échelle. C'est l'une des statistiques les plus citées de l'histoire des sciences. Dans Neatsight : détecte les profils dont les métriques (posts, followers, engagement) co-varient dans la même direction, même à des niveaux absolus très différents.

Pearson rnormalisé (r+1)/26 features pondérées

🗄️

Leskovec, Rajaraman & Ullman · 2020

Informaticiens · Stanford University

→ mmds.org

Mining of Massive Datasets, 3e éd. Cambridge University Press. (PDF librement accessible)

Contexte de recherche : Ouvrage de référence pour le traitement de données à grande échelle : systèmes de recommandation (similarité cosinus sur matrices utilisateurs-items), détection de communautés dans les graphes, LSH (Locality-Sensitive Hashing) pour la recherche de similarité approximative. Dans Neatsight : fondement théorique de la méthode Cosinus et de la construction du graphe de distances, notamment la normalisation des vecteurs et l'interprétation géométrique de l'angle.

CosinusGraphesRecommandation

📚

Tan, Steinbach & Kumar · 2005

Informaticiens · University of Minnesota

→ UMN

Introduction to Data Mining. Pearson Addison-Wesley. Chapitre 2 : Data (proximité et mesures de similarité).

Contexte de recherche : Référence académique canonique pour la data mining : taxonomie complète des mesures de proximité (Minkowski, cosinus, corrélation, Jaccard, SMC, Tversky), détection de clusters (k-means, DBSCAN), et fusion multi-critères. Dans Neatsight : fondement de la méthode Hybride (data fusion weighted scoring) et de la table de comparaison des méthodes dans l'onglet Méthodes.

HybrideData fusionClustering

Note : Jaccard, Sørensen–Dice et Overlap sont des cas particuliers de Tversky (Tversky, 1977) avec respectivement α=β=1, α=β=0.5, et α=1/β=0. La similarité cosinus est le cas particulier de la corrélation de Pearson sur vecteurs centrés (Leskovec et al., 2020).