SOS Écrans · Shieldy Research Kit

Éprouver le détecteur de harcèlement voilé sur vos données — dans votre navigateur

Tout se calcule ici, sur votre machine. Aucune donnée n'est envoyée.

Outil de recherche exploratoire — à lire. Le détecteur plafonne (sur données d'ados réelles, le rappel du murmure n'est que de 6-21 %) et n'a jamais été évalué sur la tranche 8-13 ans que le projet vise : toute l'évaluation porte sur des adolescents de 12-17 ans. Le score aide à prioriser un regard humain, ce n'est pas un verdict. RGPD : rien n'est envoyé ni stocké, mais si vous y collez des données réelles, vous en restez seul responsable (base légale + accord éthique de votre établissement). Voir le dossier scientifique complet et ses limites →

Mode d'emploi (1 minute)

Ce que fait l'outil : il attribue à chaque message un score d'« agression voilée » (0 à 1), et, si vous fournissez un identifiant et une date, il trace la dérive d'une personne par rapport à son propre comportement habituel.
Ce qu'il vous faut : soit coller des messages (un par ligne), soit déposer un fichier CSV avec au moins une colonne texte ; en option identifiant et date.
Comment lancer : collez ou déposez, puis cliquez « Analyser ». Le modèle (~100 Mo) se télécharge une fois, puis reste en cache.
Comment lire : un tableau de scores + une courbe de dérive si possible. Le panneau « limites » dit ce que l'outil rate.
Multilingue : fonctionne sur de nombreuses langues (le noyau du modèle est multilingue).

1 · Vos messages

Collez un message par ligne, ou déposez un CSV (colonnes texte, en option identifiant, date).

Limites — à lire

Ce détecteur est exploratoire. Il a été entraîné sur des corpus publics d'agression voilée (anglais), et il plafonne : le harcèlement voilé est intrinsèquement difficile à lire au seul niveau du message. Concrètement, il rate encore le dénigrement très implicite, peut s'effondrer quand un mot est maquillé par l'orthographe, et peut sur-réagir quand quelqu'un cite une insulte pour la dénoncer. Le score n'est pas un verdict : c'est un signal de priorisation, à confronter à votre jugement. La vraie valeur se joue dans la dérive dans le temps, pas dans un message isolé.

La seconde colonne « manipulation / gaslighting » est encore plus exploratoire. Elle vient d'une seconde tête entraînée sur des dialogues anglais d'adultes (MentalManip + GasConv), au niveau de la conversation, pas du message ni de l'enfant francophone. Elle existe parce que la première tête (agression) s'est révélée aveugle à la manipulation (deux signaux distincts). À lire comme une piste à creuser sur un échange entier, jamais comme un verdict sur un message isolé.

Détecteur : régression logistique multilingue exécutée en navigateur (transformers.js + MiniLM), entraînée sur TRAC(CAG/NAG)+ISHate(implicit/non-HS). L'AUC d'entraînement 0.882 est mesurée sur de l'agression GÉNÉRIQUE anglophone — PAS sur le murmure relationnel, ni sur la cible 8-13 ans. Sur données d'adolescents réelles, le rappel du murmure chute à 6-21 % (détail et limites dans le dossier). Prototype exploratoire : le score aide à prioriser un regard humain, ce n'est pas un verdict.
Une seconde tête « manipulation / gaslighting » (entraînée sur MentalManip + GasConv, anglais, niveau dialogue ; AUC 0.8 combinée, ~0,67 sur la manipulation réelle) signale en plus les tournures manipulatoires — elle comble un angle mort réel (la première tête y est aveugle, AUC ~0,46) mais reste exploratoire et se lit mieux sur une conversation que sur un message isolé.
SOS Écrans · le code va à la donnée, jamais l'inverse. Pour de très gros volumes ou un ré-entraînement, une version locale est disponible sur demande.