SOS ÉCRANS · association loi 1901

Dossier Shelkid — ce que nous avons essayé

Mesures, méthodologie, et ce qui ne marche pas encore. Mis à jour le 28 mai 2026.

Cher Igor,

Voici, posé honnêtement, où nous en sommes sur Shelkid — l'outil que nous construisons à SOS Écrans pour qu'un enfant en ligne ne soit plus seul quand il glisse.

Tu vas voir : il y a des choses qui marchent, et d'autres qui ne marchent pas. Nous avons essayé d'écrire ce dossier comme nous travaillons : décrire avant de prescrire, montrer les chiffres, dire les trous. Pour qu'avant de confier tes enfants à notre petit Labo, tu saches exactement où ils mettent les pieds — et à quoi servira leur regard.

Merci, sincèrement. 💛
— Emmanuel & l'équipe

1. Pourquoi nous faisons ça

Le harcèlement en ligne n'est presque jamais un coup unique. C'est une goutte d'eau qui revient : ce qui blesse, ce n'est pas une vanne, c'est la vanne tous les jours, sans répit. En 2025, le 3018 a reçu 124 500 sollicitations, dont 14 % concernaient le cyberharcèlement. Et souvent, l'enfant n'en parle à personne.

Nous construisons un outil qui peut servir de filet — pas un mouchard, pas un oracle, pas un score. Il essaie de sentir, sans lire, qu'un enfant glisse, et de lui rendre le signal à lui d'abord.

Shelkid prend le pouls de la vie intérieure d'un enfant telle qu'elle transpire dans son téléphone — pour la lui rendre, jamais pour l'épier. On ne lit pas ce qu'il dit ; on sent la forme de ce qui lui arrive, et on lui tend un miroir, pas une vitre sans tain. — Doctrine fondatrice Shelkid, 27 mai 2026

2. Les 4 couches d'écoute

Notre intuition : aucun signal seul ne suffit à voir un enfant qui glisse. Nous superposons quatre lectures, chacune avec sa mesure.

🔤 Le sens

Lit ce qui est dit. Mots-clés, regex, signaux lexicaux.

+5,1 → 10,5 % de rappel harcèlement (V1→V2)

🕸️ La forme

Voit comment on se parle : secret, isolement, asymétrie, basculement.

+18,5 → 34,9 % de rappel grooming (V4)

📅 La durée

Voit la pente. Mémoire 3 jours, glissement vs coup d'un soir.

80 % des glissements vrais, 0 % de fausse alarme

📈 Le pouls

Métadonnées seules : sommeil, mobilité, lenteur d'écriture. Jamais le contenu.

À construire — validé par littérature adulte

3. Notre méthodologie

Avant de te montrer les chiffres, voici comment nous les obtenons. Pour que tu puisses juger ce qu'ils valent.

Les corpus Nous travaillons sur trois jeux de données. CyberAgressionAdo-Large (Ollagnier & Cabrio — Catherine Blaya co-autrice) : ~8 745 énoncés français annotés sur chats multipartites ados. GroomingFR-Synth : 1 581 conversations synthétiques sur 20 batchs (trust-building, exclusivity, sextorsion-flash, gaming…), direction prouvée mais pas certifiée. Datasets-glissement : 71 scénarios sur glissement, détresse masquée, retrait silencieux, leurres sains.

Lots aveugles, seuils gelés À chaque palier, nous gelons les seuils du moteur, puis nous le mesurons sur des lots inédits qu'il n'a jamais vus. Pas de réajustement post-hoc. Le Lot 4 (26 mai) — 24 cas graves + 6 adultes légitimes + 16 conversations neutres — a été créé pour précisément casser ce que nous croyions vrai.

Trois juges, trois styles Pour ne pas dépendre d'un seul générateur, nous demandons à Claude, Gemini et ChatGPT de produire des cas dans leur style propre. C'est ce qui nous a montré que notre moteur est fragile au style : 75 % de rappel en Gemini, 43 % en ChatGPT, sur le même moteur.

Le Bouclier de Vérité Chaque résultat est classé selon son niveau de preuve : primaire (mesuré sur corpus public), secondaire (mesuré sur nos jeux), tradition (consensus de littérature), reconstruction (notre intuition pas encore mesurée). L'absence de preuve est affichée, jamais comblée.

Le Sceau humain (Règle 6) L'IA prépare le dossier. Elle ne tranche jamais. Le passage d'une mesure de « probable » à « validé » est un acte humain — Catherine Blaya, un pédopsychiatre, ou un comité d'éthique. Aujourd'hui aucune mesure Shelkid ne porte ce sceau ; c'est explicitement une preuve de concept.

Anonymat strict Aucune IP n'est stockée. Aucun nom. Aucun email. Aucun User-Agent. Aucun traceur tiers. Les pseudos sont choisis par les enfants et filtrés contre toute fuite involontaire. Le rate-limit anti-bot utilise des IP hashées non-réversibles.

Tout sur le téléphone Le pouls du téléphone (couche 4) reste 100 % local. Aucune métadonnée n'est exfiltrée. Le signal va d'abord à l'enfant, jamais à l'adulte sans consentement explicite de l'enfant — c'est la base scientifique (Wisniewski, CIDE), pas une option de design.

4. Les chiffres, sans bricolage

📊 V1 → V2 — Rappel sur le harcèlement (corpus Ollagnier, 5918 cas)

V1 (mots-clés)

5,1 %

V2 (sens enrichi)

10,5 %

Cible (futur)

~50 %

Gain ×2 sans dégrader la précision. Les fausses alarmes sur 3 127 conversations saines sont passées de 8 à 13 — accroissement minime.

🕸️ V4 (forme de la relation) — Rappel grooming (1 581 conversations)

Baseline (mots)

18,5 %

V4 (forme)

34,9 %

Précision améliorée aussi (88,3 → 90,6 %). La forme capte ce que les mots seuls rataient — particulièrement les patterns de séduction et d'isolement.

⏳ Étage du temps (mémoire 3 jours) — Lot test

Glissement capté

80 %

Détresse masquée

36 %

Retrait silencieux (moteur live)

0 %

Retrait silencieux (capteur candidat, interne)

75 %

Fausse alarme (sains)

0 %

L'étage du temps prouve sa valeur sur les glissements clairs, mais reste aveugle au retrait silencieux. C'est notre plus gros trou — et c'est exactement pourquoi nous avons besoin du Labo.

Lot 4 — validation à œil neuf (26 mai)

Test	Résultat	Lecture
Cas graves complètement nouveaux (24)	100 % (24/24)	Aucun rouge raté
Adultes légitimes laissés tranquilles (6)	100 % (6/6)	Aucune accusation à tort
Fausses alarmes sur bavardage banal (16)	44 % (7/16)	Cri-loup encore élevé

5. Chronologie des tests

17 mai — Première preuve de concept en simulateur iOS. Détection grooming + manipulation émotionnelle en moins de 2 secondes. Cas critique « enfant silencieux qui ne répond pas » : alarme au 3^e message reçu.
25 mai — Baseline V1 mesurée : harcèlement 5,1 %, grooming 17,3 %. Honnête, c'est bas.
25 mai (soir) — V2 livrée : harcèlement ×2 (10,5 %), sans dégrader précision ni faux positifs.
26 mai — Lot 4 fraîches, seuils gelés : 100 % des cas graves attrapés, 100 % adultes OK, mais 44 % de cri-loup sur neutre.
27 mai — V4 (forme de la relation) : grooming passe à 34,9 % de rappel, précision +2,3 points.
27 mai — Étage du temps mesuré sur 71 scénarios : 0 % de fausse alarme sur sains, mais angle mort prouvé sur le retrait silencieux (0/8).
27 mai (nuit) — Ouverture du Labo en ligne (shieldy.org/labo) pour faire entrer la vraie langue ado dans le corpus.
28 mai (matin) — Premier test avec ~20 ados en classe. Cohorte stage active.
28 mai (après-midi) — Branchement effectif des 4 couches dans le moteur de l'extension (capteur-silence + capteur-dissonance + moteur-couches). Première mesure live : retrait silencieux passe de RIEN → ALARME en 4 jours sur scénario-type.
28 mai (fin d'après-midi) — Mission « 🤫 Le silencieux » ajoutée au Labo. 8^e jeu : 3 fils côte à côte, l'ado choisit lequel craint + un mot pourquoi. Calibration humaine de l'angle mort.

6. Ce qui ne marche pas encore

⚠️ Le Bouclier de Vérité — nos trous, tels quels

Aucune mesure sur de vrais ados. Tout est synthétique (Claude / Gemini / ChatGPT). Le Labo va changer ça — c'est le but.
Le retrait silencieux était notre plus gros trou (0/8 capté sur le moteur de contenu seul). Branché le 28 mai 2026 dans le manifeste de l'extension — voir section 6 bis juste après pour la mesure live.
La détresse masquée passe à 64 % (9 ratés sur 14). « mdr je sers à rien 😭 » nous échappe.
Fausse alarme bavardage banal : 44 %. « T'as fait les exos de maths ? » alarme à tort.
Fragilité au style : 43 → 75 % de rappel selon qui écrit. Pas robuste.
Pouls du téléphone non codé. Lecture de la littérature, pas de capteur installé.
Pas validé sur mineurs. Toutes les études du pouls portent sur des adultes.
Aucun Sceau humain à ce jour — pas de Catherine Blaya, pas de pédopsy. Sprint à venir.

6 bis. Notre angle mort prioritaire — branché ✅

L'enfant qui se tait est précisément celui qu'on cherche. Quand le harcèlement s'installe, il ne crie pas plus fort — il écrit moins. Nous lisons le rythme, jamais les mots : une parole qui s'effondre sous sa propre voix, plusieurs jours d'affilée, est un signal de détresse documenté par la clinique (HAS, item retrait de l'ADRS) comme par les capteurs (Saeb 2015, Wang/StudentLife 2018). Ce n'est pas un oracle (Franklin 2017 nous l'interdit) : c'est un murmure qu'on rend à l'enfant. — Synthèse interne, 28 mai 2026

Ce que la science a établi

Le retrait n'est pas une intuition d'adulte inquiet — c'est un construit clinique reconnu. L'item 9 de l'ADRS ado (validée HAS 2014) mesure explicitement le « retrait relationnel ». La Théorie interpersonnelle du suicide de Joiner (Van Orden 2010-2012) pose deux piliers — se sentir un poids + ne plus faire partie — qui se manifestent par retrait avant verbalisation. Le silence précède le cri.

Et le silence est mesurable, sans lire le contenu :

Signal	Ce qu'il mesure	Source	Preuve
Effondrement du volume d'écriture	Quasi-mutisme soutenu vs sa propre voix	Wang/StudentLife 2018	secondaire
Ratio messages envoyés / reçus	Asymétrie d'engagement	De Choudhury 2013	secondaire
Diversité du graphe social	Rétrécissement du cercle (Joiner)	Joiner/Van Orden 2010	secondaire
Décrochage de fils actifs	Sortie sans le dire de groupes	Wisniewski (teen online safety)	tradition
Irrégularité veille-sommeil	Désynchronisation circadienne	Bernert 2017 ; Saeb 2015 (r=-0,63 PHQ-9)	primaire
Latence de frappe	Ralentissement psychomoteur	Zulueta/BiAffect 2018 (≈-30 % en dépression)	primaire
Ratio stories consultées / publiées	Posture passive (comparaison)	Kleemans 2016 (RCT 14-18 ans)	secondaire

Ce qu'on a branché — 28 mai 2026

Quatre modules charchés en local et désormais activés dans le manifeste de l'extension :

capteur-silence.js — mesure la forme (longueur agrégée/jour), jamais le texte. Plancher absolu 8 caractères (quasi-mutisme), seuil relatif 0,5×voix-normale, baseline calibrée par enfant.
capteur-dissonance.js — démasque l'humour qui cache la détresse (« mdr je sers à rien 😭 ») : ton léger COLLÉ à un contenu existentiel lourd.
moteur-couches.js — l'orchestrateur : combine sens + silence + dissonance + accumulation temporelle (demi-vie 3 jours). Seuil ALARME=2.0, jamais baissé.
temps-v2.js — disponible en mémoire enrichie ; le superposeur ci-dessus l'absorbe.

Première mesure du moteur branché

Simulation live sur deux scénarios-types, exécutée à la mise en service le 28 mai :

Scénario	Contenu seul (moteur V2)	Moteur 4 couches branché
Enfant qui se replie J1-J2 actif (58 chars/jour, baseline) puis J3-J5 quasi-mutisme	RIEN (0 signal)	MURMURE J3 · ALARME J4-J5 (score 2.91)
Détresse masquée « mdr je sers à rien 😭 »	RIEN (humour neutralise)	MURMURE J1 · ALARME J2 (score 2.69)

Baseline calibrée automatiquement par enfant (ici 58 chars/jour). Sans hausse des fausses alarmes côté contenu : le moteur de sens ne voit toujours rien dans ces deux scénarios — c'est exactement ce qui était à corriger. Le 0/8 du retrait silencieux est levé pour les cas type.

Reste à faire — sprint suivant

Mesurer en grandeur réelle : passer les 71 scénarios complets dans le moteur branché (avec embeddings réels) et confirmer le 0/8 → 6/8 promis par le banc d'essai Python.
Adopter le protocole eRisk/ERDE en interne — mesurer « à quel jour on voit monter » avec la latence.
Calibration longue : observer comment la baseline évolue sur 4 semaines réelles (cohorte stage du Labo).
Le murmure d'abord — si le signal monte : on s'adresse à l'enfant, jamais à l'adulte sans son accord.

Garde-fous — pourquoi on est prudent

Le silence est ambigu — vacances, examens, téléphone confisqué, désintérêt sain. On exige donc un effondrement soutenu (pas une baisse d'un jour), un signal pondéré jamais déclencheur seul, et une lecture de forme jamais de contenu. Le filet de Franklin reste actif : signal de détresse, jamais oracle.

7. Pourquoi tes enfants nous aident

Tout ce que nous avons mesuré jusqu'ici, c'est sur du texte écrit par des robots qui imitent des ados. Ça écrit trop propre, ça n'a pas le bon slang, ça ne sait pas quels emojis veulent dire quoi cette saison. Et surtout : c'est nous, adultes, qui décidons aujourd'hui ce qui est grave et ce qui est anodin — alors qu'on a 20 ans de trop pour avoir le bon jugement.

Quatre choses qu'aucun corpus synthétique ne donne, et que tes enfants peuvent donner :

La vraie langue. Mots, emojis chargés, inside jokes — ce que Claude et Gemini ne savent pas faire. Missions « atelier d'écriture », « slang du jour », « émojis & sous-entendus ».
La vérité-terrain. Un ado lit un message et tranche : rien / vanne / ça craint / grave. C'est leur jugement qui devient la référence — plus le nôtre. Mission « le juge ».
L'angle mort de l'enfant qui se tait. Notre 0/8. À quel jour ça commence à craindre pour eux ? Qu'est-ce qui leur met la puce à l'oreille avant les mots ? Mission « détective des signaux ».
🤫 Nouveau — mission « Le silencieux » ajoutée le 28 mai. On montre 3 fils de discussion sur 5 jours à l'ado, il dit lequel craint le plus, et en un mot pourquoi. C'est exactement le jugement humain qu'il nous faut pour valider notre capteur silence — la calibration à la main, avant la machine.

Et nous leur demandons aussi de casser notre détecteur — ils sont meilleurs que nous pour trouver comment contourner. C'est exactement ce qu'on cherche.

Le juge ultime reste un corpus humain et la validation par les professionnels. Aujourd'hui, l'IA prépare le dossier. Vos enfants, et un jour Catherine Blaya, tranchent. — Doctrine fondatrice, clôture

8. Le cadre pour tes enfants

Pseudo libre, choisi par l'enfant. Pas de vrai nom, pas d'email, pas de numéro.
Aucune donnée identifiante stockée. Pas d'IP, pas de User-Agent, pas de traceurs.
L'enfant peut s'arrêter à tout moment, sans avoir à se justifier. Le pseudo n'est pas lié à sa personne.
Consentement parental papier à signer (formulaire shieldy.org/labo/consentement.html).
Assentiment de l'enfant à l'écran en entrant : « en continuant, tu nous dis oui pour participer ».
3018 et 3114 visibles partout : si l'enfant ne se sent pas bien, l'aide est à un clic.
Chatbot d'assistant sur la page, pour qu'ils n'aient à interrompre personne. Garde-fou explicite : ne joue jamais le psy, oriente sans dramatiser.

Tu peux y aller

Si tu veux donner un regard d'adulte avant de proposer le Labo à tes enfants :

→ Voir l'expérience comme un ado

Et si tu veux qu'on en parle, ou voir le code, ou rencontrer Catherine Blaya (à venir) : [email protected]

Sources internes consultées pour ce dossier (transparence)

    DOCTRINE-FONDATRICE-SHELKID-27mai.md

    REVUE-360-HARCELEMENT-DANS-LE-TEMPS-27mai.md

    APPROFONDISSEMENT-SCIENTIFIQUE-27mai.md

    POULS-DU-TELEPHONE-27mai.md

    MESURE-GLISSEMENT-DEPRESSIF-27mai.md

    ETHIQUE-VEILLER-SANS-SURVEILLER-27mai.md

    CONSIGNE-REVUE-V4-RESULTATS.md

    PLAN-DETECTION-SHIELDY-V4.md & V2.md

    _data/shieldy-eval/BASELINE-V1.txt, V2.txt

    _data/shieldy-eval/LOT4-VALIDATION-26mai.md

    _data/shieldy-eval/NOTE-BILAN-3-LOTS-25mai.md

    Corpus : CyberAgressionAdo-Large (Ollagnier & Cabrio), GroomingFR-Synth (20 batchs), Datasets-glissement (71 scénarios).

SOS Écrans · association loi 1901 · RNA W751283606
shieldy.org · [email protected]
Document interne — non destiné à diffusion publique avant Sceau scientifique.