SOS ÉCRANS · association loi 1901
Dossier Shelkid — ce que nous avons essayé
Mesures, méthodologie, et ce qui ne marche pas encore. Mis à jour le 28 mai 2026.
Cher Igor,
Voici, posé honnêtement, où nous en sommes sur Shelkid — l'outil que nous construisons à SOS Écrans pour qu'un enfant en ligne ne soit plus seul quand il glisse.
Tu vas voir : il y a des choses qui marchent, et d'autres qui ne marchent pas. Nous avons essayé d'écrire ce dossier comme nous travaillons : décrire avant de prescrire, montrer les chiffres, dire les trous. Pour qu'avant de confier tes enfants à notre petit Labo, tu saches exactement où ils mettent les pieds — et à quoi servira leur regard.
Merci, sincèrement. 💛
— Emmanuel & l'équipe
1. Pourquoi nous faisons ça
Le harcèlement en ligne n'est presque jamais un coup unique. C'est une goutte d'eau qui revient : ce qui blesse, ce n'est pas une vanne, c'est la vanne tous les jours, sans répit. En 2025, le 3018 a reçu 124 500 sollicitations, dont 14 % concernaient le cyberharcèlement. Et souvent, l'enfant n'en parle à personne.
Nous construisons un outil qui peut servir de filet — pas un mouchard, pas un oracle, pas un score. Il essaie de sentir, sans lire, qu'un enfant glisse, et de lui rendre le signal à lui d'abord.
Shelkid prend le pouls de la vie intérieure d'un enfant telle qu'elle transpire dans son téléphone — pour la lui rendre, jamais pour l'épier. On ne lit pas ce qu'il dit ; on sent la forme de ce qui lui arrive, et on lui tend un miroir, pas une vitre sans tain.
— Doctrine fondatrice Shelkid, 27 mai 2026
2. Les 4 couches d'écoute
Notre intuition : aucun signal seul ne suffit à voir un enfant qui glisse. Nous superposons quatre lectures, chacune avec sa mesure.
1
🔤 Le sens
Lit ce qui est dit. Mots-clés, regex, signaux lexicaux.
+5,1 → 10,5 % de rappel harcèlement (V1→V2)
2
🕸️ La forme
Voit comment on se parle : secret, isolement, asymétrie, basculement.
+18,5 → 34,9 % de rappel grooming (V4)
3
📅 La durée
Voit la pente. Mémoire 3 jours, glissement vs coup d'un soir.
80 % des glissements vrais, 0 % de fausse alarme
4
📈 Le pouls
Métadonnées seules : sommeil, mobilité, lenteur d'écriture. Jamais le contenu.
À construire — validé par littérature adulte
3. Notre méthodologie
Avant de te montrer les chiffres, voici comment nous les obtenons. Pour que tu puisses juger ce qu'ils valent.
1
Les corpus
Nous travaillons sur trois jeux de données. CyberAgressionAdo-Large (Ollagnier & Cabrio — Catherine Blaya co-autrice) : ~8 745 énoncés français annotés sur chats multipartites ados. GroomingFR-Synth : 1 581 conversations synthétiques sur 20 batchs (trust-building, exclusivity, sextorsion-flash, gaming…), direction prouvée mais pas certifiée. Datasets-glissement : 71 scénarios sur glissement, détresse masquée, retrait silencieux, leurres sains.
2
Lots aveugles, seuils gelés
À chaque palier, nous gelons les seuils du moteur, puis nous le mesurons sur des lots inédits qu'il n'a jamais vus. Pas de réajustement post-hoc. Le Lot 4 (26 mai) — 24 cas graves + 6 adultes légitimes + 16 conversations neutres — a été créé pour précisément casser ce que nous croyions vrai.
3
Trois juges, trois styles
Pour ne pas dépendre d'un seul générateur, nous demandons à Claude, Gemini et ChatGPT de produire des cas dans leur style propre. C'est ce qui nous a montré que notre moteur est fragile au style : 75 % de rappel en Gemini, 43 % en ChatGPT, sur le même moteur.
4
Le Bouclier de Vérité
Chaque résultat est classé selon son niveau de preuve : primaire (mesuré sur corpus public), secondaire (mesuré sur nos jeux), tradition (consensus de littérature), reconstruction (notre intuition pas encore mesurée). L'absence de preuve est affichée, jamais comblée.
5
Le Sceau humain (Règle 6)
L'IA prépare le dossier. Elle ne tranche jamais. Le passage d'une mesure de « probable » à « validé » est un acte humain — Catherine Blaya, un pédopsychiatre, ou un comité d'éthique. Aujourd'hui aucune mesure Shelkid ne porte ce sceau ; c'est explicitement une preuve de concept.
6
Anonymat strict
Aucune IP n'est stockée. Aucun nom. Aucun email. Aucun User-Agent. Aucun traceur tiers. Les pseudos sont choisis par les enfants et filtrés contre toute fuite involontaire. Le rate-limit anti-bot utilise des IP hashées non-réversibles.
7
Tout sur le téléphone
Le pouls du téléphone (couche 4) reste 100 % local. Aucune métadonnée n'est exfiltrée. Le signal va d'abord à l'enfant, jamais à l'adulte sans consentement explicite de l'enfant — c'est la base scientifique (Wisniewski, CIDE), pas une option de design.
4. Les chiffres, sans bricolage
📊 V1 → V2 — Rappel sur le harcèlement (corpus Ollagnier, 5918 cas)
Gain ×2 sans dégrader la précision. Les fausses alarmes sur 3 127 conversations saines sont passées de 8 à 13 — accroissement minime.
🕸️ V4 (forme de la relation) — Rappel grooming (1 581 conversations)
Précision améliorée aussi (88,3 → 90,6 %). La forme capte ce que les mots seuls rataient — particulièrement les patterns de séduction et d'isolement.
⏳ Étage du temps (mémoire 3 jours) — Lot test
Retrait silencieux (moteur live)
0 %
Retrait silencieux (capteur candidat, interne)
75 %
Fausse alarme (sains)
0 %
L'étage du temps prouve sa valeur sur les glissements clairs, mais reste aveugle au retrait silencieux. C'est notre plus gros trou — et c'est exactement pourquoi nous avons besoin du Labo.
Lot 4 — validation à œil neuf (26 mai)
| Test | Résultat | Lecture |
| Cas graves complètement nouveaux (24) | 100 % (24/24) | Aucun rouge raté |
| Adultes légitimes laissés tranquilles (6) | 100 % (6/6) | Aucune accusation à tort |
| Fausses alarmes sur bavardage banal (16) | 44 % (7/16) | Cri-loup encore élevé |
5. Chronologie des tests
- 17 mai — Première preuve de concept en simulateur iOS. Détection grooming + manipulation émotionnelle en moins de 2 secondes. Cas critique « enfant silencieux qui ne répond pas » : alarme au 3e message reçu.
- 25 mai — Baseline V1 mesurée : harcèlement 5,1 %, grooming 17,3 %. Honnête, c'est bas.
- 25 mai (soir) — V2 livrée : harcèlement ×2 (10,5 %), sans dégrader précision ni faux positifs.
- 26 mai — Lot 4 fraîches, seuils gelés : 100 % des cas graves attrapés, 100 % adultes OK, mais 44 % de cri-loup sur neutre.
- 27 mai — V4 (forme de la relation) : grooming passe à 34,9 % de rappel, précision +2,3 points.
- 27 mai — Étage du temps mesuré sur 71 scénarios : 0 % de fausse alarme sur sains, mais angle mort prouvé sur le retrait silencieux (0/8).
- 27 mai (nuit) — Ouverture du Labo en ligne (shieldy.org/labo) pour faire entrer la vraie langue ado dans le corpus.
- 28 mai (matin) — Premier test avec ~20 ados en classe. Cohorte stage active.
- 28 mai (après-midi) — Branchement effectif des 4 couches dans le moteur de l'extension (capteur-silence + capteur-dissonance + moteur-couches). Première mesure live : retrait silencieux passe de RIEN → ALARME en 4 jours sur scénario-type.
- 28 mai (fin d'après-midi) — Mission « 🤫 Le silencieux » ajoutée au Labo. 8e jeu : 3 fils côte à côte, l'ado choisit lequel craint + un mot pourquoi. Calibration humaine de l'angle mort.
6. Ce qui ne marche pas encore
⚠️ Le Bouclier de Vérité — nos trous, tels quels
- Aucune mesure sur de vrais ados. Tout est synthétique (Claude / Gemini / ChatGPT). Le Labo va changer ça — c'est le but.
- Le retrait silencieux était notre plus gros trou (0/8 capté sur le moteur de contenu seul). Branché le 28 mai 2026 dans le manifeste de l'extension — voir section 6 bis juste après pour la mesure live.
- La détresse masquée passe à 64 % (9 ratés sur 14). « mdr je sers à rien 😭 » nous échappe.
- Fausse alarme bavardage banal : 44 %. « T'as fait les exos de maths ? » alarme à tort.
- Fragilité au style : 43 → 75 % de rappel selon qui écrit. Pas robuste.
- Pouls du téléphone non codé. Lecture de la littérature, pas de capteur installé.
- Pas validé sur mineurs. Toutes les études du pouls portent sur des adultes.
- Aucun Sceau humain à ce jour — pas de Catherine Blaya, pas de pédopsy. Sprint à venir.
6 bis. Notre angle mort prioritaire — branché ✅
L'enfant qui se tait est précisément celui qu'on cherche. Quand le harcèlement s'installe, il ne crie pas plus fort — il écrit moins. Nous lisons le rythme, jamais les mots : une parole qui s'effondre sous sa propre voix, plusieurs jours d'affilée, est un signal de détresse documenté par la clinique (HAS, item retrait de l'ADRS) comme par les capteurs (Saeb 2015, Wang/StudentLife 2018). Ce n'est pas un oracle (Franklin 2017 nous l'interdit) : c'est un murmure qu'on rend à l'enfant.
— Synthèse interne, 28 mai 2026
Ce que la science a établi
Le retrait n'est pas une intuition d'adulte inquiet — c'est un construit clinique reconnu. L'item 9 de l'ADRS ado (validée HAS 2014) mesure explicitement le « retrait relationnel ». La Théorie interpersonnelle du suicide de Joiner (Van Orden 2010-2012) pose deux piliers — se sentir un poids + ne plus faire partie — qui se manifestent par retrait avant verbalisation. Le silence précède le cri.
Et le silence est mesurable, sans lire le contenu :
| Signal | Ce qu'il mesure | Source | Preuve |
| Effondrement du volume d'écriture | Quasi-mutisme soutenu vs sa propre voix | Wang/StudentLife 2018 | secondaire |
| Ratio messages envoyés / reçus | Asymétrie d'engagement | De Choudhury 2013 | secondaire |
| Diversité du graphe social | Rétrécissement du cercle (Joiner) | Joiner/Van Orden 2010 | secondaire |
| Décrochage de fils actifs | Sortie sans le dire de groupes | Wisniewski (teen online safety) | tradition |
| Irrégularité veille-sommeil | Désynchronisation circadienne | Bernert 2017 ; Saeb 2015 (r=-0,63 PHQ-9) | primaire |
| Latence de frappe | Ralentissement psychomoteur | Zulueta/BiAffect 2018 (≈-30 % en dépression) | primaire |
| Ratio stories consultées / publiées | Posture passive (comparaison) | Kleemans 2016 (RCT 14-18 ans) | secondaire |
Ce qu'on a branché — 28 mai 2026
Quatre modules charchés en local et désormais activés dans le manifeste de l'extension :
capteur-silence.js — mesure la forme (longueur agrégée/jour), jamais le texte. Plancher absolu 8 caractères (quasi-mutisme), seuil relatif 0,5×voix-normale, baseline calibrée par enfant.
capteur-dissonance.js — démasque l'humour qui cache la détresse (« mdr je sers à rien 😭 ») : ton léger COLLÉ à un contenu existentiel lourd.
moteur-couches.js — l'orchestrateur : combine sens + silence + dissonance + accumulation temporelle (demi-vie 3 jours). Seuil ALARME=2.0, jamais baissé.
temps-v2.js — disponible en mémoire enrichie ; le superposeur ci-dessus l'absorbe.
Première mesure du moteur branché
Simulation live sur deux scénarios-types, exécutée à la mise en service le 28 mai :
| Scénario | Contenu seul (moteur V2) | Moteur 4 couches branché |
Enfant qui se replie J1-J2 actif (58 chars/jour, baseline) puis J3-J5 quasi-mutisme | RIEN (0 signal) | MURMURE J3 · ALARME J4-J5 (score 2.91) |
Détresse masquée « mdr je sers à rien 😭 » | RIEN (humour neutralise) | MURMURE J1 · ALARME J2 (score 2.69) |
Baseline calibrée automatiquement par enfant (ici 58 chars/jour). Sans hausse des fausses alarmes côté contenu : le moteur de sens ne voit toujours rien dans ces deux scénarios — c'est exactement ce qui était à corriger. Le 0/8 du retrait silencieux est levé pour les cas type.
Reste à faire — sprint suivant
- Mesurer en grandeur réelle : passer les 71 scénarios complets dans le moteur branché (avec embeddings réels) et confirmer le 0/8 → 6/8 promis par le banc d'essai Python.
- Adopter le protocole eRisk/ERDE en interne — mesurer « à quel jour on voit monter » avec la latence.
- Calibration longue : observer comment la baseline évolue sur 4 semaines réelles (cohorte stage du Labo).
- Le murmure d'abord — si le signal monte : on s'adresse à l'enfant, jamais à l'adulte sans son accord.
Garde-fous — pourquoi on est prudent
Le silence est ambigu — vacances, examens, téléphone confisqué, désintérêt sain. On exige donc un effondrement soutenu (pas une baisse d'un jour), un signal pondéré jamais déclencheur seul, et une lecture de forme jamais de contenu. Le filet de Franklin reste actif : signal de détresse, jamais oracle.
7. Pourquoi tes enfants nous aident
Tout ce que nous avons mesuré jusqu'ici, c'est sur du texte écrit par des robots qui imitent des ados. Ça écrit trop propre, ça n'a pas le bon slang, ça ne sait pas quels emojis veulent dire quoi cette saison. Et surtout : c'est nous, adultes, qui décidons aujourd'hui ce qui est grave et ce qui est anodin — alors qu'on a 20 ans de trop pour avoir le bon jugement.
Quatre choses qu'aucun corpus synthétique ne donne, et que tes enfants peuvent donner :
- La vraie langue. Mots, emojis chargés, inside jokes — ce que Claude et Gemini ne savent pas faire. Missions « atelier d'écriture », « slang du jour », « émojis & sous-entendus ».
- La vérité-terrain. Un ado lit un message et tranche : rien / vanne / ça craint / grave. C'est leur jugement qui devient la référence — plus le nôtre. Mission « le juge ».
- L'angle mort de l'enfant qui se tait. Notre 0/8. À quel jour ça commence à craindre pour eux ? Qu'est-ce qui leur met la puce à l'oreille avant les mots ? Mission « détective des signaux ».
- 🤫 Nouveau — mission « Le silencieux » ajoutée le 28 mai. On montre 3 fils de discussion sur 5 jours à l'ado, il dit lequel craint le plus, et en un mot pourquoi. C'est exactement le jugement humain qu'il nous faut pour valider notre capteur silence — la calibration à la main, avant la machine.
Et nous leur demandons aussi de casser notre détecteur — ils sont meilleurs que nous pour trouver comment contourner. C'est exactement ce qu'on cherche.
Le juge ultime reste un corpus humain et la validation par les professionnels. Aujourd'hui, l'IA prépare le dossier. Vos enfants, et un jour Catherine Blaya, tranchent.
— Doctrine fondatrice, clôture
8. Le cadre pour tes enfants
- Pseudo libre, choisi par l'enfant. Pas de vrai nom, pas d'email, pas de numéro.
- Aucune donnée identifiante stockée. Pas d'IP, pas de User-Agent, pas de traceurs.
- L'enfant peut s'arrêter à tout moment, sans avoir à se justifier. Le pseudo n'est pas lié à sa personne.
- Consentement parental papier à signer (formulaire
shieldy.org/labo/consentement.html).
- Assentiment de l'enfant à l'écran en entrant : « en continuant, tu nous dis oui pour participer ».
- 3018 et 3114 visibles partout : si l'enfant ne se sent pas bien, l'aide est à un clic.
- Chatbot d'assistant sur la page, pour qu'ils n'aient à interrompre personne. Garde-fou explicite : ne joue jamais le psy, oriente sans dramatiser.
Sources internes consultées pour ce dossier (transparence)
DOCTRINE-FONDATRICE-SHELKID-27mai.md
REVUE-360-HARCELEMENT-DANS-LE-TEMPS-27mai.md
APPROFONDISSEMENT-SCIENTIFIQUE-27mai.md
POULS-DU-TELEPHONE-27mai.md
MESURE-GLISSEMENT-DEPRESSIF-27mai.md
ETHIQUE-VEILLER-SANS-SURVEILLER-27mai.md
CONSIGNE-REVUE-V4-RESULTATS.md
PLAN-DETECTION-SHIELDY-V4.md & V2.md
_data/shieldy-eval/BASELINE-V1.txt, V2.txt
_data/shieldy-eval/LOT4-VALIDATION-26mai.md
_data/shieldy-eval/NOTE-BILAN-3-LOTS-25mai.md
Corpus : CyberAgressionAdo-Large (Ollagnier & Cabrio), GroomingFR-Synth (20 batchs), Datasets-glissement (71 scénarios).