SOS ÉCRANS · association loi 1901

Dossier Shelkid — ce que nous avons essayé

Mesures, méthodologie, et ce qui ne marche pas encore. Mis à jour le 28 mai 2026.

Cher Igor,

Voici, posé honnêtement, où nous en sommes sur Shelkid — l'outil que nous construisons à SOS Écrans pour qu'un enfant en ligne ne soit plus seul quand il glisse.

Tu vas voir : il y a des choses qui marchent, et d'autres qui ne marchent pas. Nous avons essayé d'écrire ce dossier comme nous travaillons : décrire avant de prescrire, montrer les chiffres, dire les trous. Pour qu'avant de confier tes enfants à notre petit Labo, tu saches exactement où ils mettent les pieds — et à quoi servira leur regard.

Merci, sincèrement. 💛
— Emmanuel & l'équipe

1. Pourquoi nous faisons ça

Le harcèlement en ligne n'est presque jamais un coup unique. C'est une goutte d'eau qui revient : ce qui blesse, ce n'est pas une vanne, c'est la vanne tous les jours, sans répit. En 2025, le 3018 a reçu 124 500 sollicitations, dont 14 % concernaient le cyberharcèlement. Et souvent, l'enfant n'en parle à personne.

Nous construisons un outil qui peut servir de filet — pas un mouchard, pas un oracle, pas un score. Il essaie de sentir, sans lire, qu'un enfant glisse, et de lui rendre le signal à lui d'abord.

Shelkid prend le pouls de la vie intérieure d'un enfant telle qu'elle transpire dans son téléphone — pour la lui rendre, jamais pour l'épier. On ne lit pas ce qu'il dit ; on sent la forme de ce qui lui arrive, et on lui tend un miroir, pas une vitre sans tain. — Doctrine fondatrice Shelkid, 27 mai 2026

2. Les 4 couches d'écoute

Notre intuition : aucun signal seul ne suffit à voir un enfant qui glisse. Nous superposons quatre lectures, chacune avec sa mesure.

1

🔤 Le sens

Lit ce qui est dit. Mots-clés, regex, signaux lexicaux.

+5,1 → 10,5 % de rappel harcèlement (V1→V2)
2

🕸️ La forme

Voit comment on se parle : secret, isolement, asymétrie, basculement.

+18,5 → 34,9 % de rappel grooming (V4)
3

📅 La durée

Voit la pente. Mémoire 3 jours, glissement vs coup d'un soir.

80 % des glissements vrais, 0 % de fausse alarme
4

📈 Le pouls

Métadonnées seules : sommeil, mobilité, lenteur d'écriture. Jamais le contenu.

À construire — validé par littérature adulte

3. Notre méthodologie

Avant de te montrer les chiffres, voici comment nous les obtenons. Pour que tu puisses juger ce qu'ils valent.

1
Les corpus Nous travaillons sur trois jeux de données. CyberAgressionAdo-Large (Ollagnier & Cabrio — Catherine Blaya co-autrice) : ~8 745 énoncés français annotés sur chats multipartites ados. GroomingFR-Synth : 1 581 conversations synthétiques sur 20 batchs (trust-building, exclusivity, sextorsion-flash, gaming…), direction prouvée mais pas certifiée. Datasets-glissement : 71 scénarios sur glissement, détresse masquée, retrait silencieux, leurres sains.
2
Lots aveugles, seuils gelés À chaque palier, nous gelons les seuils du moteur, puis nous le mesurons sur des lots inédits qu'il n'a jamais vus. Pas de réajustement post-hoc. Le Lot 4 (26 mai) — 24 cas graves + 6 adultes légitimes + 16 conversations neutres — a été créé pour précisément casser ce que nous croyions vrai.
3
Trois juges, trois styles Pour ne pas dépendre d'un seul générateur, nous demandons à Claude, Gemini et ChatGPT de produire des cas dans leur style propre. C'est ce qui nous a montré que notre moteur est fragile au style : 75 % de rappel en Gemini, 43 % en ChatGPT, sur le même moteur.
4
Le Bouclier de Vérité Chaque résultat est classé selon son niveau de preuve : primaire (mesuré sur corpus public), secondaire (mesuré sur nos jeux), tradition (consensus de littérature), reconstruction (notre intuition pas encore mesurée). L'absence de preuve est affichée, jamais comblée.
5
Le Sceau humain (Règle 6) L'IA prépare le dossier. Elle ne tranche jamais. Le passage d'une mesure de « probable » à « validé » est un acte humain — Catherine Blaya, un pédopsychiatre, ou un comité d'éthique. Aujourd'hui aucune mesure Shelkid ne porte ce sceau ; c'est explicitement une preuve de concept.
6
Anonymat strict Aucune IP n'est stockée. Aucun nom. Aucun email. Aucun User-Agent. Aucun traceur tiers. Les pseudos sont choisis par les enfants et filtrés contre toute fuite involontaire. Le rate-limit anti-bot utilise des IP hashées non-réversibles.
7
Tout sur le téléphone Le pouls du téléphone (couche 4) reste 100 % local. Aucune métadonnée n'est exfiltrée. Le signal va d'abord à l'enfant, jamais à l'adulte sans consentement explicite de l'enfant — c'est la base scientifique (Wisniewski, CIDE), pas une option de design.

4. Les chiffres, sans bricolage

📊 V1 → V2 — Rappel sur le harcèlement (corpus Ollagnier, 5918 cas)
V1 (mots-clés)
5,1 %
V2 (sens enrichi)
10,5 %
Cible (futur)
~50 %

Gain ×2 sans dégrader la précision. Les fausses alarmes sur 3 127 conversations saines sont passées de 8 à 13 — accroissement minime.

🕸️ V4 (forme de la relation) — Rappel grooming (1 581 conversations)
Baseline (mots)
18,5 %
V4 (forme)
34,9 %

Précision améliorée aussi (88,3 → 90,6 %). La forme capte ce que les mots seuls rataient — particulièrement les patterns de séduction et d'isolement.

⏳ Étage du temps (mémoire 3 jours) — Lot test
Glissement capté
80 %
Détresse masquée
36 %
Retrait silencieux (moteur live)
0 %
Retrait silencieux (capteur candidat, interne)
75 %
Fausse alarme (sains)
0 %

L'étage du temps prouve sa valeur sur les glissements clairs, mais reste aveugle au retrait silencieux. C'est notre plus gros trou — et c'est exactement pourquoi nous avons besoin du Labo.

Lot 4 — validation à œil neuf (26 mai)

TestRésultatLecture
Cas graves complètement nouveaux (24)100 % (24/24)Aucun rouge raté
Adultes légitimes laissés tranquilles (6)100 % (6/6)Aucune accusation à tort
Fausses alarmes sur bavardage banal (16)44 % (7/16)Cri-loup encore élevé

5. Chronologie des tests

  1. 17 mai — Première preuve de concept en simulateur iOS. Détection grooming + manipulation émotionnelle en moins de 2 secondes. Cas critique « enfant silencieux qui ne répond pas » : alarme au 3e message reçu.
  2. 25 mai — Baseline V1 mesurée : harcèlement 5,1 %, grooming 17,3 %. Honnête, c'est bas.
  3. 25 mai (soir) — V2 livrée : harcèlement ×2 (10,5 %), sans dégrader précision ni faux positifs.
  4. 26 mai — Lot 4 fraîches, seuils gelés : 100 % des cas graves attrapés, 100 % adultes OK, mais 44 % de cri-loup sur neutre.
  5. 27 mai — V4 (forme de la relation) : grooming passe à 34,9 % de rappel, précision +2,3 points.
  6. 27 mai — Étage du temps mesuré sur 71 scénarios : 0 % de fausse alarme sur sains, mais angle mort prouvé sur le retrait silencieux (0/8).
  7. 27 mai (nuit) — Ouverture du Labo en ligne (shieldy.org/labo) pour faire entrer la vraie langue ado dans le corpus.
  8. 28 mai (matin) — Premier test avec ~20 ados en classe. Cohorte stage active.
  9. 28 mai (après-midi)Branchement effectif des 4 couches dans le moteur de l'extension (capteur-silence + capteur-dissonance + moteur-couches). Première mesure live : retrait silencieux passe de RIEN → ALARME en 4 jours sur scénario-type.
  10. 28 mai (fin d'après-midi)Mission « 🤫 Le silencieux » ajoutée au Labo. 8e jeu : 3 fils côte à côte, l'ado choisit lequel craint + un mot pourquoi. Calibration humaine de l'angle mort.

6. Ce qui ne marche pas encore

⚠️ Le Bouclier de Vérité — nos trous, tels quels

6 bis. Notre angle mort prioritaire — branché ✅

L'enfant qui se tait est précisément celui qu'on cherche. Quand le harcèlement s'installe, il ne crie pas plus fort — il écrit moins. Nous lisons le rythme, jamais les mots : une parole qui s'effondre sous sa propre voix, plusieurs jours d'affilée, est un signal de détresse documenté par la clinique (HAS, item retrait de l'ADRS) comme par les capteurs (Saeb 2015, Wang/StudentLife 2018). Ce n'est pas un oracle (Franklin 2017 nous l'interdit) : c'est un murmure qu'on rend à l'enfant. — Synthèse interne, 28 mai 2026

Ce que la science a établi

Le retrait n'est pas une intuition d'adulte inquiet — c'est un construit clinique reconnu. L'item 9 de l'ADRS ado (validée HAS 2014) mesure explicitement le « retrait relationnel ». La Théorie interpersonnelle du suicide de Joiner (Van Orden 2010-2012) pose deux piliers — se sentir un poids + ne plus faire partie — qui se manifestent par retrait avant verbalisation. Le silence précède le cri.

Et le silence est mesurable, sans lire le contenu :

SignalCe qu'il mesureSourcePreuve
Effondrement du volume d'écritureQuasi-mutisme soutenu vs sa propre voixWang/StudentLife 2018secondaire
Ratio messages envoyés / reçusAsymétrie d'engagementDe Choudhury 2013secondaire
Diversité du graphe socialRétrécissement du cercle (Joiner)Joiner/Van Orden 2010secondaire
Décrochage de fils actifsSortie sans le dire de groupesWisniewski (teen online safety)tradition
Irrégularité veille-sommeilDésynchronisation circadienneBernert 2017 ; Saeb 2015 (r=-0,63 PHQ-9)primaire
Latence de frappeRalentissement psychomoteurZulueta/BiAffect 2018 (≈-30 % en dépression)primaire
Ratio stories consultées / publiéesPosture passive (comparaison)Kleemans 2016 (RCT 14-18 ans)secondaire

Ce qu'on a branché — 28 mai 2026

Quatre modules charchés en local et désormais activés dans le manifeste de l'extension :

Première mesure du moteur branché

Simulation live sur deux scénarios-types, exécutée à la mise en service le 28 mai :

ScénarioContenu seul (moteur V2)Moteur 4 couches branché
Enfant qui se replie
J1-J2 actif (58 chars/jour, baseline) puis J3-J5 quasi-mutisme
RIEN (0 signal)MURMURE J3 · ALARME J4-J5 (score 2.91)
Détresse masquée
« mdr je sers à rien 😭 »
RIEN (humour neutralise)MURMURE J1 · ALARME J2 (score 2.69)

Baseline calibrée automatiquement par enfant (ici 58 chars/jour). Sans hausse des fausses alarmes côté contenu : le moteur de sens ne voit toujours rien dans ces deux scénarios — c'est exactement ce qui était à corriger. Le 0/8 du retrait silencieux est levé pour les cas type.

Reste à faire — sprint suivant

  1. Mesurer en grandeur réelle : passer les 71 scénarios complets dans le moteur branché (avec embeddings réels) et confirmer le 0/8 → 6/8 promis par le banc d'essai Python.
  2. Adopter le protocole eRisk/ERDE en interne — mesurer « à quel jour on voit monter » avec la latence.
  3. Calibration longue : observer comment la baseline évolue sur 4 semaines réelles (cohorte stage du Labo).
  4. Le murmure d'abord — si le signal monte : on s'adresse à l'enfant, jamais à l'adulte sans son accord.

Garde-fous — pourquoi on est prudent

Le silence est ambigu — vacances, examens, téléphone confisqué, désintérêt sain. On exige donc un effondrement soutenu (pas une baisse d'un jour), un signal pondéré jamais déclencheur seul, et une lecture de forme jamais de contenu. Le filet de Franklin reste actif : signal de détresse, jamais oracle.

7. Pourquoi tes enfants nous aident

Tout ce que nous avons mesuré jusqu'ici, c'est sur du texte écrit par des robots qui imitent des ados. Ça écrit trop propre, ça n'a pas le bon slang, ça ne sait pas quels emojis veulent dire quoi cette saison. Et surtout : c'est nous, adultes, qui décidons aujourd'hui ce qui est grave et ce qui est anodin — alors qu'on a 20 ans de trop pour avoir le bon jugement.

Quatre choses qu'aucun corpus synthétique ne donne, et que tes enfants peuvent donner :

  1. La vraie langue. Mots, emojis chargés, inside jokes — ce que Claude et Gemini ne savent pas faire. Missions « atelier d'écriture », « slang du jour », « émojis & sous-entendus ».
  2. La vérité-terrain. Un ado lit un message et tranche : rien / vanne / ça craint / grave. C'est leur jugement qui devient la référence — plus le nôtre. Mission « le juge ».
  3. L'angle mort de l'enfant qui se tait. Notre 0/8. À quel jour ça commence à craindre pour eux ? Qu'est-ce qui leur met la puce à l'oreille avant les mots ? Mission « détective des signaux ».
  4. 🤫 Nouveau — mission « Le silencieux » ajoutée le 28 mai. On montre 3 fils de discussion sur 5 jours à l'ado, il dit lequel craint le plus, et en un mot pourquoi. C'est exactement le jugement humain qu'il nous faut pour valider notre capteur silence — la calibration à la main, avant la machine.

Et nous leur demandons aussi de casser notre détecteur — ils sont meilleurs que nous pour trouver comment contourner. C'est exactement ce qu'on cherche.

Le juge ultime reste un corpus humain et la validation par les professionnels. Aujourd'hui, l'IA prépare le dossier. Vos enfants, et un jour Catherine Blaya, tranchent. — Doctrine fondatrice, clôture

8. Le cadre pour tes enfants

Tu peux y aller

Si tu veux donner un regard d'adulte avant de proposer le Labo à tes enfants :

→ Voir l'expérience comme un ado

Et si tu veux qu'on en parle, ou voir le code, ou rencontrer Catherine Blaya (à venir) : [email protected]

Sources internes consultées pour ce dossier (transparence)
DOCTRINE-FONDATRICE-SHELKID-27mai.md
REVUE-360-HARCELEMENT-DANS-LE-TEMPS-27mai.md
APPROFONDISSEMENT-SCIENTIFIQUE-27mai.md
POULS-DU-TELEPHONE-27mai.md
MESURE-GLISSEMENT-DEPRESSIF-27mai.md
ETHIQUE-VEILLER-SANS-SURVEILLER-27mai.md
CONSIGNE-REVUE-V4-RESULTATS.md
PLAN-DETECTION-SHIELDY-V4.md & V2.md
_data/shieldy-eval/BASELINE-V1.txt, V2.txt
_data/shieldy-eval/LOT4-VALIDATION-26mai.md
_data/shieldy-eval/NOTE-BILAN-3-LOTS-25mai.md
Corpus : CyberAgressionAdo-Large (Ollagnier & Cabrio), GroomingFR-Synth (20 batchs), Datasets-glissement (71 scénarios).
SOS Écrans · association loi 1901 · RNA W751283606
shieldy.org · [email protected]
Document interne — non destiné à diffusion publique avant Sceau scientifique.