Shelkid — Détecter le harcèlement scolaire voilé : dossier scientifique

Ce que nous vous proposons

Nous nous adressons, avec respect, aux chercheurs et aux institutions qui travaillent sur la cyberviolence, le climat scolaire, l'isolement et le traitement automatique du langage. Notre démarche est associative, gratuite et non monétisée : nous ne sollicitons ni financement, ni caution, ni vos données. Nous mettons l'outil à votre disposition — il s'exécute là où sont vos données, rien ne nous revient.

Notre intention n'a pas changé : protéger l'enfant sans le surveiller. L'outil lit l'enfant, jamais ses correspondants ; le contenu ne quitte pas l'appareil ; l'enfant garde la main. Ce projet n'a aucune finalité commerciale ; je le porte par conviction personnelle — qu'un enfant qui s'isole en silence puisse être entendu à temps.

Le principal verrou est scientifique, et nous le nommons sans rien réclamer : il n'existe pas, dans la littérature, de cohorte française d'enfants de 8 à 13 ans annotée pour le harcèlement voilé. Cette tranche d'âge y est quasi absente, et nos résultats — obtenus sur des adolescents — restent à y éprouver.
De même, la validation clinique des seuils par un pédopsychiatre reste à faire, nos capteurs n'ayant été éprouvés que sur des adultes.

Si une forme de collaboration vous paraît utile — éprouver l'outil sur vos propres données, chez vous ; confronter nos limites mesurées aux vôtres ; ou toute autre forme que vous jugeriez pertinente — nous sommes preneurs. Ce que vous en tireriez vous appartiendrait. Nous ne cherchons ni publication ni visibilité ; nous cherchons une application qui fonctionne, en plusieurs langues, et qui protège des enfants. Nous vous remercions de l'attention que vous voudrez bien accorder à ce travail.

Mise à jour ML — 12–13 juin 2026 — Six runs d'évaluation successifs sur le moteur ML (embeddings + régression logistique + 27 features structurelles).

Nouveaux résultats (proof_fusion.py, 27 features actives) :

Run 4 — record absolu FP 5 % · config SENS+STRUCT · FR+CyberAgressionAdo · rappel 61 % · harcèlement 85 %.
Données : crashtest-v2 FR + Sprugnoli WhatsApp FR + 3 015 messages réels CyberAgressionAdo-v2. Features B3 : silence >2h + heure nocturne 2h-5h. Niveau : semi-réel/équilibré.
Run 5 — B5 réciprocité régressif · FP 5 %→21 %. B5 désactivé en attente de données multi-participants.
Verrou données : corpus De Kindertelefoon / krisenchat / TRAILS nécessaires.
Run 6 — CyberAgressionAdo-Large (13/06 nuit) · config SENS+STRUCT · FR+CyberLarge · FP 2 % · rappel 62 % · harcèlement 74 % (+6 pts vs Run 4).
Données : + 5 608 messages réels CyberAgressionAdo-Large (Zenodo, 36 scénarios). La combinaison v2+Large (harc=63 %) est moins efficace que Large seul — les deux corpus se bruitent mutuellement. Candidat champion provisoire : FR+CyberLarge. À confirmer sur plus de runs.

Honnêteté sur la « signature » du murmure (mis à jour le 14/06/2026) : nous avons testé sur données réelles deux hypothèses de signature structurelle, et nous publions les deux résultats négatifs. (1) « La victime disparaît / se tait » — retirée : c'était un artefact de parsing du corpus Sprugnoli (8 conversations sur 10 avaient un horodatage à la place du locuteur). (2) « Convergence » (plusieurs contre un) — visible sur Sprugnoli (jeu de rôle, 72 %) mais NON confirmée sur données réelles avec contrôle : non discriminante sur Conversations Gone Awry (Cornell, AUC ≈ 0,49) et minoritaire (≤ 18 %) sur OAA. Conclusion honnête : aucune signature structurelle n'est, à ce jour, validée sur du réel. Le détecteur repose sur le contenu (classifieur explicable, au plafond connu) ; le vrai verrou reste l'accès à une donnée de groupe longitudinale avec groupes-contrôles sains.

Note méthodologique : les FP cités (Run 4 : 5 %, Run 6 : 2 %) sont mesurés sur un jeu semi-réel équilibré, non sur le registre SMS/chat réel. Les deux chiffres ne sont pas comparables directement au 5,40 % du moteur règles (§7).

Résumé exécutif

Synthèse chiffrée — calibrée, sans over-claim

Avertissement transversal : tous nos résultats empiriques portent sur des adolescents (12-17 ans), jamais sur la cible (8-13 ans). La pré-adolescence diffère qualitativement (l'agression indirecte culmine vers 11-13 ans, le langage et les usages changent). Chaque chiffre ci-dessous est donc une borne supérieure optimiste pour la population visée, à recalibrer.

6–21 %rappel MURMURE (réel)

La vraie métrique-titre. Le rappel sur l'agression voilée — la raison d'être de l'outil — est de 50 % (E2b) à 60 % (E5) sur un jeu équilibré 50/50 (semi-réel, optimiste) ; sur données réelles (gold-ado, n=58), il chute à 6-21 % — 3 à 10× plus bas. La métrique-titre honnête est donc ce rappel réel, faible. La thèse reste non confirmée tant qu'il n'est pas amélioré et validé sur un effectif suffisant. semi-réel + réel

+0,21AUC fil − message

Indice suggestif, pas fondateur. Sur le même corpus, un message isolé est presque indiscernable du bruit (AUC 0,556) tandis que le fil entier devient discriminant (AUC 0,762). Mais n=39, sans test de DeLong ni IC : à cet effectif les intervalles se chevauchent probablement, et 0,556 n'est pas distinguable de 0,500. Surtout, au seul held-out réellement testé (n=9, §12), l'AUC du fil tombe à 0,72 avec p=0,43 — non significatif : le 0,762 est un point sur petit échantillon, pas un acquis. Cohérent avec une thèse temporelle, jamais une preuve. exploratoire / suggestif

0,574alpha inter-juges

0,574 global — mais 0,707 sur le fil, au-dessus du plancher (0,667). L'accord inter-juges (Krippendorff, n=9 juges) vaut 0,574 en global ; il monte à 0,707 sur le fil entier et tombe à 0,314 sur le message isolé. Nuance honnête : fils et messages isolés sont des conversations différentes (les isolées choisies ambiguës) → cohérent avec la thèse, pas une preuve ; le test propre (même échange isolé vs threadé) reste à faire. Le bruit d'étiquette plafonne toute métrique supervisée → le produit « signale à un humain », jamais n'accuse. réel (ados)

0/17rappel d'un mini-LLM seul

Régression publique documentée. GPT-4o-mini, annoncé à 75 % de rappel sur cas synthétiques anglais, est tombé à 0/17 en rappel ALARME sur cas français réels. La leçon, prise avec prudence (n=17, IC large, à confirmer) : sur ces cas, le synthétique n'a pas transféré au réel — un signe que recoupent nos autres tests, sans en faire une loi générale, et sans dire « jamais un modèle seul » (les gros LLM sont par ailleurs nos meilleurs scoreurs AUC). réel (ados)

~5–24 %PPV (au rappel réel)

Le chiffre décisif, et il est sombre. Calcul dérivé (non mesuré, illustration) : au rappel réel (~15 %) et 5,40 % de faux positifs, la valeur prédictive positive vaut ~5 % à 2 % de prévalence, ~13 % à 5 %, ~24 % à 10 %. À prévalence réaliste, la grande majorité des alertes seraient de fausses alertes sur un enfant. Réserve : rappel et FP viennent de deux corpus distincts — seul un pilote à population unique donnerait une PPV interprétable. Prérequis à toute validation clinique. calcul dérivé

5,40 %faux positifs réels (fil)

Distribution GELÉE. Sur registre réel SMS/chat FR, les faux positifs au fil sont passés de 9,44 % à 5,40 % après un correctif (non validé hors-échantillon : optimiste, à re-mesurer). Le 0,00 % vanté ailleurs vient d'un corpus de contrôle synthétique non-adversaire : optimiste, non prédictif. Pas de diffusion tant que le taux réel n'est pas maîtrisé et les seuils validés cliniquement. réel (ados)

Note de cadrage. Les performances élevées sur les cas graves et explicites (ALARME) sont volontairement retirées de l'argumentaire : ces cas sont déjà bien captés par de simples règles. Mesurer sa performance sur la partie facile n'est pas l'innovation — seul compte ici le rappel sur le murmure (50-60 % jeu équilibré, 6-21 % réel), assumé comme faible.

La thèse, recadrée — ce que nous soumettons vraiment. Notre revendication n'est pas « nous savons détecter le harcèlement voilé » : les tests ne le démontrent pas encore. Elle est plus fondamentale, et plus prudente — l'agression relationnelle laisse-t-elle une signature mesurable dans la dynamique d'une relation, indépendamment du contenu des messages ? Si oui, le harcèlement scolaire n'en est qu'une application parmi d'autres (exclusion, isolement, manipulation). C'est cette question — l'observation d'un phénomène, non la performance d'un produit — que nous soumettons à la critique.

Section 1

Problème et enjeu

réel — épidémiologie externeexploratoire — verrous techniques

Le harcèlement scolaire et son prolongement numérique sont massifs, et leurs conséquences peuvent être graves, parfois dramatiques (sans être systématiquement létales). En France, selon des chiffres déclarés (auto-report), 18 % des jeunes se déclarent cyberharcelés (INSEE Références 2025 / DEPP) et 37 % rapportent du harcèlement ou cyberharcèlement (e-Enfance/3018, baromètre Caisse d'Épargne–Audirep, mai 2025) ; ces taux mesurent une violence déclarée au sens large, et non le harcèlement au sens strict d'Olweus (répétition, durée, intention de nuire, déséquilibre de pouvoir). Parmi les 6-18 ans victimes, 25 % déclarent avoir pensé au suicide ou à l'automutilation, 39 % chez les filles (e-Enfance 2025). Le suicide est la 2^e cause de décès des 15-24 ans (Santé publique France 2023). Des méta-analyses internationales (non françaises, 2014-2015) suggèrent une association avec un sur-risque d'idéation et de comportements suicidaires — et non une mortalité directe : van Geel et al. (JAMA Pediatrics 2014, n=284 375) rapportent un OR de 3,12 vs 2,16 pour l'idéation ; Holt et al. (Pediatrics 2015) un OR de 2,34 (idéation) et 2,94 (comportements suicidaires).

Le verrou n'est pas le harcèlement explicite (insultes, menaces), déjà bien capté par des règles. C'est le harcèlement voilé — moqueries répétées sans insulte, exclusion silencieuse, sous-entendus, ironie de groupe. C'est exactement le construit canonique de l'agression relationnelle (Crick & Grotpeter, 1995 ; Björkqvist, Lagerspetz & Kaukiainen ; Underwood) — une violence qui vise le lien et le statut, qu'elle passe par un canal direct ou indirect. Sa charge n'est pas dans les mots mais dans la répétition, la relation et l'effet sur la cible — ce qui le rend invisible au filtrage lexical. Verrou structurel supplémentaire : le chiffrement de bout en bout (iMessage, Signal, WhatsApp natif iOS) rend ces canaux opaques (0 % de détection possible). Toute solution doit donc opérer là où le texte est lisible par l'enfant lui-même : sur son appareil.

Figure 1 — Ampleur du phénomène en France (sources publiques)

Niveau déclaré (auto-report ; non le harcèlement au sens strict d'Olweus). Sources : INSEE Références / DEPP 2025 ; e-Enfance/3018 — baromètre Caisse d'Épargne–Audirep, mai 2025. Le suicide est la 2^e cause de décès des 15-24 ans (Santé publique France 2023).

Figure 2 — Sur-risque suicidaire associé au (cyber)harcèlement (odds ratios, méta-analyses)

Sur-risque d'idéation et de comportements suicidaires (idéation ≠ mortalité ; études internationales, non françaises). Sources : van Geel et al., JAMA Pediatrics 2014 (n=284 375) ; Holt et al., Pediatrics 2015 (méta-analyse). Justifie l'enjeu clinique de la détection précoce.

Section 2

La donnée : annotation par consensus d'un corpus français public

réel — annotation

La donnée est le véritable goulot du projet, pas le modèle. Notre socle de vérité est CyberAgressionAdo (Ollagnier et al., CNRS, Zenodo 14770265) : 5 608 messages de conversations d'adolescents français réels, anonymisés. Ce corpus est public et publié — l'inédit, c'est notre couche d'annotation par consensus multi-juges, pas le corpus lui-même. Nous attribuons clairement la contribution : protocole et labels, jamais la ressource.

Composition annotée par consensus : 202 conversations (118 « murmure », 61 « RAS », 23 « ambigu »). Un sous-ensemble de 69 conversations « gold » ultra-strict sert d'étalon de plus haute qualité.

Deux dispositifs distincts à ne pas confondre. La « médiane de 177 votes par conversation » provient de la collecte ludique de foule (annotateurs anonymes) — c'est elle qui produit les labels de consensus. L'alpha de Krippendorff (section 5) est calculé sur un panel de 9 juges, dispositif différent. Conséquence honnête : l'alpha de 0,574 porte sur le panel, pas sur les labels réellement entraînés (issus de la foule) — l'accord de la collecte de foule n'a pas été mesuré, donc le plancher de bruit réel des labels d'entraînement peut être pire que 0,574. La validité de construit de votes de foule anonyme sur du harcèlement subtil est elle-même discutable — limite assumée.

En parallèle, une campagne de collecte ludique (16 jeux, ~194 prénoms-racines — estimation prudente, possiblement sur-estimée, à préciser, 6 088 réponses sur 12,5 jours, 27 mai – 9 juin) a alimenté l'annotation. Ce dénombrement et celui de l'annotation mesurent des choses différentes et ne se combinent pas arithmétiquement.

Extensions dérivées — à déclasser en exploratoire / illustratif

Deux jeux synthétiques existent et doivent, par cohérence avec la leçon du 0/17 (« le synthétique ne transfère pas au réel »), être traités comme purement exploratoires/illustratifs, jamais évaluatifs : GroomingFR-Synth v1 (9 002 messages synthétiques, CC BY-NC 4.0) et un corpus de contrôle non-adversaire de 720 messages neutres synthétiques. Ce dernier sert à illustrer le comportement aux faux positifs, mais son 0,00 % est optimiste et non prédictif (section 7).

Figure 3 — Corpus annoté par consensus (202 conversations à consensus)

Classe	n	Part	Niveau
Murmure (agression voilée)	118	58 %	réel
RAS	61	30 %	réel
Ambigu	23	11 %	réel
Total consensus	202	100 %
Sous-ensemble gold ultra-strict	69	—	réel
Labels via collecte de foule (médiane votes/conv.)	177	—	dispositif foule
Panel pour l'alpha de Krippendorff (juges)	9	—	dispositif panel

Niveau réel (ados). Source : CyberAgressionAdo, Ollagnier et al., CNRS (Zenodo 14770265), annotation interne par consensus. Labels = foule ; alpha = panel de 9 juges : deux dispositifs distincts. Base d'annotation enrichie (58 % de positifs) ≠ prévalence naturelle (2-10 % supposés, §7) → toute métrique de classe (rappel, précision, PPV) est à recalibrer sur la prévalence réelle, et apparaît optimiste par construction sur cette base.

Section 3

Résultat central : message isolé contre fil entier

exploratoire / suggestif — n=39, aucun test inférentiel

Sur le même corpus réel et la même métrique (AUC, n=39 conversations), un message isolé est presque indiscernable du bruit (AUC 0,556, à peine au-dessus d'une ligne de base de surface à 0,527), tandis que le fil entier devient discriminant (AUC 0,762, gain apparent +0,21). C'est cohérent avec l'idée que la charge du murmure est dans la trajectoire, pas dans le message.

Ce n'est pas un « résultat fondateur prouvé ». À n=39, aucun test apparié de DeLong ni IC bootstrap n'a été réalisé ; les intervalles des deux AUC se chevauchent très probablement, et 0,556 n'est pas distinguable de 0,500. Tant que l'IC de la différence n'exclut pas 0, ce gain reste suggestif / exploratoire. Le test inférentiel reste à faire, idéalement consolidé sur les 202 conversations à consensus avec un jeu de test pré-déclaré (anti forking-paths : on ne sait pas pourquoi 39 plutôt que les 69 gold ou les 202).

Figure 4 — AUC : message isolé vs fil entier (même corpus, n=39)

Niveau exploratoire / suggestif, n=39 — sans IC ni test de DeLong. Source : CyberAgressionAdo (CNRS). 0,556 n'est pas distinguable du hasard (0,500) à cet effectif. Gain +0,21 = tendance cohérente, non significativement établie. Caveat d'interprétation : ce gain peut traduire un simple surcroît de contexte fourni au modèle ; démontrer qu'il provient de la structure relationnelle et temporelle (et non du seul volume de texte) est un verrou expérimental à part entière — c'est le cœur de la collaboration que nous recherchons.

Section 4

L'échelle de progression : de la surface à l'embarqué

semi-réel — jeux re-équilibrésréel — corpus support

La performance progresse par paliers. En AUC : surface 0,527 → petit modèle 0,587 → modèle distillé figé 0,684 → modèle distillé embarqué (on-device) 0,762 → modèle de langage ~0,79. La version embarquée s'approche du modèle de langage tout en tournant sur l'appareil — en lisant le fil localement, sans que ce contenu ne soit jamais transmis ni montré à un humain. Réserves importantes : (1) le 0,762 est une valeur ponctuelle sur petit n, non significative au seul held-out testé (0,72, p=0,43, §12) ; (1 bis) coïncidence numérique à ne pas surinterpréter : le 0,762 du « fil entier » de l'ablation (§3) et le 0,762 du « distillé embarqué » (ici, §4) sont deux mesures distinctes (ablation fenêtre-vs-message d'un côté, distillation/fine-tune de l'autre) qui tombent par hasard sur la même valeur — ce n'est pas le même run réutilisé ; (2) ces paliers ne forment pas une courbe d'apprentissage homogène — chaque marche change ≥1 condition (volume de données, modèle figé vs affiné, parfois held-out différent) : c'est une comparaison de configurations, pas une progression continue mesurée sur un même banc.

Réconciliation 0,79 vs 0 % (anticipée). Le « ~0,79 » est un benchmark AUC non sérié des gros LLM (GPT-4o : AUC 0,787 ; Gemini-2.5 : AUC 0,802). Il ne contredit pas le « 0/17 » de la section 6 : ce dernier mesure le rappel ALARME d'un mini-modèle (GPT-4o-mini), dispositif et modèle différents. Les gros LLM sont au contraire nos meilleurs scoreurs AUC — raison pour laquelle on ne généralise pas « jamais un modèle seul ».

Sur la classification à 3 classes (F1 macro, jeu Test B v2 — 107 scénarios équilibrés 50/50, donc semi-réel : extraits re-scénarisés, métriques optimistes, pas la prévalence naturelle), la progression des modèles affinés va de E-ablation 22,8 % à E5_QUALITY 81,4 %. Coût total des 5 affinages : ~22-25 USD.

Pas d'« enseignements robustes ». Le test de McNemar (correction Holm-Bonferroni) est non significatif à n=107 : les écarts entre modèles sont des tendances non confirmées, pas des preuves. « Le monolingue bat le multilingue » (78,3 vs 74,2) est du bruit à ce stade. De plus, alpha=0,574 plafonne la performance atteignable : l'incertitude d'étiquette dépasse l'écart entre modèles — reporter trois chiffres significatifs sur de tels labels n'est pas défendable. Le seul écart défendable est l'ablation (22,8 % vs ~78 %, énorme), qui indique que l'enrichissement des données (ToxiFrench 52 274 + contrôle 720) est nécessaire.

Figure 5 — Escalade AUC : de la surface au modèle de langage

Niveau : semi-réel pour les modèles affinés, réel pour le corpus. Le ~0,79 = benchmark AUC non sérié (GPT-4o 0,787 / Gemini-2.5 0,802). Sur le 0,762 identique entre la version embarquée (ici) et le fil entier (Section 3) : ce n'est ni une réplication ni une preuve. À n=39 conversations, l'AUC ne prend qu'un petit nombre de valeurs discrètes (le pas est grossier) ; deux configurations distinctes peuvent donc tomber sur la même valeur par simple granularité — à ne pas surinterpréter (et à recalculer sur un effectif plus grand).

Figure 6 — F1 macro 3 classes par modèle affiné (Test B v2, n=107, équilibré)

Niveau semi-réel (jeu équilibré 50/50, optimiste) — McNemar n.s. à n=107. Écarts < ~6 pts = tendances, bornées par le bruit d'étiquette (alpha 0,574). Seul l'écart à l'ablation (22,8) est interprétable. Phase C exige ≥196 scénarios.

Section 5

Fiabilité humaine : l'humain aussi échoue sur l'isolé

réel (ados) — n=9 juges, 202 conversations

Avant de demander à une machine de trancher, il faut savoir si des humains s'accordent. L'alpha de Krippendorff global est de 0,574, IC [0,31 ; 0,79] — accord modéré, honnêtement faible aux bornes, et sous le plancher de 0,667 que le projet s'est fixé. La décomposition est parlante : sur le message isolé, l'accord chute à 0,314 ; sur le fil entier, il monte à 0,707. Sur le sous-échantillon double-codé du pilote de fiabilité (18 conversations, 9 juges), treize atteignent ≥80 % d'accord.

Ce parallèle machine/humain n'est PAS une validation indépendante. Machine et humains se dégradent sur le message isolé pour la même raison triviale : il y a moins d'information dans un message que dans un fil (confondant « quantité d'information »). Si les labels ont été créés au niveau du fil, « le fil prédit mieux » est en partie tautologique des deux côtés. Une vraie corroboration exigerait un signal externe (issue clinique, auto-report de la cible). On présente donc ce parallèle comme une cohérence interne attendue par construction, pas comme une preuve que « c'est la nature de l'objet ».

Figure 7 — Accord inter-juges (alpha de Krippendorff) : message isolé vs fil

Niveau réel (ados), n=9 juges, 202 conversations. Plancher doctrinal : 0,667. Sous-échantillon double-codé : 13 des 18 conversations du pilote (9 juges) à ≥80 % d'accord. Cohérence interne avec la section 3 — pas une corroboration indépendante.

Verrou n°0 — l'objection la plus fondamentale, érigée en sujet. Cet alpha de 0,574 n'est pas une limite parmi d'autres : il plafonne tout le programme. Si des juges humains ne s'accordent qu'à ce niveau sur ce qu'est un murmure, alors la vérité-terrain elle-même est instable — et l'on peut légitimement demander : qu'apprend exactement un modèle entraîné sur ce consensus ? Nous l'assumons comme le premier objet de recherche, antérieur à toute performance : co-construire une définition opérationnelle du murmure et un protocole d'annotation robuste (guidelines explicites, entraînement des juges, adjudication des désaccords) pour les 8-13 ans. Tant que cet accord n'est pas relevé, aucune métrique supervisée n'est pleinement interprétable.

Section 6

Ce que nous avons écarté proprement

réel (ados/adultes)

La rigueur se mesure aussi à ce qu'on élimine. Quatre pistes testées puis écartées sur données réelles, documentées comme négatives — à ne pas re-proposer.

Rythme de frappe (keystroke). Testé sur DUX (36 sujets) et EmoSurv (124 adultes). Indistinguable comme marqueur émotionnel fiable, conforme à la littérature. Écarté.
Encodeurs français. 4 versions testées, indistinguables entre elles (~0,73 AUC chacune ; le choix d'encodeur n'apporte aucun gain marginal). Le levier n'est pas l'encodeur.
Voile générique (toxicité voilée simple, ToxiFrench). Sur 25 838 exemples, AUC 0,488 — statistiquement indistinguable du hasard (0,500) (un AUC légèrement sous 0,5 peut signaler du bruit ou une inversion d'étiquettes, à vérifier). La toxicité générique ne capture pas le murmure scolaire.
Mini-LLM seul. GPT-4o-mini, annoncé à 75 % de rappel sur 30 cas synthétiques anglais, est tombé à 0/17 en rappel ALARME sur cas FR ado réels (11,8 % sur le murmure, 94,1 % sur les neutres). Communication publique annulée.

Portée de la leçon strictement limitée. Le « 0/17 » vaut pour un mini-modèle, une métrique (rappel ALARME), n=17. Il n'établit pas « jamais un modèle seul » (les gros LLM sont nos meilleurs scoreurs AUC). La vraie inférence est : le synthétique ne transfère pas au réel — ce qui, appliqué honnêtement, déclasse aussi nos propres jeux synthétiques (GroomingFR-Synth, contrôle 720) en exploratoires. Tester GPT-4o/Gemini sur les mêmes 17 cas reste à faire avant toute affirmation doctrinale.

Figure 8 — Pistes testées et écartées (sur données réelles)

Piste	Données	Résultat	Verdict
Keystroke (rythme de frappe)	DUX 36 + EmoSurv 124 (adultes)	Pas de marqueur émotionnel fiable	écarté
Encodeurs FR (4 versions)	—	~0,73 AUC, indistinguables entre eux	écarté
Voile générique (ToxiFrench)	25 838 exemples	AUC 0,488 ≈ hasard (0,500)	écarté
Mini-LLM seul (rappel ALARME)	17 cas FR ado réels	0/17 (0 %)	écarté

Niveau réel. Registre des échecs documenté pour la communauté. Le 0,488 est indistinguable du hasard, pas un « hasard parfait ». Le 0/17 a motivé la prudence sur le synthétique, pas la doctrine du faisceau.

Transfert : aucun corpus existant ne capture le murmure (preuve directe, Igor 09/06). Nous avons testé si un détecteur entraîné ailleurs « voit » notre murmure : (1) haine implicite générique anglaise (ISHate) → AUC 0,58 ; (2) modèle publié peace_hatebert d'Ocampo, tel quel → 0,57 ; (3) modèle entraîné sur la covert aggression française de CyberAgressionAdo-Large (0,90 en interne) → 0,34, nettement sous le hasard (0,500). Caveat (même réserve que pour le 0,488) : un AUC à 0,34 — bien en dessous du hasard — est un signal probable d'inversion d'étiquettes ou de bug, à vérifier ; tant que le signe n'est pas confirmé, ce 0,34 ne peut servir de preuve que le murmure est un « construit distinct ». Les transferts anglais (0,58 / 0,57) restent, eux, exploitables. Aucun transfert positif clair — ni anglais, ni même français covert. Le murmure relationnel entre pairs est donc vraisemblablement un construit distinct, peu couvert par les corpus actuels : piste de justification du verrou n°1 (annoter cet objet), à consolider. n=58, à confirmer ; signe du 0,34 à vérifier.

Figure 9 — Régression du mini-LLM seul : synthétique anglais vs réel français

75 %

Rappel ALARME annoncé
(30 cas synthétiques EN)

0 %

Rappel ALARME mesuré
(17 cas FR ado réels)

11,8 %

Rappel MURMURE réel

94,1 %

Rappel RIEN (neutres) réel

Niveau réel (mesure du 30 mai). Leçon : le synthétique anglais ne transfère pas au français adolescent naturel. Portée limitée à ce modèle et cette métrique.

Section 7

Faux positifs, valeur prédictive et gel de distribution

réel — registre SMS/chat FRcalcul dérivé — PPV

Un détecteur qui crie au loup est inutilisable. Sur le corpus de contrôle synthétique (720 messages neutres), le taux de fausses alertes est de 0,00 % — mais ce corpus est non-adversaire, donc optimiste et non prédictif. Sur un registre réel français (SMS/chat), la mesure honnête est tout autre : au message, E5 produit ~3,56 % de faux positifs ; au fil, 9,44 % initialement, ramenés à 5,40 % après un premier correctif. Réserve : ce correctif n'a pas été validé sur un held-out distinct du banc d'évaluation — s'il a été ajusté sur ce même registre, le 5,40 % est optimiste, à re-mesurer hors-échantillon (le FP réel hors-échantillon serait probablement plus haut). À ce stade, la distribution a été GELÉE.

Le chiffre décisif manquant : la valeur prédictive positive (PPV)

Reporter uniquement le rappel masque le problème du taux de base. Calcul dérivé (formule de Bayes, non mesuré, hypothèses de prévalence) à partir de nos chiffres : rappel 60 %, faux positifs 5,40 % au fil. À prévalence réaliste et faible, la majorité des alertes seraient fausses sur un enfant — chiffre décisif pour un outil touchant des mineurs, et prérequis à la validation clinique de la section 10. Incohérence assumée du calcul ci-dessous : le rappel de 60 % vient d'un jeu équilibré 50/50 (semi-réel, optimiste) tandis que le taux de faux positifs de 5,40 % vient d'un registre réel SMS/chat FR — ce sont deux jeux distincts, et la PPV réelle est plus sombre. Au rappel réel (6-21 %, mi-fourchette ~15 %) avec le même FP de 5,40 %, la PPV à 5 % de prévalence tombe à ~13 % (vs ~37 % au rappel optimiste de 60 %) : à prévalence réaliste, près de 9 alertes sur 10 seraient de fausses alertes sur un enfant.

Figure 10 — PPV estimée selon la prévalence du murmure (calcul dérivé, non mesuré)

Prévalence supposée	Rappel (réel)	Faux positifs	PPV estimée	Lecture
2 %	~15 %	5,40 %	~5 %	~19 alertes sur 20 sont fausses
5 %	~15 %	5,40 %	~13 %	~9 alertes sur 10 sont fausses
10 %	~15 %	5,40 %	~24 %	~3 alertes sur 4 sont fausses

Niveau : calcul dérivé, non mesuré — illustration, pas une mesure. PPV = (prév·rappel) / (prév·rappel + (1−prév)·FP). Le tableau utilise volontairement le rappel RÉEL (~15 %, mi-fourchette gold-ado 6-21 %, n=58), pas le rappel optimiste de 60 % d'un jeu équilibré semi-réel (qui donnerait ~18/37/55 % — trop flatteur). Réserve forte : ce rappel réel (~15 %, gold-ado) et ce FP (5,40 %, registre SMS/chat) viennent de deux corpus distincts — les croiser reste illicite ; seule une étude passive à population unique (pilote) donnerait une PPV interprétable. À retenir : à prévalence réaliste, la grande majorité des alertes seraient de fausses alertes sur un enfant.

Les cas graves et explicites sont hors périmètre. Les détections sur cas graves/explicites (insultes ouvertes, menaces directes) sont déjà captées par de simples règles et ne constituent pas l'innovation : elles sont volontairement retirées de l'argumentaire. Tout chiffre de performance élevé porterait sur ce périmètre trivial — la seule métrique qui compte ici est le rappel sur le murmure (50-60 % jeu équilibré, 6-21 % réel), encore faible et assumé comme tel.

Figure 11 — Faux positifs : synthétique optimiste vs réel honnête, et gel

Niveau réel pour le registre SMS/chat FR ; le 0,00 % synthétique est optimiste et non prédictif. Statut : distribution GELÉE tant que le taux réel n'est pas maîtrisé et les seuils validés cliniquement. Quarantaine : les chiffres internes synthétiques très flatteurs (1,6 %, 0 %, courbes de seuils) sont exploratoires, hors conclusions.

Section 8 — extensions exploratoires non validées

Hypothèse systémique et capteurs comportementaux

exploratoire — hors périmètre validé

Section séparée à dessein. Le cœur de preuve du projet est la trajectoire conversationnelle du murmure. Tout ce qui suit (hypothèse réseau, détection de grooming, 8 capteurs comportementaux) est une extension exploratoire non validée sur la cible, présentée à part pour ne pas être confondue avec un acquis. Le grooming et le harcèlement voilé sont deux problèmes distincts.

Hypothèse réseau : mesurer la déformation du lien social

Une hypothèse plus profonde guide la R&D : le harcèlement serait une perte de réversibilité dans le réseau relationnel (exclusion progressive, pression de groupe, silence asymétrique) — on ne mesurerait pas le message mais la déformation du tissu social. Cette hypothèse s'appuie sur une littérature établie — le harcèlement comme processus de groupe (Salmivalli et al., 1996) et l'ostracisme social (Williams, 2009) — mais elle n'a pas été testée par nous sur la cible. C'est « cohérent avec » l'hypothèse — jamais un mécanisme établi, et cela ne doit pas orienter l'architecture comme un acquis.

8 capteurs comportementaux — validés sur adultes uniquement

Huit capteurs sont câblés (frappe, sommeil, mobilité, autocensure, silence, dissonance…), tous validés sur adultes/étudiants, jamais sur des mineurs. Question légitime d'un évaluateur : pourquoi empiler 8 capteurs invalidables sur la cible plutôt que de durcir l'unique signal qui marche ? Réponse honnête : ce sont des pistes, pas des forces, et chacune doit être justifiée scientifiquement ou abandonnée. Elles restent ici en réserve, hors des conclusions de performance.

Figure 12 — Ancrages théoriques de l'hypothèse réseau (références établies)

Ancrage	Référence	Apport
Harcèlement = processus de groupe	Salmivalli et al., 1996 (Aggressive Behavior)	rôles : meneur, assistant, renforçateur, témoin, défenseur
Ostracisme social	Williams, 2009	exclusion / silence comme mécanisme de menace
Équilibre des graphes signés	Cartwright & Harary, 1956	« tous contre un » = arêtes négatives convergentes

Niveau : ancrage théorique (littérature établie), non une mesure du projet. L'hypothèse réseau n'a pas été testée par nous sur la cible 8-13 ans. « Cohérent avec » — n'oriente pas l'architecture comme un acquis.

Section 9

L'éthique comme contrainte d'architecture — et ses tensions juridiques

engagements de conception — non négociables

Les principes éthiques sont câblés dans l'architecture : (1) détection 100 % sur l'appareil ; (2) le contenu est analysé localement, jamais transmis, jamais stocké, jamais montré à un humain (on en dérive un signal, on ne garde pas de copie ; le détecteur de contenu lit le texte, mais localement et sans le faire sortir — le volet latence/réaction, lui, n'a pas besoin de lire le contenu) ; (3) rien aux parents en automatique ; (4) le signal appartient à l'enfant ; (5) orientation vers un tiers de confiance (pas nécessairement les parents) et le 3018. Deux garde-fous techniques : la règle du faisceau (aucun capteur isolé ne déclenche jamais ; baseline 7 jours, minimum 3 capteurs convergents) et le verrou dentelle (sur 24 réglages, 0 jeu proposé à un enfant en danger — arbitrage final clinique). Ce sont des décisions de conception, pas des résultats mesurés.

Tensions juridiques non résolues pour des 8-13 ans — à traiter, pas à masquer. Le slogan « l'enfant jamais surveillé » est contestable : un traitement local reste un traitement. Pour cette tranche d'âge se posent trois questions ouvertes : autorité parentale (les 8-13 y sont pleinement soumis en droit français) ; consentement RGPD (l'âge du consentement numérique est 15 ans en France — un 8-13 ne peut pas consentir seul, donc consentement parental requis) ; signalement obligatoire en cas de danger. « Le signal appartient à l'enfant » entre en tension directe avec l'autorité parentale. Le dispositif doit être validé par un juriste RGPD-mineurs et possiblement la CNIL — sans quoi le partenariat académique et clinique sera refusé pour risque juridique.

Borne de prudence sur les « 0/n ». Calcul dérivé (règle des trois) : un 0 observé sur petit n n'est pas une garantie. Pour le 0/24 dentelle, la borne haute d'un IC est ~12,5 % (≈ 3/24) — on ne peut exclure jusqu'à ~1 enfant sur 8 mal servi. Pour le 0/720 synthétique, borne haute ~0,4 %. Tout « 0 » est donc « aucun cas observé, mais n insuffisant pour exclure un taux résiduel ».

Figure 13 — Garde-fous éthiques câblés (engagements de conception)

Engagement	Mise en œuvre	Nature
Détection sur l'appareil	100 %, aucune dépendance serveur	conception
Contenu transmis, stocké ou montré à un humain	jamais — analysé localement, signal dérivé, pas de copie	conception
Remontée parents automatique	aucune	conception
Propriété du signal	l'enfant (en tension avec l'autorité parentale 8-13)	à arbitrer en droit
Tiers de confiance + 3018	oui	conception
Règle du faisceau	min. 3 capteurs convergents, jamais un seul	conception
Dentelle	0/24 réglages (borne haute IC ~12,5 %)	non garanti à petit n

Engagements de conception, non des mesures de performance. Anti-outing LGBTQ+ et couverture des minorités : trou identifié, corrigé, pas encore mesuré en efficacité. Seuils cliniques restant à valider.

Section 10

Feuille de route — verrous par criticité

réel — verrousexploratoire — capteurs

Figure 14 — Verrous par ordre de criticité

#	Verrou	Pourquoi bloquant
1	Cohorte FR 8-13 ans annotée	Champ absent de la littérature ; aucune baseline externe ; toute la chaîne de preuve (mesurée sur ados) à re-valider
2	Validation clinique des seuils (pédopsychiatre)	Capteurs validés sur adultes seulement ; seuils dentelle/synthèse = arbitrage humain non mesuré → bloquant déploiement
3	Consolidation statistique (Phase C)	≥196 scénarios (significativité McNemar), DeLong sur l'AUC fondatrice, recalibration ECE/temperature scaling, combler le talon murmure (50-60 % jeu équilibré → 6-21 % réel)
4	Test E2E sur appareil physique réel	Seule preuve de bout en bout encore manquante

Niveau réel pour les verrous identifiés ; exploratoire pour les capteurs comportementaux. Cadre recherche, gratuit, mission de protection de l'enfance non monétisée.

Section 11

Données et moyens de calcul

corpus publics + corpus maisoninfrastructure maîtrisée

Le verrou du domaine est la donnée française. Le projet combine des corpus publics, un corpus original annoté par des adolescents, et une infrastructure de calcul gratuite et maîtrisée — gage de reproductibilité et d'absence de fuite de données.

Figure 15 — Principaux jeux de données mobilisés (liste complète : 32 corpus, voir bibliographie)

Corpus	Volume	Licence / source	Usage
CyberAgressionAdo v1/v2 (Ollagnier, Cabrio, Villata, Blaya)	FR, multipartie	CNRS / HAL	cœur du moteur (murmure FR)
Corpus maison Shelkid	6 088 réponses · 16 jeux · ~194 prénoms-racines (probablement < ce nombre — un participant produit plusieurs codes ; pilote : 28 codes = 9 enfants réels)	collecte propre, anonyme	annotation par consensus ado
CoMeRe	132 166 SMS/chat FR réels	CC-BY	banc de faux positifs (registre réel)
SynBullying	14 222 messages	EN + synthétique	rôles, harm conversationnel
Sprugnoli (traduit FR)	2 192 messages (jeu de rôle 12-13 ans)	recherche	exclusion annotée (rare en FR)
Voilé générique (ToxiFrench, MLMA-indirect, TRAC, ImplicitHate)	25 838 exemples	licences ouvertes	test de transfert — résultat négatif (AUC 0,488)
4 encodeurs FR (CamemBERT v1/v2, DistilCamemBERT, mDeBERTa)	—	MIT / open	comparaison (indistinguables ~0,73)

Données personnelles d'enfants : jamais publiées, agrégées uniquement. Les 32 corpus référencés et les ~20 modèles évalués figurent dans la bibliographie ci-dessous.

Infrastructure de calcul — gratuite, dédiée, reproductible

Toutes les mesures (reproduction du champion E5, distillation, embeddings, fine-tuning) tournent sur un serveur GPU dédié, NVIDIA L40S 48 Go (pile ollama + PyTorch/CUDA), sans dépendance à une API payante. Ce choix garantit la reproductibilité, l'absence de transmission de données à un tiers, et démontre la faisabilité « on-device » : le modèle distillé (AUC 0,762) est dimensionné pour s'exécuter sur l'appareil de l'enfant, le contenu ne quittant jamais le téléphone.

Annexe — bibliographie

Références (184)

aucune inventée · références consolidées

Références mobilisées ou citées par le projet, classées par domaine. Les références dont les coordonnées précises restent à compléter seront finalisées avant toute publication formelle. Doublons consolidés.

Harcèlement, agression relationnelle & ostracisme

1. Björkqvist & Lagerspetz (1988-1992) — agression indirecte. 2. Crick & Grotpeter (1995), Child Development 66(3). 3. Olweus (~1993-1996), rBVQ/OBVQ. 4. Salmivalli et al. (1996), Aggressive Behavior 22(1). 5. Salmivalli & Voeten (2004), PMC11851402. 6. Smith, P. K. — cyberbullying. 7. Salmivalli (1996+) — rôles du groupe. 8. Vaillancourt — statut/cortisol. 9. Latané & Darley — intervention du témoin. 10. Williams (2009) — ostracisme. 11. Casper & Card (2017) — méta-analyse. 12. Cyberball (Williams et al.). 13. Sargioti et al. (2022), DABSS, PMC9969485.

Réseaux & dynamique de groupe

14. Vicsek (1995). 15. Cartwright & Harary (1956). 16. Heider (1946). 17. Ballerini & Cavagna (2012).

Détection séquentielle & signal faible

18. Neyman-Pearson. 19. Page (1954), CUSUM. 20. Donoho & Jin (2004), Higher Criticism. 21. SPRT. 22. eRisk CLEF 2024/2025 (ERDE), CEUR-WS Vol-3740/4038. 23. SINAI (2025), arXiv:2509.19861.

Auto-excitation & contagion

24. Hawkes (1971). 25. Masuda et al. 26. Soni et al. (2020), FM-Hawkes. 27. Rizoiu et al. (2017/2020), arXiv:2006.06167. 28. Yao, Chelmis & Zois (2020/2021), 10.1145/3441141.

Stigmergie, quorum, seuils & phases

29. Bonabeau & Theraulaz. 30. Keller & Segel (1971). 31. Bassler & Miller. 32. Newman — percolation. 33. Granovetter (1978). 34. Hegselmann & Krause. 35. Noelle-Neumann — spirale du silence. 36. Ising (champ moyen).

Réciprocité, réconciliation, anthropologie

37. Nowak & Sigmund — réciprocité indirecte. 38. Ohtsuki — leading-eight. 39. Nowak (1992+). 40. de Waal & van Roosmalen (1979). 41. Strauss (2019) — hyènes. 86. Girard (1972/1982). 87. Minuchin (1974). 88. Cybernétique (feedback). 89. Hatfield — contagion émotionnelle.

Linguistique & pragmatique

42. Searle (1975). 43. Grice (1975). 44. ElSherief et al. (EMNLP 2021), Latent Hatred. 45. Menini & Moretti (FBK/IRIT). 46. Lu et al. (Georgia Tech, 2025) — victim-centered.

NLP / toxicité / hate speech & corpus

47. Van Hee et al. (2018), AMiCA, PLOS ONE. 48. Ollagnier, Cabrio, Villata & Blaya (2022/2024), CyberAgressionAdo, LREC/LREC-COLING/TAL. 49. Cheng, Silva & Liu (HANT). 50. Losada, Crestani & Parapar (eRisk). 51. Danescu-Niculescu-Mizil et al. (Cornell 2018), Conversations Gone Awry. 52. Hartvigsen et al. (~2022), ToxiGen. 53. Sprugnoli (2018, trad. FR 2026), W18-5107. 54. SynBullying. 55. TRAC-1. 56. MLMA. 57. HateCheck. 58. M-Phasis (LREC 2022). 59. CAD (CC-BY-4.0). 60. ConvAbuse (CC-BY-4.0). 61. ImplicitHate. 62. Civil Comments (CC0). 63. CoMeRe (132 166 msgs, CC-BY). 64. « What's up, Switzerland? » (UZH). 65. 88milSMS. 66. textdetox FR. 67. French Hate Superset. 68. ToxiFrench (Sciara et al. 2025), arXiv:2508.11281. 69. Jigsaw / Perspective API. 70. Detoxify / XLM-R toxic.

Transformers & modèles français

71. Martin et al. (2020), CamemBERT, arXiv:1911.03894. 72. Antoun, Sagot & Seddah (2023), CamemBERTa, arXiv:2306.01497. 73. Antoun et al. (2024), CamemBERT 2.0, arXiv:2411.08868. 74. cmarkea (2022), DistilCamemBERT. 75. Le et al. (2020), FlauBERT, arXiv:1912.05372. 76. He et al. (2021), DeBERTaV3, arXiv:2111.09543. 77. Conneau et al. (2020), XLM-R, arXiv:1911.02116. 78. Caselli et al. (2020), HateBERT, arXiv:2010.12472. 79. Hinton, Vinyals & Dean (2015), Distillation, arXiv:1503.02531.

Grooming & manipulation

80. O'Connell (2003). 81. Street et al. (2024), arXiv:2409.07958. 82. BF-PSR (USP). 83. PAN12/PANC, Vogt et al. (2021), ACL. 84. Park et al. (2025), SCoRL, arXiv:2503.06627. 85. Patronus AI (2024).

Calibration & incertitude

124. Platt (1999). 125. Zadrozny & Elkan (2002), KDD. 126. Vovk, Gammerman & Shafer (2005). 127. Gal & Ghahramani (2016), arXiv:1506.02142. 128. Lakshminarayanan et al. (2017), arXiv:1612.01474. 129. Manokhin (2024), TACL.

Architectures temporelles & multi-acteurs

130. Gu & Dao (2023), Mamba, arXiv:2312.00752. 131. Jacobs, Van Hee & Hoste (2020), arXiv:2010.06640. 132. Pradhan et al. (2024), ESIHGNN, arXiv:2405.03960. 133. Jiao et al. (2020), PMC8625403. 134. Losada & Crestani (2016), CLEF eRisk.

arXiv additionnels (2025-2026)

135. Chehbouni et al., arXiv:2501.12537 (AAAI 2025). 136. Langlais et al. — backtranslation, ~1,7 M tweets FR synthétiques. 137. Park et al., arXiv:2503.06627 (NAACL 2025). 138. arXiv:2502.12563 (2025). 139. Sciara et al., arXiv:2508.11281.

Mycologie & criticité (anti-exemples)

90. Simard — Wood Wide Web (hypothèse débattue). 91. Karst, Jones & Hoeksema (2023), Nature Ecology & Evolution. 92. Bak (1996+) — criticité auto-organisée.

Prévalence & santé publique (France/Europe)

93. INSEE Références 2025 (SSMSI/DEPP). 94. e-Enfance/Caisse d'Épargne (2024, Audirep). 95. Santé publique France (2023). 96. Rapport Sénat (2021). 97. EU Kids Online (LSE). 98. JRC Commission EU (2025). 99. Görzig, Milosevic & Staksrud (2017). 100. European Child & Adolescent Psychiatry (2022). 101. Tippett & Wolke (2014). 102. Arcep/CREDOC (2024). 103. DEPP (2024). 104. Cohorte Elfe/Inserm. + van Geel et al. (JAMA Pediatrics 2014, n=284 375) ; Holt et al. (Pediatrics 2015).

Recherche française (Blaya, Debarbieux)

105. Blaya (2025), La cyberviolence, Que sais-je ?, PUF, ISBN 9782715429345. 106. Blaya, L'école à l'ère du 2.0, HAL halshs-03534707. 107. Blaya et al., CyberAgressionAdo-v1, HAL hal-03765860. 108. Debarbieux, Du climat scolaire (MEN). 109. Debarbieux (2011), Refuser l'oppression quotidienne.

Programmes éducatifs & cadre

110. KiVa (Turku). 111. Kärnä et al., PubMed 23659182. 112. Olweus (Norvège). 113. Eoullim (Corée). 114. NIER/kokoro (Japon). 115. FUSE (Irlande). 116. Common Sense. 117. CEOP/Internet Matters/MediaSmarts. 118. StopBullying.gov. 119. Be Internet Awesome (Google). 120. eSafety (Australie). 121. Kit ISC « Vivre ensemble » (ANCT). 122. pHARe (éduscol). 123. OK Groomer.

Données privées (avec accord) & corpus réseau

140. SNARE (Groningen). 141. Xinyin Chen — Shanghai. 142. Chine SAOM 2025. 143. Chili/Santiago (RSiena 2019). 144. KiVa (Turku). 145. TRAILS/PROSPER/Add Health (USA). 146. Future Proofing (Australie, n=934). 147. Kalahari Meerkat (Clutton-Brock et al. 2023). 148. Amboseli Baboon (babase). 149. Cayo Santiago macaques (CPRC). 150. Hyènes (Holekamp/Strauss). 151. GSHS (OMS). 152. PISA/TIMSS/KCYPS. 153. Newcomb (1956). 154. Cohorte tchèque (Prague).

Corpus EN parqués

155. Reddit (~2M). 156. EDOS (SemEval-2023 t.10). 157. CONDA/Gab. 158. Jigsaw Toxicity (159k).

Droit & éthique

159. EU AI Act (Art. 5, 3(34), Annexe III). 160. Lignes directrices C(2025) 5052. 161. RGPD Art. 8/9. 162. CNIL Reco 4 & 5. 163. ICO Children's Code (UK). 164. COPPA révisé (USA). 165. Age Appropriate Design Code (UK 2021).

Outils, librairies & divers

166. R xergm/btergm/RSiena. 167. ewstools. 168. earlywarnings (R). 169. ONNX Runtime Mobile. 170. HF AutoTrain. 171. optimum-cli. 172. Hugging Face. 173. Modal. 174. Zenodo/GitHub/figshare. 175. Ortolang. 176. E. Stark (UZH). 177. A. Ollagnier (UCA). 178. C. Blaya. 179. É. Debarbieux. 180. Franklin (2017), No Oracle. 181. Boettiger-Hastings — prosecutor's fallacy. 182. ROOST Coalition (2025). 183. OFMIN (28 767 signalements, 2024). 184. StopNCII.org.

184 références extraites des documents de travail du projet — aucune inventée. Quelques coordonnées précises seront finalisées avant publication formelle. Doublons consolidés (CyberAgressionAdo, KiVa, eRisk). Provenance par fichier disponible sur demande.

Section 12

Tests inférentiels — ce que les p-values disent, et ne disent pas

calcul réel — serveur GPU interne (Igor)

À la demande de relecteurs, nous avons exécuté les tests d'inférence manquants — DeLong sur l'AUC, intervalle de confiance bootstrap, McNemar entre modèles — et nous en rapportons le résultat quel qu'il soit.

Test	Résultat	Lecture
AUC sur held-out propre (n=9)	0,72	DeLong p = 0,43 : à n=9, l'effectif est trop faible pour conclure (IC95 [0,17 ; 1,00], bootstrap [0,13 ; 1,00]). Résultat ni confirmé ni infirmé — cohérent avec l'hypothèse, mais non concluant faute de données.
McNemar (candidat vs distillé)	p = 1,0	Aucune différence significative entre modèles : l'écart observé est compatible avec du bruit.
Banc élargi gold58 (n=58)	0,92 ⚠	Apparemment p < 0,001 — mais ce banc recoupe vraisemblablement les données d'entraînement (le champion figé ne faisait que 0,58 sur banc frais). Écarté par prudence, cohérent avec la rétractation de eval-gold100. Non retenu comme preuve.

Conclusion inférentielle, en toute honnêteté : à ce stade, nos résultats sont compatibles avec l'hypothèse, mais l'effectif (sur banc held-out non contaminé) est insuffisant pour conclure — c'est le facteur limitant, pas (encore) le modèle. C'est précisément ce qui motive le verrou n°1 : un corpus annoté plus grand sur la cible 8-13 ans permettra seul de trancher. Par rigueur, les AUC élevées obtenues sur des bancs ré-équilibrés ou possiblement vus à l'entraînement ne sont pas retenues comme preuves. Calcul exécuté le 9 juin 2026 sur serveur GPU interne (Igor) ; scripts et sorties conservés.

Annexe

Limites assumées

Ce que nous ne pourrons pas savoir avant un déploiement encadré. Trois inconnues resteront ouvertes même après le pilote : le taux de faux positifs réel sur la population et les usages cibles ; la valeur prédictive réelle (faute de taux de base connu) ; l'acceptabilité par les enfants eux-mêmes. Nous l'écrivons pour qu'aucun partenaire ne l'apprenne après coup : ce sont des limites structurelles, pas des oublis.

Glissement de population (le trou le plus profond). Aucun résultat n'a été obtenu sur la cible 8-13 ans. Tous les résultats empiriques portent sur des adolescents (CyberAgressionAdo) ou des adultes (EmoSurv, DUX). Toute la chaîne de preuve — AUC 0,762, alpha 0,574, rappels — est à re-valider sur les 8-13 ans, où l'agression indirecte, le langage et les usages diffèrent qualitativement. « Validé sur ados, visé pour enfants » : c'est l'objet du verrou n°1.

n petit, sans inférence sur les résultats clés. AUC fondatrice sur n=39 sans DeLong ni IC (donc « suggestif », pas « fondateur ») ; McNemar non significatif sur n=107 (Holm-Bonferroni) → les écarts entre modèles sont des tendances. Phase C ≥196 scénarios requise.

Le bruit d'étiquette plafonne la performance. Alpha 0,574 < plancher 0,667, IC [0,31 ; 0,79]. L'incertitude d'annotation dépasse l'écart entre modèles : aucune métrique supervisée ne devrait être reportée à plus de 2 chiffres significatifs tant qu'alpha < 0,667.

Métrique-titre faible : murmure 50-60 % de rappel sur jeu équilibré, mais 6-21 % sur données réelles (gold-ado n=58). Sur données réelles, c'est donc la majorité des cas subtils (≈ 79-94 %) qui échappe au système, pas seulement la moitié. C'est l'axe prioritaire ; la thèse reste non confirmée tant que le murmure n'est pas significativement > hasard.

PPV probablement médiocre. Calcul dérivé : ~18 % à 2 % de prévalence, ~37 % à 5 %, ~55 % à 10 %. La majorité des alertes seraient fausses à prévalence réaliste. Taux de base réel inconnu.

Faux positifs réels non maîtrisés. 5,40 % au fil après correctif → distribution GELÉE. Le 0,00 % synthétique est optimiste. Taux réel définitif connu seulement en phase passive de déploiement.

« Réel » vs « semi-réel ». Les jeux équilibrés 50/50 (36, 107) sont des extraits re-scénarisés → semi-réels et optimistes, jamais la prévalence naturelle. La provenance de chaque jeu (39/36/69/107/17) doit être tracée et un jeu primaire pré-déclaré (anti forking-paths).

Quarantaine des chiffres synthétiques. Fausses alertes à 1,6 % puis 0 %, couvertures 92/83 %, courbes de seuils : tous synthétiques, exploratoires, hors conclusions. Par cohérence avec la leçon du 0/17, GroomingFR-Synth et le contrôle 720 sont déclassés en illustratifs.

Tensions juridiques 8-13 non tranchées. Autorité parentale / consentement RGPD (<15 ans) / signalement obligatoire. Validation juriste RGPD-mineurs et possiblement CNIL requise. « Jamais surveillé » à nuancer : traitement local = traitement.

Hypothèse systémique et capteurs. L'hypothèse réseau = ancrage théorique (Salmivalli, Williams), non testée par nous sur la cible ; hors périmètre validé. 8 capteurs validés sur adultes. Chiffrement (iMessage/Signal/WhatsApp natif iOS) : 0 % de détection possible. Test E2E sur appareil physique : jamais réalisé.

Vocabulaire calibré. « Preuve/prouvé » est réservé aux IC excluant nettement le hasard sur la cible (aucun à ce stade). Partout ailleurs : « suggère / cohérent avec / indice ».