Fiche Scientifique : Blob IQ

Présentation du système

Blob IQ est un environnement de simulation neuronale avancée, intégrant :

Un réseau multicouche avec LSTM (mémoire longue durée)
Un moteur de perception en raycasting directionnel
Une boucle d’apprentissage complète avec replay, rétropropagation, et entraînement supervisé par l’humain
Une évolution neuronale progressive basée sur le principe du NEAT (NeuroEvolution of Augmenting Topologies)

Le tout est implémenté en C# dans Unity 6, en s’appuyant sur le Job System, Burst Compiler et DOTS/ECS pour une scalabilité maximale.

Structure neuronale de base

Type de couche	Taille standard	Fonction
Entrée	34 neurones	Données de perception, énergie, position, etc.
Hidden Layer 1	64 neurones	Transformation non-linéaire principale
Hidden Layer 2	49 neurones	Préparation au LSTM
LSTM	48 unités	Mémoire temporelle interne
Sortie	3 neurones	Rotation, Vitesse, Saut

Remarque : cette structure peut évoluer par mutation contrôlée via le moteur NEAT à chaque reproduction.

Processus d’apprentissage

1. Collecte sensorielle

Raycasts dans 6 directions (avant ×3, gauche, droite, arrière)
Analyse en temps réel des distances et types d’obstacles
Données encodées sous forme de vecteurs normalisés
Injectées directement dans le réseau neuronal LSTM

2. Prise de décision

Prédiction des actions par le réseau LSTM
Sorties : rotation, vitesse, intention de saut
Exécution via le moteur physique (BlobMovement.cs)
Comportement visible : déplacement, évitement, interaction

3. Feedback et optimisation

Récompenses et pénalités appliquées via BlobReward.cs
Gradients calculés par ComputeGradientsParallelJob
Mise à jour des poids via UpdateWeightsParallelJob
Mémoire quotidienne des actions et feedbacks (dailyMemory)
Prise en compte de la qualité des choix, pas juste du résultat

4. Repos et consolidation

Lors de la sieste ou du sommeil :
- Lecture des souvenirs stockés
- Rejeu des meilleures séquences avec variation
- Simulation de “rêves neuronaux” (mélange, remix, renforcement)
Apprentissage renforcé avec décroissance ou boost pondéré

5. Transmission génétique (à venir dans une phase multi-Blob)

Croisement des poids et/ou structures (NEAT-like crossover)
Héritage des caractéristiques performantes
Mutations adaptatives contrôlées (variabilité utile)
Évolution vers une génération de Blobs plus intelligents

Un système d’apprentissage inspiré par OpenAI & DeepMind

Dans Blob IQ, nous avons conçu une IA qui apprend à survivre, s’adapter et progresser, en s’inspirant directement des recherches les plus avancées en apprentissage par renforcement, comme celles menées par OpenAI dans leur publication « Learning from Human Feedback ».

Notre système respecte les fondements du RLHF (Reinforcement Learning with Human Feedback) :

Principe	Application dans Blob IQ
✅ Apprentissage contextuel	Le Blob apprend ce qui est mieux que l’alternative, pas ce qui est simplement « bon » ou « mauvais ».
✅ Punitions modérées	Les erreurs sont corrigées sans figer le comportement : pas de blocage, mais une redirection.
✅ Exploration guidée	L’IA teste des comportements variés grâce à un système de variation contrôlée.
✅ Récompenses immédiates et consolidées	Les bons choix sont renforcés immédiatement, puis consolidés pendant le sommeil et les rêves du Blob.
✅ Neutralité privilégiée au hasard	Le système favorise les choix modérés à l’aléatoire ou aux actions hasardeuses

Une architecture d’apprentissage avancée

Notre système intègre également des techniques clés issues des grands laboratoires IA :

Technique	Présente dans Blob IQ
Reward Shaping (récompenses décomposées)	✅ Oui – chaque action est évaluée en sous-comportements (évitement, vitesse, saut, etc.)
Entropy Regularization	✅ Partiellement – grâce à l’ajout de variation dans les sorties et les souvenirs remixés pendant les rêves
Feedback humain-like	✅ Oui – avec des dialogues, emojis, et expressions visuelles du Blob pour simuler un retour subjectif
Mémoire pondérée	✅ Oui – les expériences les plus significatives sont triées, rejouées et renforcées pendant le sommeil

Références scientifiques utilisées

LSTM : Colah’s Blog – Understanding LSTM
NEAT : Kenneth O. Stanley, 2002
Experience Replay : arXiv – 1910.07454
Dream replay : arXiv – 2006.03761
Human-in-the-loop : arXiv – 1704.03732

Objectifs pédagogiques et scientifiques

Montrer une implémentation fonctionnelle de réseau neuronal dans un moteur 3D temps réel
Permettre l’observation de l’émergence comportementale via apprentissage
Proposer un environnement où l’utilisateur devient entraîneur d’intelligence
Offrir une base concrète de recherche expérimentale sur la transmission, l’évolution et l’optimisation de structures neuronales

Contacts et accès

Développeur principal : DF Games Studio
Site officiel : https://www.dfgamesstudio.com/fr/blob-iq/
Contact formation / recherche : @FormationUE5Unity (YouTube)