Fiche Scientifique : Blob IQ
Présentation du système
Blob IQ est un environnement de simulation neuronale avancée, intégrant :
Un réseau multicouche avec LSTM (mémoire longue durée)
Un moteur de perception en raycasting directionnel
Une boucle d’apprentissage complète avec replay, rétropropagation, et entraînement supervisé par l’humain
Une évolution neuronale progressive basée sur le principe du NEAT (NeuroEvolution of Augmenting Topologies)
Le tout est implémenté en C# dans Unity 6, en s’appuyant sur le Job System, Burst Compiler et DOTS/ECS pour une scalabilité maximale.
Structure neuronale de base
Type de couche | Taille standard | Fonction |
---|---|---|
Entrée | 34 neurones | Données de perception, énergie, position, etc. |
Hidden Layer 1 | 64 neurones | Transformation non-linéaire principale |
Hidden Layer 2 | 49 neurones | Préparation au LSTM |
LSTM | 48 unités | Mémoire temporelle interne |
Sortie | 3 neurones | Rotation, Vitesse, Saut |
Remarque : cette structure peut évoluer par mutation contrôlée via le moteur NEAT à chaque reproduction.
Processus d’apprentissage
1. Collecte sensorielle
Raycasts dans 6 directions (avant ×3, gauche, droite, arrière)
Analyse en temps réel des distances et types d’obstacles
Données encodées sous forme de vecteurs normalisés
Injectées directement dans le réseau neuronal LSTM
2. Prise de décision
Prédiction des actions par le réseau LSTM
Sorties : rotation, vitesse, intention de saut
Exécution via le moteur physique (
BlobMovement.cs
)Comportement visible : déplacement, évitement, interaction
3. Feedback et optimisation
Récompenses et pénalités appliquées via
BlobReward.cs
Gradients calculés par
ComputeGradientsParallelJob
Mise à jour des poids via
UpdateWeightsParallelJob
Mémoire quotidienne des actions et feedbacks (
dailyMemory
)Prise en compte de la qualité des choix, pas juste du résultat
4. Repos et consolidation
Lors de la sieste ou du sommeil :
Lecture des souvenirs stockés
Rejeu des meilleures séquences avec variation
Simulation de “rêves neuronaux” (mélange, remix, renforcement)
Apprentissage renforcé avec décroissance ou boost pondéré
5. Transmission génétique (à venir dans une phase multi-Blob)
Croisement des poids et/ou structures (NEAT-like crossover)
Héritage des caractéristiques performantes
Mutations adaptatives contrôlées (variabilité utile)
Évolution vers une génération de Blobs plus intelligents
Un système d’apprentissage inspiré par OpenAI & DeepMind
Dans Blob IQ, nous avons conçu une IA qui apprend à survivre, s’adapter et progresser, en s’inspirant directement des recherches les plus avancées en apprentissage par renforcement, comme celles menées par OpenAI dans leur publication « Learning from Human Feedback ».
Notre système respecte les fondements du RLHF (Reinforcement Learning with Human Feedback) :
Principe | Application dans Blob IQ |
---|---|
✅ Apprentissage contextuel | Le Blob apprend ce qui est mieux que l’alternative, pas ce qui est simplement « bon » ou « mauvais ». |
✅ Punitions modérées | Les erreurs sont corrigées sans figer le comportement : pas de blocage, mais une redirection. |
✅ Exploration guidée | L’IA teste des comportements variés grâce à un système de variation contrôlée. |
✅ Récompenses immédiates et consolidées | Les bons choix sont renforcés immédiatement, puis consolidés pendant le sommeil et les rêves du Blob. |
✅ Neutralité privilégiée au hasard | Le système favorise les choix modérés à l’aléatoire ou aux actions hasardeuses |
Une architecture d’apprentissage avancée
Notre système intègre également des techniques clés issues des grands laboratoires IA :
Technique | Présente dans Blob IQ |
---|---|
Reward Shaping (récompenses décomposées) | ✅ Oui – chaque action est évaluée en sous-comportements (évitement, vitesse, saut, etc.) |
Entropy Regularization | ✅ Partiellement – grâce à l’ajout de variation dans les sorties et les souvenirs remixés pendant les rêves |
Feedback humain-like | ✅ Oui – avec des dialogues, emojis, et expressions visuelles du Blob pour simuler un retour subjectif |
Mémoire pondérée | ✅ Oui – les expériences les plus significatives sont triées, rejouées et renforcées pendant le sommeil |
Références scientifiques utilisées
NEAT : Kenneth O. Stanley, 2002
Experience Replay : arXiv – 1910.07454
Dream replay : arXiv – 2006.03761
Human-in-the-loop : arXiv – 1704.03732
Objectifs pédagogiques et scientifiques
Montrer une implémentation fonctionnelle de réseau neuronal dans un moteur 3D temps réel
Permettre l’observation de l’émergence comportementale via apprentissage
Proposer un environnement où l’utilisateur devient entraîneur d’intelligence
Offrir une base concrète de recherche expérimentale sur la transmission, l’évolution et l’optimisation de structures neuronales
Contacts et accès
Développeur principal : DF Games Studio
Site officiel : https://www.dfgamesstudio.com/fr/blob-iq/
Contact formation / recherche : @FormationUE5Unity (YouTube)