Fiche Scientifique : Blob IQ

Présentation du système

Blob IQ est un environnement de simulation neuronale avancée, intégrant :

  • Un réseau multicouche avec LSTM (mémoire longue durée)

  • Un moteur de perception en raycasting directionnel

  • Une boucle d’apprentissage complète avec replay, rétropropagation, et entraînement supervisé par l’humain

  • Une évolution neuronale progressive basée sur le principe du NEAT (NeuroEvolution of Augmenting Topologies)

Le tout est implémenté en C# dans Unity 6, en s’appuyant sur le Job System, Burst Compiler et DOTS/ECS pour une scalabilité maximale.

Structure neuronale de base

Type de coucheTaille standardFonction
Entrée34 neuronesDonnées de perception, énergie, position, etc.
Hidden Layer 164 neuronesTransformation non-linéaire principale
Hidden Layer 249 neuronesPréparation au LSTM
LSTM48 unitésMémoire temporelle interne
Sortie3 neuronesRotation, Vitesse, Saut

Remarque : cette structure peut évoluer par mutation contrôlée via le moteur NEAT à chaque reproduction.

Processus d’apprentissage

1. Collecte sensorielle

  • Raycasts dans 6 directions (avant ×3, gauche, droite, arrière)

  • Analyse en temps réel des distances et types d’obstacles

  • Données encodées sous forme de vecteurs normalisés

  • Injectées directement dans le réseau neuronal LSTM

2. Prise de décision

  • Prédiction des actions par le réseau LSTM

  • Sorties : rotation, vitesse, intention de saut

  • Exécution via le moteur physique (BlobMovement.cs)

  • Comportement visible : déplacement, évitement, interaction

3. Feedback et optimisation

  • Récompenses et pénalités appliquées via BlobReward.cs

  • Gradients calculés par ComputeGradientsParallelJob

  • Mise à jour des poids via UpdateWeightsParallelJob

  • Mémoire quotidienne des actions et feedbacks (dailyMemory)

  • Prise en compte de la qualité des choix, pas juste du résultat

4. Repos et consolidation

  • Lors de la sieste ou du sommeil :

    • Lecture des souvenirs stockés

    • Rejeu des meilleures séquences avec variation

    • Simulation de “rêves neuronaux” (mélange, remix, renforcement)

  • Apprentissage renforcé avec décroissance ou boost pondéré

5. Transmission génétique (à venir dans une phase multi-Blob)

  • Croisement des poids et/ou structures (NEAT-like crossover)

  • Héritage des caractéristiques performantes

  • Mutations adaptatives contrôlées (variabilité utile)

  • Évolution vers une génération de Blobs plus intelligents

 

Un système d’apprentissage inspiré par OpenAI & DeepMind

Dans Blob IQ, nous avons conçu une IA qui apprend à survivre, s’adapter et progresser, en s’inspirant directement des recherches les plus avancées en apprentissage par renforcement, comme celles menées par OpenAI dans leur publication « Learning from Human Feedback ».

Notre système respecte les fondements du RLHF (Reinforcement Learning with Human Feedback) :

PrincipeApplication dans Blob IQ
Apprentissage contextuelLe Blob apprend ce qui est mieux que l’alternative, pas ce qui est simplement « bon » ou « mauvais ».
Punitions modéréesLes erreurs sont corrigées sans figer le comportement : pas de blocage, mais une redirection.
Exploration guidéeL’IA teste des comportements variés grâce à un système de variation contrôlée.
Récompenses immédiates et consolidéesLes bons choix sont renforcés immédiatement, puis consolidés pendant le sommeil et les rêves du Blob.
Neutralité privilégiée au hasardLe système favorise les choix modérés à l’aléatoire ou aux actions hasardeuses

Une architecture d’apprentissage avancée

Notre système intègre également des techniques clés issues des grands laboratoires IA :

TechniquePrésente dans Blob IQ
Reward Shaping (récompenses décomposées)✅ Oui – chaque action est évaluée en sous-comportements (évitement, vitesse, saut, etc.)
Entropy Regularization✅ Partiellement – grâce à l’ajout de variation dans les sorties et les souvenirs remixés pendant les rêves
Feedback humain-like✅ Oui – avec des dialogues, emojis, et expressions visuelles du Blob pour simuler un retour subjectif
Mémoire pondérée✅ Oui – les expériences les plus significatives sont triées, rejouées et renforcées pendant le sommeil

Références scientifiques utilisées

Objectifs pédagogiques et scientifiques

  • Montrer une implémentation fonctionnelle de réseau neuronal dans un moteur 3D temps réel

  • Permettre l’observation de l’émergence comportementale via apprentissage

  • Proposer un environnement où l’utilisateur devient entraîneur d’intelligence

  • Offrir une base concrète de recherche expérimentale sur la transmission, l’évolution et l’optimisation de structures neuronales

Contacts et accès

Retour en haut
Aller au contenu principal