La réalité virtuelle est une interface homme/calculateur où le graphisme est utilisé pour créer un monde qui semble réaliste, et qui répond en temps réel à des commandes de l'utilisateur, via des périphériques spécialisés. Un système de réalité virtuelle peut être vu comme une nouvelle manière d'interagir avec des données pour mieux résoudre ou comprendre des problèmes réels complexes.

Immersion et interaction en temps réel constituent deux aspects caractéristiques majeurs de la réalité virtuelle. L'immersion est complète lorsque les aspects visuels, auditifs et sensitifs sont traités simultanément, ce qui est rarement le cas aujourd'hui pour les systèmes courants.

Fonctions de base d'un système de réalité virtuelle

L'interaction en temps réel avec une scène virtuelle suppose que le système effectue un certain nombre de tâches de base, à savoir :

  • la gestion en temps réel de tous les objets de la scène (placés en mémoire, puis mis à jour en fonction des modifications de la scène)
  • la simulation du comportement des objets (c'est le travail du programmeur d'abord !)
  • le calcul des images 3D de la scène à une fréquence d'au moins quelques hertz
  • la génération des sons associés à la base de données graphiques
  • la gestion des modèles de navigation dans cette base de données (marche, vol, zoom,...)
  • le contrôle des périphériques d'entrée / sortie du système permettant à l'utilisateur d'interagir avec les objets de la scène, de déclencher des actions, et de recevoir en retour l'image, le son ou d'autres impressions sensorielles adaptées
[ haut de page ]

Production des images

La technologie qui supporte les applications de réalité virtuelle visuelle est une extension des techniques d'images de synthèse. Les objets 3D et les environnements sont mis en valeur par des textures et des éclairages dynamiques. Mais le photoréalisme en temps réel sur ordinateur requiert des stations graphiques d'une très grande puissance, d'autant plus que pour créer le relief en immersion la vision stéréoscopique double les calculs (deux canaux visuels). En dessous de 15 images par seconde par canal, l'impression visuelle est mauvaise et peut générer des troubles psychosensoriels. Pour une simulation de qualité, il faut au moins 24 images par seconde, voire 30 pour des applications avec des déplacements rapides. Un autre facteur extrêmement important pour l'interactivité est le temps de latence ou de réponse qui sépare l'action de l'utilisateur du retour envoyé par le moteur de réalité virtuelle. Si ce temps total dépasse 100 millisecondes, la qualité de la simulation se dégrade sérieusement et peut provoquer des malaises chez l'utilisateur. Toutes ces contraintes imposent des accélérateurs graphiques très puissants pour la visualisation, ainsi que des processeurs très rapides.

La simulation précise des interactions lumineuses est indispensable pour obtenir un rendu "photoréaliste" d'un environnement virtuel. Elle peut se faire par des techniques de radiosité ou de lancer de rayons, au prix d'un temps de calcul souvent considérable. Ainsi certaines applications de simulation demandent une précision radiométrique, c'est-à-dire une prédiction fiable des niveaux d'énergie lumineuse sur les surfaces, alors que d'autres mettront l'accent plutôt sur la qualité visuelle (absence de défauts dans les ombres dus à la discrétisation, par exemple). Dans d'autres cas encore, ce n'est pas le réalisme qui est recherché mais une impression totalement différente, comme dans la représentation de la cité imaginaire de Tony Garnier.

[ haut de page ]

Des périphériques d'entrée

Pour qu'il y ait interaction entre l'homme et le calculateur, il est nécessaire d'utiliser des périphériques d'aquisition spécialisés s'adressant aux canaux sensoriels, conçus à la fois pour permettre d'accéder au calculateur et pour en recevoir un retour d'informations. Par exemple, le mouvement du corps est poursuivi par des capteurs de position 3D, les gestes de la main et le mouvement des doigts sont digitalisés par des gants sensitifs, la perspective et l'orientation de la scène sont modifiées par des souris 3D ou des poignées de commande.

Les capteurs de position 3D

Ils mesurent trois positions et trois angles, avec une fréquence d'échantillonnage compatible avec la précision recherchée et la vitesse de l'objet. Les capteurs les plus courants utilisent des champs magnétiques modulés ou des ultrasons ; des radars ou des caméras infrarouges complètent la palette, mais sont plus rares. Un capteur est caractérisé par sa fréquence d'échantillonnage, son temps de réponse, sa résolution et sa précision.Un champ magnétique est modulé à basse fréquence pour déterminer la position et l'orientation de l'objet mobile. Il est généré par un émetteur constitué de trois antennes fixes orthogonales ; le récepteur mobile contient lui aussi trois antennes orthogonales. En réalité virtuelle, on mesure surtout le mouvement de la tête et des mains de l'opérateur, le capteur étant fixé sur le dispositif visuel (le casque) ou sur le dessus des gants. L'inconvénient des capteurs à champ magnétique est leur sensibilité aux objets métalliques environnants. Leur temps de réponse est de 12 ms.Les capteurs à ultrasons sont des paires émetteur-récepteur, l'émetteur étant constitué de trois hauts parleurs ultrasonores placés en triangle à trente centimètres les uns des autres, le récepteur comprenant trois microphones fixés sur un bâti triangulaire plus petit, et monté sur le casque. La vision directe est ici exigée entre les hauts parleurs et les microphones tout obstacle fait perdre le signal. Ces systèmes sont sensibles aux autres sources sonores, en particulier d'autres sources d'ultrasons.

Le trakball

Il s'agit d'une boule dotée de six capteurs différentiels (3 pour les forces et 3 pour les couples) mesurant les efforts de la main. Il peut être utilisé pour naviguer dans la simulation, où les capteurs agissent sur la vitesse et l'orientation d'une caméra virtuelle se déplaçant dans le monde simulé. Plusieurs boutons poussoirs sont aussi disponibles sur le support de la boule, à portée de la main, et programmables par l'application. Les trackballs souffrent du couplage des capteurs : l'utilisateur n'arrive pas à appliquer une force pure conduisant à un couple nul. On peut cependant supprimer ces mouvements involontaires grâce à des filtres logiciels. L'introduction du Global Device 3D Controller va permettre de ressentir dans la main, au moyen de 16 niveaux de vibrations, l'interaction entre l'opérateur, l'objet virtuel et son environnement.

Les gants sensitifs

De faible encombrement et d'un maniement aisé, ils permettent d'étendre la zone de mouvement (réduite pour les trackballs) à un volume balayé par le bras. Ils permettent de déplacer et d'orienter un objet, de la saisir, grâce à la reconnaissance des mouvement du poignet et des doigts. Le Dataglove, qui utilise un capteur 3D Polhemus et des fibres optiques montées sur un gant élastique léger est le plus utilisé, car il a été le premier commercialisé (1987). A chaque nouvelle utilisation, l'utilisateur doit procéder à une étape de calibrage du gant, car le gant n'est jamais remis sur la main de la même manière. Un autre gant utilisant des capteurs linéaires et améliorant ainsi le DataGlove est le CyberGlove, inventé dans le but de tester la reconnaissance gestuelle au moyen d'un petit réseau neuronal. Il fait appel à de minces jauges de contraintes (de16 à 24) situées sur un matériau élastique.
 

[ haut de page ]

Le retour visuel

La perception de la profondeur est possible avec un oeil ou avec les deux yeux coopérants (le cerveau utilise le glissement horizontal de la position de l'objet dans les deux images pour évaluer la profondeur). Ce déplacement, appelé "parallaxe" de l'image, doit être reproduit dans les systèmes matériels de vision stéréoscopiques en vue d'aider le cerveau à interpréter la profondeur dans le monde simulé.

Il existe une multitude d'outils de retour visuel stéréoscopiques pour la réalité virtuelle, le plus commun, après l'écran, étant le visiocasque. On trouve ensuite les booms, les lunettes de stéréovision actives, les moniteurs et les projecteurs stéréoscopiques sur grand écran.

Les casques de visualisation utilisent des écrans situés très près des yeux, et des optiques spéciales à très faible focale pour ne pas engendrer de fatigue visuelle, et pour remplir le champ de vision. Les premiers casques de visualisation utilisaient des LCD de 360x240 pixels, pesaient 2,4 kg et coûtaient environ 60000 francs. D'autres solutions sont apparues, utilisant des tubes cathodiques miniaturisés (CRT) au lieu des LCD, et placés dans un casque plus léger. La résolution dépend de la fréquence de balayage vidéo : 30 Hz en 1280x1024 ou 60 Hz en 640x480., ce qui est largement meilleur que les LCD. Mais ces casques sont très chers.

Dans certaines applications, il est nécessaire que plusieurs personnes aient accès en même temps à la même image stéréo, et il est trop onéreux de fournir un casque à chacune d'elles. Une alternative meilleur marché consiste à utiliser des lunettes stéréoscopiques actives reliées à autant de moniteurs disposant d'un capteur de mouvement. La vision stéréo se fait alternativement entre les deux yeux, un contrôleur vidéo envoyant des images exclusives gauches et droites légèrement décalées à l'écran. Les très courtes durées d'obturation des écrans combinées avec une fréquence de rafraîchissement de plus de 90 Hz donnent une image exempte de scintillement. Mais le niveau de luminosité est plus faible, à cause de l'absorption des écrans. A noter que la sensation d'immersion est totalement différente de celle obtenue avec les moyens précédents, solidaires de la tête.
 

[ haut de page ]

Le son virtuel

La perception tridimensionnelle du son

Comment l'homme perçoit-il la position des sons localisés, et comment peut-on synthétiser ces sons ? Ces deux questions essentielles à l'établissement d'une technologie de réalité virtuele sonore ont fait l'objet de recherches approfondies depuis deux décennies. Les mécanismes physiologiques et psychophysiologiques liés à la perception sonore tridimensionnelle de l'homme sont à l'heure actuelle assez bien connus, et les processeurs suffisamment rapides pour que des sytèmes de réalité virtuelle sonore aient vu le jour ces dernières années.

Les récentes recherches montrent que la perception sonore 3D de l'homme fait intervenir deux paramètres primaires : la différence de temps intra-aurale et la différence d'intensité intra-aurale. Le premier rend compte de la position de la tête par rapport à la source, tandis que le second fait état de l'effet de masquage de la tête et des épaules, et dépend très fortement de leur géométrie. En fait, la position de la source sonore par rapport à la personne qui écoute va produire deux colorations spectrales différentes pour les deux oreilles.

L'oreille la plus proche perçoit des intensités relatives plus grandes que celles de l'autre oreille, mais ces différences d'intensité sont fonction de la fréquence. Cette différence de perception entre les deux oreilles concernant la phase et la fréquence du son constitue une troisième caractéristique de localisation appelée HRTF : fonction de transfert de la tête. C'est une signature assez fidèle, qui caractérise une géométrie d'oreille externe et de thorax. Par ailleurs, des filtres à réponse impulsionnelle finie (FIR) sont utilisés pour tenir compte des modifications liés aux pavillons de l'oreille. Le problème est que jusqu'à présent, il ne s'est pas avéré pratique de faire des générateurs de son 3D qui s'adaptent à la HRTF et aux FIR de chacun. Mais cela est en train de changer. Par contre, la synthèse quadraphonique a permis de recréer un espace 3D sonore difficilement modélisable en stéréophonie seule (son 2D).

Production du son

L'audition binaurale est en quelque sorte l'équivalent auditif de la vision en relief. Un calculateur évalue la fonction de transfert de la tête (HRTF) par comparaison des enregistrements des divers microphones de mesure et des sons originaux. Il s'agit d'une fonction linéaire qui tient compte de la position de la source sonore et des indices qui permettent à l'homme de localiser le son. Les différentes mesures de HRTF permettent ensuite de calculer pour chaque oreille des filtres à réponse impulsionnelle finie FIR, pour chaque position sonore. Ces filtres sont directement appliqués, par convolution, aux sons qu'on désire placer dans l'espace virtuel à trois dimensions pour générer l'impression spatiale. Les calculs de convolution en un point donné de l'espace requièrent une forte puissance de calcul. Sans une architecture spécialisée, les calculs ne peuvent être menés en temps réel.

Dans l'environnement réel, le son subit de multiples réflexions avant d'atteindre les oreilles. On sait que les premières réflexions et la réverbération dense sont des facteurs importants lors d'une expérience d'écoute réaliste, et améliorent la localisation et l'externalisation des sources audio. La modélisation la plus fidèle possible doit alors prendre en compte non seulement les données géométriques les plus exactes de la scène mais aussi tenir compte des propriétés acoustiques des divers objets rencontrés sur le parcours des rayons sonores. Cependant, le coût en temps de calcul d'une modélisation exacte au niveau acoustique est terriblement élevé : de l'ordre de plusieurs giga Flops. La seule prise en compte des premières réflexions est équivalente au lancer de rayons, déjà très consommateur en temps de calcul.

Simulation acoustique d'un environnement virtuel

L'audio-spatialisation (ou « auralization » en anglais) consiste en la simulation acoustique d'un environnement     virtuel par synthèse de l'effet de salle et restitution des conditions d'écoute binaurale. Lake et Crystal River Engineering (aujourd'hui disparue) sont les premières sociétés à avoir commercialisé des matériels          haute-fidélité délivrant la puissance calculatoire requise pour une audio-spatialisation traitée par convolution numérique en temps réel.       

Pour notre part, nous avons focalisé notre attention sur les produits (matériels et logiciels) suivants :

CATT-Acoustic
Lake DSP Advanced Digital Audio

qui nous paraissent le mieux répondre aux exigences de professionalisme, de compatibilité avec les solutions graphiques que nous avons choisies, et de portabilité sur les systèmes de réalité virtuelle graphique qui sont proposées sur PC.


Retour tactile et retour d'effort

Le retour tactile est celui qui s'opère à la surface de la peau, par contact superficiel ; il permet d'apprécier la géométrie de surface. Le retour d'effort, par le biais de capteurs de pression, met en jeu de façon complexe les muscles, les os et les tendons ; il informe sur la rugosité de surface et sur la force totale de contact (poids, élasticité,...). Retour tactile et retour d'effort diffèrent tant sur le plan physiologique que sur celui du contrôle, et les expérimentations commencent juste à permettre d'obtenir des prototypes réellement satisfaisants, mais non encore accessible à un large public.
 

[ haut de page ]