| |
|
|
|
La réalité virtuelle est une interface homme/calculateur où le graphisme
est utilisé pour créer un monde qui semble réaliste, et qui répond en temps réel
à des commandes de l'utilisateur, via des périphériques spécialisés. Un système
de réalité virtuelle peut être vu comme une nouvelle manière d'interagir avec des données
pour mieux résoudre ou comprendre des problèmes réels complexes.

Immersion et interaction en temps réel constituent deux aspects caractéristiques majeurs de la réalité
virtuelle. L'immersion est complète lorsque les aspects visuels, auditifs et sensitifs sont traités
simultanément, ce qui est rarement le cas aujourd'hui pour les systèmes courants.
Fonctions de base d'un système de réalité virtuelle
L'interaction en temps réel avec une scène virtuelle suppose que le système effectue un certain
nombre de tâches de base, à savoir :
- la gestion en temps réel de tous les objets de la scène (placés en mémoire, puis mis
à jour en fonction des modifications de la scène)
- la simulation du comportement des objets (c'est le travail du programmeur d'abord !)
- le calcul des images 3D de la scène à une fréquence d'au moins quelques hertz
- la génération des sons associés à la base de données graphiques
- la gestion des modèles de navigation dans cette base de données (marche, vol, zoom,...)
- le contrôle des périphériques d'entrée / sortie du système permettant à
l'utilisateur d'interagir avec les objets de la scène, de déclencher des actions, et de recevoir en
retour l'image, le son ou d'autres impressions sensorielles adaptées
Production des images
La technologie qui supporte les applications de réalité virtuelle visuelle est une extension des techniques
d'images de synthèse. Les objets 3D et les environnements sont mis en valeur par des textures et des éclairages
dynamiques. Mais le photoréalisme en temps réel sur ordinateur requiert des stations graphiques d'une
très grande puissance, d'autant plus que pour créer le relief en immersion la vision stéréoscopique
double les calculs (deux canaux visuels). En dessous de 15 images par seconde par canal, l'impression visuelle est
mauvaise et peut générer des troubles psychosensoriels. Pour une simulation de qualité, il faut
au moins 24 images par seconde, voire 30 pour des applications avec des déplacements rapides. Un autre facteur
extrêmement important pour l'interactivité est le temps de latence ou de réponse qui sépare
l'action de l'utilisateur du retour envoyé par le moteur de réalité virtuelle. Si ce temps total
dépasse 100 millisecondes, la qualité de la simulation se dégrade sérieusement et peut
provoquer des malaises chez l'utilisateur. Toutes ces contraintes imposent des accélérateurs graphiques
très puissants pour la visualisation, ainsi que des processeurs très rapides.
La simulation précise des interactions lumineuses est indispensable pour obtenir un rendu "photoréaliste"
d'un environnement virtuel. Elle peut se faire par des techniques de radiosité ou de lancer de rayons, au prix
d'un temps de calcul souvent considérable. Ainsi certaines applications de simulation demandent une précision
radiométrique, c'est-à-dire une prédiction fiable des niveaux d'énergie lumineuse sur
les surfaces, alors que d'autres mettront l'accent plutôt sur la qualité visuelle (absence de défauts
dans les ombres dus à la discrétisation, par exemple). Dans d'autres cas encore, ce n'est pas le réalisme
qui est recherché mais une impression totalement différente, comme dans la représentation de
la cité imaginaire de Tony Garnier.
Des périphériques d'entrée
Pour qu'il y ait interaction entre l'homme et le calculateur, il est nécessaire d'utiliser des périphériques
d'aquisition spécialisés s'adressant aux canaux sensoriels, conçus à la fois pour permettre
d'accéder au calculateur et pour en recevoir un retour d'informations. Par exemple, le mouvement du corps est
poursuivi par des capteurs de position 3D, les gestes de la main et le mouvement des doigts sont digitalisés
par des gants sensitifs, la perspective et l'orientation de la scène sont modifiées par des souris 3D
ou des poignées de commande.
Les capteurs de position 3D
Ils mesurent trois positions et trois angles, avec une fréquence d'échantillonnage compatible avec
la précision recherchée et la vitesse de l'objet. Les capteurs les plus courants utilisent des champs
magnétiques modulés ou des ultrasons ; des radars ou des caméras infrarouges complètent
la palette, mais sont plus rares. Un capteur est caractérisé par sa fréquence d'échantillonnage,
son temps de réponse, sa résolution et sa précision.Un champ magnétique est modulé
à basse fréquence pour déterminer la position et l'orientation de l'objet mobile. Il est généré
par un émetteur constitué de trois antennes fixes orthogonales ; le récepteur mobile contient
lui aussi trois antennes orthogonales. En réalité virtuelle, on mesure surtout le mouvement de la tête
et des mains de l'opérateur, le capteur étant fixé sur le dispositif visuel (le casque) ou sur
le dessus des gants. L'inconvénient des capteurs à champ magnétique est leur sensibilité
aux objets métalliques environnants. Leur temps de réponse est de 12 ms.Les capteurs à ultrasons
sont des paires émetteur-récepteur, l'émetteur étant constitué de trois hauts parleurs
ultrasonores placés en triangle à trente centimètres les uns des autres, le récepteur
comprenant trois microphones fixés sur un bâti triangulaire plus petit, et monté sur le casque.
La vision directe est ici exigée entre les hauts parleurs et les microphones tout obstacle fait perdre le signal.
Ces systèmes sont sensibles aux autres sources sonores, en particulier d'autres sources d'ultrasons.
Le trakball
Il s'agit d'une boule dotée de six capteurs différentiels (3 pour les forces et 3 pour les couples)
mesurant les efforts de la main. Il peut être utilisé pour naviguer dans la simulation, où les
capteurs agissent sur la vitesse et l'orientation d'une caméra virtuelle se déplaçant dans le
monde simulé. Plusieurs boutons poussoirs sont aussi disponibles sur le support de la boule, à portée
de la main, et programmables par l'application. Les trackballs souffrent du couplage des capteurs : l'utilisateur
n'arrive pas à appliquer une force pure conduisant à un couple nul. On peut cependant supprimer ces
mouvements involontaires grâce à des filtres logiciels. L'introduction du Global Device 3D Controller
va permettre de ressentir dans la main, au moyen de 16 niveaux de vibrations, l'interaction entre l'opérateur,
l'objet virtuel et son environnement.
Les gants sensitifs
De faible encombrement et d'un maniement aisé, ils permettent d'étendre la zone de mouvement (réduite
pour les trackballs) à un volume balayé par le bras. Ils permettent de déplacer et d'orienter
un objet, de la saisir, grâce à la reconnaissance des mouvement du poignet et des doigts. Le Dataglove,
qui utilise un capteur 3D Polhemus et des fibres optiques montées sur un gant élastique léger
est le plus utilisé, car il a été le premier commercialisé (1987). A chaque nouvelle utilisation,
l'utilisateur doit procéder à une étape de calibrage du gant, car le gant n'est jamais remis
sur la main de la même manière. Un autre gant utilisant des capteurs linéaires et améliorant
ainsi le DataGlove est le CyberGlove, inventé dans le but de tester la reconnaissance gestuelle au moyen d'un
petit réseau neuronal. Il fait appel à de minces jauges de contraintes (de16 à 24) situées
sur un matériau élastique.
Le retour visuel
La perception de la profondeur est possible avec un oeil ou avec les deux yeux coopérants (le cerveau utilise
le glissement horizontal de la position de l'objet dans les deux images pour évaluer la profondeur). Ce déplacement,
appelé "parallaxe" de l'image, doit être reproduit dans les systèmes matériels de vision
stéréoscopiques en vue d'aider le cerveau à interpréter la profondeur dans le monde simulé.
Il existe une multitude d'outils de retour visuel stéréoscopiques pour la réalité virtuelle,
le plus commun, après l'écran, étant le visiocasque. On trouve ensuite les booms, les lunettes
de stéréovision actives, les moniteurs et les projecteurs stéréoscopiques sur grand écran.
Les casques de visualisation utilisent des écrans situés très près des yeux, et des optiques
spéciales à très faible focale pour ne pas engendrer de fatigue visuelle, et pour remplir le
champ de vision. Les premiers casques de visualisation utilisaient des LCD de 360x240 pixels, pesaient 2,4 kg et coûtaient
environ 60000 francs. D'autres solutions sont apparues, utilisant des tubes cathodiques miniaturisés (CRT)
au lieu des LCD, et placés dans un casque plus léger. La résolution dépend de la fréquence
de balayage vidéo : 30 Hz en 1280x1024 ou 60 Hz en 640x480., ce qui est largement meilleur que les LCD. Mais
ces casques sont très chers.
Dans certaines applications, il est nécessaire que plusieurs personnes aient accès en même temps
à la même image stéréo, et il est trop onéreux de fournir un casque à chacune
d'elles. Une alternative meilleur marché consiste à utiliser des lunettes stéréoscopiques
actives reliées à autant de moniteurs disposant d'un capteur de mouvement. La vision stéréo
se fait alternativement entre les deux yeux, un contrôleur vidéo envoyant des images exclusives gauches
et droites légèrement décalées à l'écran. Les très courtes durées
d'obturation des écrans combinées avec une fréquence de rafraîchissement de plus de 90
Hz donnent une image exempte de scintillement. Mais le niveau de luminosité est plus faible, à cause
de l'absorption des écrans. A noter que la sensation d'immersion est totalement différente de celle
obtenue avec les moyens précédents, solidaires de la tête.
Le son virtuel
La perception tridimensionnelle du son
Comment l'homme perçoit-il la position des sons localisés, et comment peut-on synthétiser ces
sons ? Ces deux questions essentielles à l'établissement d'une technologie de réalité
virtuele sonore ont fait l'objet de recherches approfondies depuis deux décennies. Les mécanismes physiologiques
et psychophysiologiques liés à la perception sonore tridimensionnelle de l'homme sont à l'heure
actuelle assez bien connus, et les processeurs suffisamment rapides pour que des sytèmes de réalité
virtuelle sonore aient vu le jour ces dernières années.
Les récentes recherches montrent que la perception sonore 3D de l'homme fait intervenir deux paramètres
primaires : la différence de temps intra-aurale et la différence d'intensité intra-aurale. Le
premier rend compte de la position de la tête par rapport à la source, tandis que le second fait état
de l'effet de masquage de la tête et des épaules, et dépend très fortement de leur géométrie.
En fait, la position de la source sonore par rapport à la personne qui écoute va produire deux colorations
spectrales différentes pour les deux oreilles.
L'oreille la plus proche perçoit des intensités relatives plus grandes que celles de l'autre oreille,
mais ces différences d'intensité sont fonction de la fréquence. Cette différence de perception
entre les deux oreilles concernant la phase et la fréquence du son constitue une troisième caractéristique
de localisation appelée HRTF : fonction de transfert de la tête. C'est une signature assez fidèle,
qui caractérise une géométrie d'oreille externe et de thorax. Par ailleurs, des filtres à
réponse impulsionnelle finie (FIR) sont utilisés pour tenir compte des modifications liés aux
pavillons de l'oreille. Le problème est que jusqu'à présent, il ne s'est pas avéré
pratique de faire des générateurs de son 3D qui s'adaptent à la HRTF et aux FIR de chacun. Mais
cela est en train de changer. Par contre, la synthèse quadraphonique a permis de recréer un espace 3D
sonore difficilement modélisable en stéréophonie seule (son 2D).
Production du son
L'audition binaurale est en quelque sorte l'équivalent auditif de la vision en relief. Un calculateur évalue
la fonction de transfert de la tête (HRTF) par comparaison des enregistrements des divers microphones de mesure
et des sons originaux. Il s'agit d'une fonction linéaire qui tient compte de la position de la source sonore
et des indices qui permettent à l'homme de localiser le son. Les différentes mesures de HRTF permettent
ensuite de calculer pour chaque oreille des filtres à réponse impulsionnelle finie FIR, pour chaque
position sonore. Ces filtres sont directement appliqués, par convolution, aux sons qu'on désire placer
dans l'espace virtuel à trois dimensions pour générer l'impression spatiale. Les calculs de convolution
en un point donné de l'espace requièrent une forte puissance de calcul. Sans une architecture spécialisée,
les calculs ne peuvent être menés en temps réel.
Dans l'environnement réel, le son subit de multiples réflexions avant d'atteindre les oreilles. On
sait que les premières réflexions et la réverbération dense sont des facteurs importants
lors d'une expérience d'écoute réaliste, et améliorent la localisation et l'externalisation
des sources audio. La modélisation la plus fidèle possible doit alors prendre en compte non seulement
les données géométriques les plus exactes de la scène mais aussi tenir compte des propriétés
acoustiques des divers objets rencontrés sur le parcours des rayons sonores. Cependant, le coût en temps
de calcul d'une modélisation exacte au niveau acoustique est terriblement élevé : de l'ordre
de plusieurs giga Flops. La seule prise en compte des premières réflexions est équivalente au
lancer de rayons, déjà très consommateur en temps de calcul.
Simulation acoustique d'un environnement virtuel
L'audio-spatialisation (ou « auralization » en anglais) consiste en la simulation acoustique d'un environnement
virtuel par synthèse de l'effet de salle et restitution des conditions d'écoute binaurale.
Lake et Crystal River Engineering (aujourd'hui disparue) sont les premières sociétés à
avoir commercialisé des matériels haute-fidélité délivrant
la puissance calculatoire requise pour une audio-spatialisation traitée par convolution numérique en
temps réel.
Pour notre part, nous avons focalisé notre attention sur les produits (matériels et logiciels) suivants
:
CATT-Acoustic
Lake DSP Advanced Digital Audio
qui nous paraissent le mieux répondre aux exigences de professionalisme, de
compatibilité avec les solutions graphiques que nous avons choisies, et de portabilité sur les systèmes
de réalité virtuelle graphique qui sont proposées sur PC.
Retour tactile et retour d'effort
Le retour tactile est celui qui s'opère à la surface de la peau, par contact superficiel ; il permet
d'apprécier la géométrie de surface. Le retour d'effort, par le biais de capteurs de pression,
met en jeu de façon complexe les muscles, les os et les tendons ; il informe sur la rugosité de surface
et sur la force totale de contact (poids, élasticité,...). Retour tactile et retour d'effort diffèrent
tant sur le plan physiologique que sur celui du contrôle, et les expérimentations commencent juste à
permettre d'obtenir des prototypes réellement satisfaisants, mais non encore accessible à un large public.
|