Kurskompendium

Kompendium till kursen
Virtual Reality
i teori och praktik
(MAM101)
Mattias Wallergård
Joakim Eriksson
2015 ver. 04
Günter Alce
Lars Thern
Innehållsförteckning
1.
2.
3.
4.
5.
6.
7.
8.
Introduktion............................................................................................................ 3
Visuell modalitet .................................................................................................. 24
Auditiv modalitet ................................................................................................. 46
Känsel-modalitet .................................................................................................. 51
Inter-modalitet...................................................................................................... 57
Interaktion för VR och AR .................................................................................. 62
Tracking ............................................................................................................... 69
Immersion & Presence ......................................................................................... 93
2
1. Introduktion
Vad är Virtual Reality?
Virtual Reality (förkortat VR) är egentligen en ganska märklig term, och den saknar
en allmänt erkänd definition. Rent semantiskt så innebär ju de båda orden Virtual
Reality (=virtuell verklighet) en motsägelse.
En allmängiltig, kortfattad definition skulle kunna se ut så här:
Virtual Reality är en form av Människa-Maskin interaktion som kan utföras så
verklighetstroget som möjligt, och kan upplevas med flera sinnen samtidigt.
VR kan sägas vara en samlingsbeteckning på interaktionsteknik som strävar att få
användare att uppleva något ”på låtsas” eller ”virtuellt”. Det kan vara en kombination
av artificiella bilder, ljud och ibland till och med känsel och lukt. Nuförtiden används
datorer och andra elektroniska apparater för att skapa dessa illusioner. För att uppnå
en hög grad av närvarokänsla (en känsla av verklighet), är det mycket viktigt att
systemet är dynamiskt (dvs saker och ting förändrar sig), och interaktivt (dvs den
virtuella miljön kan påverkas av användaren och kan ge någon form av stimuli
tillbaka till användaren).
Många forskare föredrar att istället använda termen Virtual Environment (VE). En
sådan definition återfinns i Kalawsky (1993): ”Virtual Environments are synthetic
sensory experiences that communicate physical and abstract components to a human
operator or participant. The synthetic sensory experience is generated by a computer
system”. Men vägandet av dessa termers för- och nackdelar mot varandra känns som
en akademisk debatt, och man kan nog tryggt betrakta VR och VE som synonymer.
Det finns även en del mycket närliggande discipliner där tekniken används och vad
man eftersträvar är så snarlikt VR att det egentligen är poänglöst att försöka dra någon
gränslinje mot dem. Eventuella skillnader i utrustning som används blir allt mindre
och det är snarare sin egen bakgrund som avgör vad man vill kalla sitt område:
- Simulated Environments, eller Simulation-based learning. Här är det primära syftet
oftast färdighets- och yrkesträning. T.ex. flygsimulatorer.
- Serious Games. Denna term har blivit populär på senare år. Huvudsakligen går det ut
på att använda befintliga spel-motorer för mera ”seriösa” tillämpningar. Ett spel är ju
egentligen inget annat än en simulering. Moderna spel-motorer är svåra att överträffa
kvalitetsmässigt, och vissa kan erbjuda en hög nivå av generalitet.
Vad är Augmented Reality?
En närbesläktad teknik med VR är Augmented Reality (AR). Den svenska termen av
AR är ”förstärkt verklighet”, men vi kommer att använda den engelska förkortningen
AR i fortsättningen. AR betyder att man förstärker verkligheten genom att t.ex. lägga
3
till virtuella objekt på verklighet. En allmänt vedertagen definition på AR är Ronald
Azumas definition från 1997 (Azuma, 1997):
AR är en teknologi som:
 kombinerar den reella verkligheten med virtuella objekt
 är interaktiv i realtid (samt är kontextberoende)
 återges i 3D (och är rumsligt ”förankrad”)
Den principiella skillnaden mellan VR och AR är att i VR strävar man efter att
användaren kan stänga ute omvärlden och enbart uppleva den virtuella världen. Men i
AR däremot, vill man förstärka den reella verkligheten med virtuella objekt. Paul
Milgram beskriver förhållandet mellan AR och VR enligt
Figur 1-1 (Notera: Virtual Environment =VR).
Figur 1-1 The Reality-Virtuality Contiuum by Paul Milgram.
En kort historik om VR och dess föregångare
Artificiella representationer av verkligheten är såklart inte något nytt påfund. Det
ligger i vår natur att vilja bli hänförda av illusioner. För flera hundra år sedan så
tillverkades enormt komplicerade klockverk med figurer och dockor som rörde sig i
intrikata mönster. Föregångaren till nutidens projektor kallades Laterna magica, och
man framförde sofistikerade multimedia-shower med hjälp av handmålade glasplattor
och speglar. Under 1800-talet började man tillverka enkla produkter som kunde skapa
en illusion av rörelse. The Zoetrope är bland den mest kända (se Fig. 1-2). Man sätter
sig med ett öga intill en av slitsarna och roterar trumman. Illusionen av en rörlig figur
funkar varje gång, trots att man vet att det ligger en pappersremsa med 12 stillbilder i
trumman. Denna illusion av ”Lefvande Bilder” verkar vi aldrig tröttna på (även om vi
numera kanske är lite kräsnare med bildkvaliteten: gärna 4K och 144Hz).
Varför fungerar en Zoetrope? Den vanligaste förklaringsmodellen är the Phiphenomenon. Evolutionsmässigt behöver vi kunna avläsa och tolka förändringar i
omgivningen. Vår hjärna strävar helt enkelt förstå synintryck som en kontinuerlig
rörelse trots ibland bristfällig information. Denna förmåga kan ibland fungera ända
ner till en bildväxlingsfrekvens på 10-12 Hz.
En annan fråga som en Zoetrope-användare ställer sig är varför man inte märker
synbortfallet på grund av mellanrummen mellan slitsarna när man snurrar trumman?
Detta är samma anledning till varför vi sällan lägger märke till när vi blinkar.
Fenomenet kallas Persistence of Vision, och kan liknas vid att syncentrum hjärnan har
en ”buffert” där en ”efterbild” kvarstår i upp till cirka 40 ms. Om ett synbortfall inte
4
varar längre, så presenterar syncentrum det hela som ett kontinuerligt synintryck. Om
däremot bortfallet varar längre, så får vi mycket svårt att detektera förändringar
mellan bilderna.
Figur 1-2 The Zoetrope ger illusionen av rörelse.
”Sensorama” utvecklades av Morton Heilig i slutet på 1950-talet (se Figur 1.3).
Denna produkt var ett ambitiöst försök till att ge en multimodal upplevelse, dvs. att
förmedla stimuli för flera sinnen på samma gång. Den återskapade en känsla att köra
motorcykel genom att ge stimuli för synen, hörseln, känseln (vibrationer i stolen), och
till och med lukter. Dock kunde Sensorama inte erbjuda någon interaktivitet (det var
ju i princip en film som spelades upp).
Figur 1-3 Sensorama, en multimodal upplevelse. Utvecklad av Morton Heilig i slutet på 1950-talet.
5
Interaktivitet var däremot något som sattes i första rummet hos de flyg-simulatorer
som började utvecklas redan i flygets barndom. Att kunna hålla planet upprätt och
parera för kastvindar, var en mycket svår uppgift med de tidigaste planen. Figur 1.4
visar en av de tidigaste simulatorerna (från ca 1910) där piloten fick träning i hur
roderkontrollerna skulle användas. Två årtionden senare kunde pilot-skolor köpa fix
och färdiga flygsimulatorer, t.o.m. med möjlighet till blind-flygning, tack vare den
geniale Ed Link, en orgelbyggare som utnyttjade luftbälgar, elektriska pumpar, och
andra orgelkomponenter till att återskapa stigning, dykning, bankning etc. (se Figur
1.5).
I och med USAs rymdprogram under 1950-1960 talet ökade simulatorernas betydelse
ännu mer. De användes inte enbart för att träna astronauterna i sådant som
stjärnnavigering, dockning i rymden, månlandning, mm., utan även för att t.ex. testa
systemens tillförlitlighet, finslipa på procedurer, och samverkan med markpersonal.
Men man förlitade sig till datorer i mycket liten utsträckning, och området datorgrafik
var fortfarande tämligen outforskat.
Figur 1.4 En av de tidigaste flygsimulatorerna (bild från 1910). Piloten fick träning i hur
roderkontrollerna (de båda hjulen utmed sidorna) skulle användas för att hålla planet upprätt,
och parera olika vindförändringar. (http://homepage.ntlworld.com/bleep/SimHist1.html)
6
Figur 1.5 Ed Link’s serietillverkade ”Aviation Trainer” från tidigt 1930-tal. Det lilla ”planet”
vilade på 4 luftbälgar, och som med diverse orgelkomponenter kunde återskapa stigning,
dykning, bankning etc.
(http://www.link.com/history.html)
En mångsidig pionjär inom datorgrafiken, Ivan Sutherland, presenterade 1965 ”The
Ultimate Display” (se Figur 1.6), som bestod av två katodstrålerör som via speglar
och okular visades framför ögonen. Den fick smeknamnet ”Damokles svärd”1
eftersom den var monterad på ett stort takupphängt stativ. Huvudrörelser detekterades
elektromekaniskt av givare på stativet. Några år senare lyckades man göra den
huvudburen, och därmed etablerades begreppet ”Head-Mounted Display” (HMD).
1
http://sv.wikipedia.org/wiki/Damokles
7
Figur 1.6
Ivan Sutherland’s ”Damokles svärd”
1965. En föregångare till våra dagars
Head Mounted Displays.
På 1980-talet hade teknologin på olika nyckel-områden (datorgrafik, head-mounted
displays, motion tracking, etc.) utvecklats så pass långt att det var möjligt för en grupp
inom Human Factors Research Division på NASA att syntetisera ihop ett fungerande
multimodalt koncept kallat Virtual Interface Environment Workstation (VIEW) (se
Figur 1.7a). VIEW-konceptet bestod bl.a. av HMD, hörlurar, röststyrning, och
”Datagloves”, dvs handskar med fiberoptiska trådar utmed fingrar som detekterar
fingerrörelser (Fisher et al., 1986). I första hand avsågs nog ”Telepresence” som det
primära användningsområdet, dvs att kunna fjärrstyra en robot ute i rymden på ett sätt
att operatören skulle få känslan av att vara där roboten är (se Figur 1.7b).
På något sätt har nog VIEW-konceptet blivit en ikon för VR och det är denna typ av
utrustning många människor tänker på när de hör begreppet VR. Dock anses det vara
Jaron Lanier som något år senare lanserade begreppet Virtual Reality, och han hade
också ett företag, VPL research Inc., som var en av de första att sälja sådana system.
Under 80-talets senare del uppstod det en hel del hysteri kring VR. Det skrevs och
rapporterades om denna nya teknologi på ett inte alltid så seriöst sätt. För en
allmänhet som knappast visste så mycket om den tidens datorer och dess
begränsningar var det svårt att skilja ut vad som var fantasirika visioner, och vad
befintliga system de-facto kunde prestera.
8
Figur 1.7a
NASAs Human Factors Research Division
syntetiserade ihop ett multimodalt koncept
kallat
VIEW
(Virtual
Interface
Environment Workstation), som bestod
bl.a. av HMD, hörlurar, röststyrning, och
”Datagloves”.
Figur 1.7b
Telepresence, att t.ex. kunna
fjärrstyra en robot ute i
rymden på ett naturligt sätt,
och att operatören får en känsla
av att vara där roboten är (bild
fr. Fisher et al., 1986).
En kort historik om AR
Terminologin AR myntades först vid 1990 talet av Tom Caudell och David Mitzell.
Tom Caudell jobbade för Boeings forskargrupp där han försökte med hjälp av VR
teknik placera ut virtuella kablar som visade var sedan dem verkliga kablarna skulle
dras. På det viset behövde inte ingenjörerna varken tolka eller titta på ritningar.
Ungefär samtidigt, tog ett annat forskarlag från Columbia University fram en prototyp
som de kallade för KARMA (Knowledge-based Augmented Reality for Maintenance
Assistance), figur Figur 1-8. KARMA bestod av en HMD som med hjälp av trackers
på skrivaren kunde visa 3D-grafik över hur man laddar och servar skrivaren utan att
behöva läsa skrivarens manualer. Forskarlaget bestod av Steven Feiner, Blair
MacIntyre and Doree Seligmann.
9
Figur 1-8 KARMA (Knowledge-based Augmented Reality for Maintenance Assistance).
Steve Feiner et al. utvecklade (1997) även ”The Touring Machine” som gav
information till studenterna om campus. Systemet krävde att användaren gick runt
med ryggsäck (Figur 1-).
Figur 1-9 The Touring machine.
Det var först i 2008 som AR tog ny fart då mobiltelefoner fick tillräcklig
beräkningskapacitet som möjliggjorde användarna att få uppleva AR. Nu finns det
många AR applikationer både för iOS och Android.
Steve Mann brukar refereras som ”father of wearable computing” har byggt något han
kallar för ”digital eye” han undviker begreppet AR. Han brukar använda sig av
begreppet Mediated Reality, som betyder möjligheten att lägga till, subtrahera
information från, eller på annat sätt manipulera ens verklighetsuppfattning med hjälp
av en bärbar enhet.
10
Figur 1-10 Steve Mann, digital eye från 1980 – 2000.
AR utrustning
Hårdvaran som krävs för mobil AR börjar nu bli så pass kraftfull i förhållande till
storleken, samtidigt som den blir billigare och mer spridd, att mobil AR verkligen är
något som är på frammarsch i vardagen. Utvecklingen för hårdvara för mobil AR har
gått från tung och otymplig utrustning placerad i en ryggsäck, till nutidens
smartphones. Trots denna frammarsch av mobil AR har dem en del begränsningar
som:
 Begränsad vy, att se världen genom en handhållen enhet är en oönskad
begränsning som innebär att uppleva AR genom ett nyckelhål.
 Konstig interaktion, På samma sätt som de flesta människor skulle känna sig
obekväma när man står i en offentlig plats och hålla upp en kamera framför
dem under en längre tid, bör en AR användare inte behöva hålla en handhållen
enhet framför dem. Det är både socialt oacceptabelt och ergonomiskt
ohälsosamt.
 Nedsatt kvalité, Displayen som visar AR bilden är begränsad till kamera
sensorns kvalité och hastighet. Att ha igång kameran drar dessutom mycket
batteri. Vidare är kameran sämre än det mänskliga ögat för avkänning av
världen omkring oss.
 Begränsad användning, Användaren måste aktivt initiera användningen av
AR-applikationen och peka med enheten i önskad riktning för att det ska
finnas någon AR information. Den här typen av användning resulterar endast i
korta tidsperioder och endast när användaren har bestämt att hon/han skulle
vilja veta mer om något.
Därför anses AR kunna ge fullt utslag först då man går vidare i hårdvara utvecklingen
till glasögon och/eller vidare till framtidsvisioner med kontaktlinser. Figurerna
nedan1-11a-c visar en kort historik över utrustning för mobil AR.
11
Figur 1-11a Generation “Kit Bag”, för ca 20 år sedan.
Figur 1-11b Generation ”Hand bag”, från 2008 till nutid.
Figur 1-11c Generation ”No bag” bilden visar Google Glass.
AR i framtiden
AR är fortfarande i en tidig utvecklings fas som har väldiga möjligheter för framtida
tillämpningar. Enligt Carmigniani et al. (2011) är MIT Media Lab-projektet "Sixth
Sense” ett av det bästa exemplet på AR forskning. Det erbjuder en värld där
människor kan interagera med information direkt utan att kräva användning av någon
mellanliggande enhet.
12
Parviz kontaktlins öppnar dörren till en miljö där information kan endast ses av
användaren. Naturligtvis kan detta också göras genom att använda glasögon istället
för kontaktlinser, men fördelen med båda fallen över att använda en mobiltelefon är
att ingen annan än användaren kan se informationen som projiceras, vilket gör det mer
personligt.
Cisco har föreställt en värld där AR kunde användas för att ersätta de traditionella
provrummen genom att låta personer prova på virtuella kläder, vilket sparar tid och
ger möjlighet att prova mer kläder, vilket ökar chansen för butiker att sälja mer.
AR ger också möjligheten att förbättra sinnen som saknas eller är nedsatta för vissa
användare. Till exempel, kan AR användas som en sensorisk anordning,
hörselskadade användare kan få visuella ledtrådar som informerar dem om missade
ljudsignaler och blinda användare kan få audiella ledtrådar som meddelar dem om
okända visuella händelser.
Fortfarande ligger störst fokus på teknikutvecklingen och det finns ett gap efter
forskare som tittar på interaktions design, mänskliga faktorer och vad vanliga
användare kommer att vilja använda AR för. Mycket fokus ligger dessutom på det
visuella även om ljud har nämnts så bör man nyttja fler modaliteter så som haptik.
VR-/AR-system och dess kännetecken
Definitionen av VR i början av detta kapitel är mycket allmänt formulerad. Det
medför att man kan ha en ganska öppen syn på hur ett VR-system ska se ut, och att
det kan vara uppbyggt av komponenter och mjukvara med mycket varierande
egenskaper. Hårdvaran kan bestå av allt från dataspelskomponenter för några
hundralappar till enormt sofistikerade simulatorer för hundratals miljoner kronor.
Istället för att fokusera på vilka komponenter som ingår, så kan det vara intressant
med en mera övergripande betraktelse. Principiellt kan ett VR-system beskrivas som
en sluten interaktions-loop mellan en användare och ett VR-system (se figur 1.12).
Handlingar som användaren utför, ska kunna registreras och tolkas av systemet.
Systemet ska sedan ge en återkoppling, baserat på de regler och ”fysiklagar” som
ställts upp i den virtuella miljön. Denna återkoppling bör helst ges multi-modalt, dvs
via flera kanaler i form av visuell, audiell och haptisk information tillbaka till
användaren. Dessutom är det synnerligen viktigt att denna återkoppling kan ges inom
ett visst tidsintervall. Redan några tio-tals millisekunders fördröjning mellan en
handling, t.ex. att vrida på en ratt, och visuell återkoppling där man kan se att man
svänger, försämrar känslan av trovärdighet. Vid ännu längre tidsfördröjningar, tappar
man efterhand styrförmågan helt och hållet.
13
Tracking & övrig input
Återkoppling: visuell, audiell, haptisk, etc.
Figur 1.12. Principiell funktion av ett VR-system. En sluten loop där handlingar som
användaren utför registreras och tolkas av systemet, och som sedan ger en
återkoppling, helst via flera modaliteter. Tidsfördröjningar mellan handling och
återkoppling börjar bli förnimbara vid 30-40 ms. Ännu längre tidsfördröjningar ger
successivt sämre trovärdighet och kontrollförmåga.
Mänsklig perception och dess utmaningar
Detta kompendium omfattar inte några djupare redogörelser för kognitiva processer
och perception. Men egentligen är bakgrundskunskaper i dessa områden synnerligen
viktiga, eftersom VR strävar efter att ge en illusion av verklighet. Hur långt kan vi
egentligen komma i att erbjuda en användare upplevelsen av en alternativ verklighet?
Man inser direkt att VR-teknologin av idag har stora brister och att utmaningarna är
enorma. Två grundläggande aspekter är:
1. Vi människor använder oss oftast av flera olika typer av sinnesintryck samtidigt.
Således bör ett VR-system kunna ge användaren stimuli via flera kanaler, eller
modaliteter. Aristoteles’ klassiska kategorisering av våra sinnen är: syn, hörsel,
känsel, lukt och smak. Men exempelvis ”känsel”-sinnet består egentligen av ett flertal
ganska funktionellt och anatomiskt väldigt olika organ och receptorer, varav de som
kan vara relevanta i VR-sammanhang är:
 Taktila systemet. Olika typer av receptorer i huden för tryck, drag, vibrationer,
temperatur, samt hårrörelser.
14


Proprioceptiva systemet. Receptorer i muskler och senor som ger information
om kroppsställning, och muskelbelastning.
Vestibulära systemet. Organ i innerörat som kan liknas vid accelerometer- och
gyro-sensorer. Dessa organ ger information om rörelseförändringar, samt
huvudets lutning.
Aristoteles kände inte heller till så mycket om den komplexa samverkan mellan olika
sinnen. Ta som exempel vår balans: här samverkar synen och vestibulära systemet,
tillsammans med taktil och proprioceptiv information. I många situationer blir dock
ett eller ett par sinnesintryck de dominerande och resterande stimuli blir redundanta. I
designen av ett VR-system kan man behöva göra ett urval av lämpliga modaliteter,
beroende på vilken tillämpning som avses.
2. VR-system bör designas utifrån insikter om hur vår perception används, och hur
den har utvecklats. James J. Gibson stiftade termen ecological psychology för att
kunna ge en mera evolutionär förklaringsmodell till vår perception (1979). Gibson
betonar hur alla djurs perception har utvecklats genom evolution i samklang med
förutsättningarna i omgivningen. Det har t.ex. resulterat i att flyttfåglar har receptorer
för det jordmagnetiska fältet, och att valar har en ”sonar”. I tidigare teorier, beskrevs
ofta perception som ett separat passivt mottagande av sinnesintryck, med fokus på
informations-behandlingen. Enligt Gibson däremot, är nästan allt vi gör ett
utforskande och en interaktion med vår omgivning. Perception är därmed naturligt
kopplad till motoriska handlingar (som kan vara reflexer, eller mer eller mindre
medvetna beteenden). Enbart ett nervstimuli leder inte nödvändigtvis till perception.
Punkt 2 ovan indikerar vikten av att en bra VR-miljö måste fungera som ett closedloop system, och reagera på samma sätt som en riktig miljö. Det verkar ju onekligen
som ett omöjligt företag att försöka uppnå en virtuell värld som kan motsvara en
interaktion som i den riktiga världen. Enbart problemen med temporala anomalier,
såsom exempelvis tidsfördröjning, är något som kraftigt försämrar känslan av
verklighet.
Just på grund av att vår perception är så sofistikerad så kanske kan VR-teknologin
aldrig helt uppfylla visionerna och förväntningarna som förmedlats i media, sciencefiction litteratur och filmer. Den totala out-of-body-illusionen att befinna sig i en
annan värld kanske alltid förblir en dröm (eller mardröm).
Således, för att VR-tekniken ska bli praktisk och tillämpbar behövs bl.a.
- En väl avvägd ambitionsnivå över hur naturtrogen interaktionen behöver vara
- En vidsynt tolkning över vad som utgör ett VR-system.
- Fokusera på tillämpningarna, den praktiska nyttan, och inte göra ett VR-system mer
komplicerat än vad som krävs.
Tillämpningsområden för VR
Nedanstående uppräkning gör inte anspråk på att vara fullständig, utan de får snarare
ses som exempel på användningsområden.
15
Visualisering & gestaltning.
Inom arkitektur och design är det
en fördel att kunna
visualisera/gestalta sådant som
ännu inte existerar. Exempelvis
kan det vara svårt för lekmän att
tillgodogöra sig information från
en traditionell ritning.
Simulering och träning.
T.ex. trafiksimulering,
förarutbildning, träningsmoment
inom vården.
Rehabilitering.
T.ex. kartläggning av hjärnskador
eller balansproblem, träning av
vardagliga sysslor för att
återhämta sig efter en stroke.
Arkeologi och historia.
Att återskapa och levandegöra
historiska föremål och miljöer.
Man kan t.ex. presentera ett
föremål i sin kontext, eller vandra
runt i en forntida by.
16
Participativ Design.
Ett medium för kommunikation
och diskussion under en
designprocess. Man kan göra
ändringar direkt, och arbeta runt
flera alternativ, och därmed öka
inflytandet hos berörda deltagare.
Man behöver kanske inte ens
träffas fysiskt.
Ny interaktionsteknik, nya
industriella applikationer. T.ex.
Augmented reality, interaktiva
manualer, autonoma agenter,
fjärr-manipulering.
Spel & infotainment. Förutom
dagens enorma utbud av spel, så
finns det stor potential för
marknadsföring, ”infotainment”,
och interaktiv försäljning. Det
finns idag flertalet webbaserade
VR-verktyg, t.ex. för att välja
färg och tillbehör till en ny bil.
Tillämpningsområden för AR
Möjligheterna är många för att använda AR på ett innovativt sätt. Det behöver inte
vara fotorealism på 3D-grafiken, AR-applikationer kan bestå av enkla pilar för att visa
17
riktning eller text som ger hjälpfull information. Nedan nämns fem typer av
tillämpningar som oftast används inom AR forskning: marknadsföring, underhållning,
utbildning, medicin och mobila applikationer för smartphones. Dessutom diskuteras
också de utmaningar som AR står inför för att kunna gå från laboratoriet till industrin.
Marknadsföring
AR används mest av marknadsförare för att visa nya produkter online. De flesta
tekniker använder markörer som användarna måste hålla framför sin webbkamera.
Till exempel, körde bilföretaget MINI en AR annons i flera tyska bil tidningar i
december 2008, MINI. Läsaren behövde helt enkelt gå till MINI webbplats och hålla
upp annonsen framför sin webbkamera och en 3D MINI dök upp på skärmen (Figur
1.13).
Figur 1.13 MINI reklam.
AR är även bra för att bygga billiga, flexibla prototyper som annars är väldigt
kostsamma. Det är en väldigt kostsam process för industrin att tillverka en produkt
före kommersialisering och undersöka om produkten uppfyller förväntningarna. En
grupp av Institute of Industrial Technologies och Automation (ITIA) av det nationella
rådet för forskning (CNR) Italien i Milan arbetar med AR och VR-system som ett
verktyg för att stödja virtuella prototyper. Några exempel på tillämpade
forskningsprojekt där ovanstående teknik har tillämpats är motorcykel prototyper,
virtuell layout av en fabrik och ett kontor, virtuell ljus simulering och virtuella ”prova
på” skor (Figur 1.14) med Magic Mirror gränssnittet.
18
Figur 1.14 Användare provar på virtuella skor framför Magic Mirror.
Liknande exempel på Magic Mirror kan användas för att prova på något i butikerna,
som t.ex. kläder (skjortor, klänningar, klockor, byxor, etc.) vilket sparar avsevärd tid
för kunder.
Underhållning och utbildning
Underhållnings och utbildnings applikationer omfattar kulturella applikationer dvs.
sightseeing, museum och även för att rekonstruera antika ruiner (Figur 1.15),
traditionella spelapplikationer med AR-gränssnitt, och smartphone applikationer som
använder sig av AR gränssnitt för att utbilda, underhålla eller hjälpa.
Figur 1.15 AR vy av Dashuifa.
19
Det finns en del AR system som används för att vägleda och informera personer i
Museum. Det anses vara mer effektiv kommunikation med användaren då multimedia
presentationer används. En handhållen skärm är mer intuitiv och naturlig att
interagera med än att leta upp ett nummer slumpmässigt till ett objekt i en skriftlig
liten guide, särskilt om användaren kan använda hans/hennes egen telefon. Dessutom
kan användare lättare komma ihåg multimedia presentationer och blir mer villig att
lyssna, titta och/eller läsa.
Inom utbildningsområdet kan AR också användas för ett lärande syfte. Till exempel,
har Mark Billinghurst et al. (2001) utvecklat Magic bok, en bok vars sidor införlivade
enkel AR-teknik för att göra läsningen mer fängslande.
AR spelapplikationer som utnyttjar den verkliga miljön, naturliga gester och som
dessutom är lätt att relatera med verkliga situationer kan vara väldigt kul och
spännande upplevelse. Exempel på AR spel är NerdHerder som finns både för iOS
och Android telefoner. Tyvärr behöver man markörer för dem flesta av dagens AR
spel.
Medicinska tillämpningar
De flesta av de medicinska tillämpningarna behandlar bildstyrd och robot-assisterad
kirurgi. AR kan appliceras så att det kirurgiska laget kan se bilddata i realtid medan
proceduren pågår. Bichlmeier et al. (2007) införde ett AR-system för visning genom
den "riktiga" huden på en virtuell anatomi med polygonala ytmodeller som möjliggör
realtids visualisering. Författarna har även utvecklat AR system som vid navigering
av kirurgiska verktyg utökar läkarens uppfattning var i kroppen man är under kirurgi.
AR kan också användas för att hantera kundernas sjukdomshistoria. Tänk om alla
läkare kunde se patientens sjukdomshistoria genom att sätta på en HMD och se
virtuella etiketter som visar patientens tidigare skador och sjukdomar.
Juan et al. (2004) har utvecklat ett AR system för att hjälpa patienter bekämpa fobi för
kackerlackor, vilket visar att AR kan användas för att behandla även psykiska besvär.
Dessutom, kan AR användas för att hjälpa de synnedsatta, genom AR navigering.
Hara et al. (2010) har utvecklat ett sådant system med multimodal återkoppling för
utökad navigering för synskadade. Anordningen bestod av en Wii handkontroll som
gav ljud och haptisk feedback. Handkontrollen fungerade som ett vägledande verktyg
och varnade användaren då man var nära väggar och andra hinder.
Det finns en hel del utmaningar kvar speciellt med HMDs som är att föredra vid
medicinska tillämpningar eftersom den tillåter läkaren att använda båda händerna.
Utmaningar såsom klumpiga HMDs och korrekt placering av virtuella objekt så att en
kirurg ska fortfarande kunna se sina verktyg genom de projicerade bilderna. En annan
möjlig typ av display som kan användas skulle vara en stor skärm placerad i rummet
synlig för hela kirurgiska teamet. Då skulle hela teamet kunna se samma sak samtidigt
men då måste kirurgen titta på både skärmen och patienten.
20
Mobila tillämpningar
Det finns redan många AR mobila applikationer för iOS och Android. Exempel på
mobila AR applikationer är iOnRoad, där idén är att applikationen skall vara ett par
extra ögon som har kontroll över vägen t.ex. varnar iOnRoad om man närmar sig
bilen framför. Andra populära befintliga program för smartphones baseras på t ex.
Junaio eller Layar, med dessa kan man välja ”kanaler” som är intressanta. En ”kanal”
kan vara restauranger, en annan ”kanal” kan vara affärer etc. Dessa applikationer
använder inte någon teknik för bildanalys, utan utnyttjar enbart sensorer såsom GPS
och kompass för att fastställa position och riktning.
TAT (The Astonishing Tribe) numera RIM har utvecklat den uppseendeväckande
prototypen ”TAT augmented ID” (Figur 1.16), som snart sägs bli en färdig
applikation.
Figur 1.16 TAT augmented ID, baseras på mjukvara för ansiktsigenkänning från Polar Rose.
En annorlunda mobil applikation som egentligen gör precis det motsatta av AR,
istället för att förstärka så tar man bort saker från verkligheten (Diminished Reality),
se video klipp från Scalado numera Microsoft (Figur 1.17). Video klippet visar en
person som tar ett foto men samtidigt finns det personer som passerar som oönskat
kommer med i bilden. Detta lösas genom att man klickar bort det man vill ta bort.
Figur 1.17 Diminished Reality av Scalado.
21
Rekommenderad läsning
Kapitel 1 i The Handbook of Virtual Environments, 2002, Kay Stanney (ed),
Lawrence Erlbaum.
Isdale, J., 1998, What is VR? http://www.isdale.com/jerry/VR/WhatIsVR.html
Kalawsky, R., 1993, The Science of Virtual Reality and Virtual Environments,
Addison Wesley.
Rheingold, H., 1991, Virtual Reality, Secker and Warburg, London.
Wilson, J.R., D’Cruz, M., Cobb, S. and Eastgate, R., 1996, Virtual Reality for
Industrial Applications, Nottingham University Press.
Referenser
Fisher, S. S., McGreevy, M., Humphries, J., Robinett, W., "Virtual Environment
Display System," ACM 1986 Workshop on 3D Interactive Graphics, Chapel Hill,
North Carolina, October 23-24, 1986.
Gibson, J.J., 1979, “The Ecological Approach to Visual Perception”
Bichlmeier, C, Wimmer, F, Heining, S. M, Navab, N, “Contextual Anatomic
Mimesis: Hybrid In-Situ Visualization Method for Improving Multi-Sensory Depth
Perception in Medical Augmented Reality”, IEEE, 2007.
Billinghurst, M, “The MagicBook: A Transitional AR Interface”, Ivan Poupyrev,
2001.
Bruns, E, Brombach, B, Zeidler, T, Bimber, O, “Enabling Mobile Phones To Support
Large-Scale Museum Guidance”, Multimedia, IEEE, vol.14, no.2, pp.16–25, AprilJune 2007.
Carmigniani, J, Borko, F. “Handbook of Augmented Reality”, Springer
Science+Business Media, LLC 2011, pp. 3 – 46.
Costanza, E, Inverso, S. A, Pavlov, E, Allen, R, Maes, P, “eye-q: Eyeglass Peripheral
Display for Subtle Intimate Notifications”, Mobile HCI 2006, September, 13–15,
2006.
Feldman, A. Tapia, M, E, Sadi, S., Maes, P., Schmandt, C., “ReachMedia:
On-the-move
interaction with everyday objects”, ISWC, pp.52–59, Ninth IEEE International
Symposium on Wearable Computers (ISWC’05), 2005.
Geekology, http://www.geekologie.com/2008/12/14-week, Cool: Augmented Reality
Advertisements, Dec. 19 2008.
22
Handheld Augmented Reality, http://studierstube.icg.tu-graz.ac.at/handheld
ar/stbtracker.php, Studierstube Tracker, 2010.
Hara, M, Shokur, S, Yamamoto, A, Higuchi, T, Gassert, R, Bleuler, H, “Virtual
Environment to Evaluate Multimodal Feedback Strategies for Augmented Navigation
of the Visually Impaired”, 32nd Annual International Conference of the IEEE
Engineering in Medicine and Biology Society (EMBC’10), Buenos Aires, Argentina,
September 1–4, 2010.
Juan, M.C. Botella, C, Alcaniz, M, Banos, R, Carrion, C, Melero, M, Lozano, J.A,
“An augmented reality system for treating psychological disorders: application to
phobia to cockroaches,” Mixed and Augmented Reality, 2004. ISMAR 2004. Third
IEEE and ACM International Symposium on, vol., no., pp. 256–257, 2–5 Nov. 2004.
Kato, H, Billinghurst, M, Poupyrev, I, Imamoto, K, Tachibana, K, “Virtual Object
Manipulation on a Table-Top AR Environment”, ISAR’00, 111–119, 2000.
Lee, J, Lee, S, Park, S, LeeS, Choi,
J, Kwon, J, “Design and implementation of a wearable
AR annotation system using gaze interaction,” Consumer Electronics (ICCE), 2010
Digest of Technical Papers International Conference on, vol., no., pp.185–186, 9–13
Jan. 2010.
MINI, www.mini.com
Mistry, P, Kuroki, T, and Chuang, C, “TaPuMa: Tangible Public Map for Information
Acquirement through the Things We Carry”, MIT Media Lab, Ambi-sys’08, February
2008.
Mistry, P, Maes, P, Chang, L, “WUW – Wear Ur World – A Wearable Gestural
Interface”, ACM, CHI 2009, Boston, April 4–9, 2009.
Parviz, B. A, “Augmented Reality in a Contact Lens”
(http://spectrum.ieee.org/biomedical/bionics/augmented-reality-in-a-contact-lens/0)
IEEE Spectrum, September 2009.
Reitmayr, G, Schmalstieg, D., “Location based Applications for Mobile Augmented
Reality”, AUIC2003, 2003.
Schmalstieg, D, Fuhrmann, A, Hesina, G, “Bridging Multiple User Interface
Dimensionswith Augmented Reality”, IEEE, 2000.
Schmalstieg, D, Fuhrmann, A, Hesina, G, Zsalavari, Z, Encarnacao, M, Gervautz,
M, Purgathofer,
W, “The Studierstube Augmented Reality Project”, Presence, Vol. 11, No. 1,
February 2002, 33–54, Massachusetts Institute of Technology, 2002.
Sorce, S, Augello, A, Santangelo, A, Gentile, A, Genco, A, Gaglio, S, Pilato, G,
“Interacting with Augmented Environments,” IEEE Pervasive Computing, vol. 9, no.
2, pp. 56–58, Apr.-June 2010, doi:10.1109/MPRV.2010.34
23
2. Visuell modalitet
Inom Virtual Reality, så kan man nog tryggt påstå att synen är det sinne som man
mest har uppmärksammat, och lagt mest energi på att försöka tillgodose med riklig
stimuli. Trots det, i jakten på den perfekta visuella illusionen så återstår det hel del
utmaningar (som kanske aldrig går att lösa).
Vårt visuella system
Ögats uppbyggnad
Ögat kan liknas vid en kamera där objektivet motsvaras av hornhinnan och linsen,
bländaren motsvaras av iris, och filmen motsvaras av näthinnan (se Figur 2.1).
Figur 2.1 Ögats anatomi (bild från www.medocular.se).
Näthinnan sitter längst bak i ögat och består av synceller som överför ljuset via en
fotokemisk process till elektriska signaler som senare tolkas av hjärnan. Det finns två
typer: tappar och stavar. Tapparna finns framför allt i gula fläcken (macula), där de
sitter mycket tätt. Gula fläcken är en mycket liten del av näthinnan, ca 3mm i
diameter. Tapparna är inte lika ljuskänsliga som stavarna men de finns i tre sorter som
är känsligast i lite olika våglängder: rött, grönt och blått. Stavarna däremot är mycket
ljuskänsliga men kan inte urskilja färger. De finns över hela näthinnan, utom i gula
fläcken. Det område där näthinnan övergår till synnerven finns inga synceller alls, och
kallas blinda fläcken. Ett friskt öga har ett synfält som omfattar cirka 40-60° uppåt,
nedåt och åt näsan, samt cirka 80-100° utåt det vill säga i riktning mot tinningarna.
Det är värt att notera vilket enormt spann i ljusintensitet som ögat kan urskilja: uppåt
en faktor 1010. Detta är möjligt tack vare 3 olika adaptionsmekanismer: iris reglerar
öppningsarean, neural adaption2, och adaption av tapparnas pigment-koncentration.
2
http://en.wikipedia.org/wiki/Neural_adaptation
24
En vanlig bildskärm
storleksordningen 103.
kan
som
jämförelse
återge
intensitetsvariationer
i
Fovea centralis är en fördjupning i gula fläcken, ca 1.5 mm i diameter, och detta är
platsen för vårt detaljseende eftersom tapparna sitter extremt tätt här. Trots att fovean
bara motsvarar en bråkdel av vårt totala synfält (med en synvinkel på mindre än 2°),
så är omkring 10 % av synnerverna knutna till fovean.
Således så ser vi skarpast och med bäst färgåtergivning i ett mycket koncentrerat,
centralt område, och resten av synfältet är mest till för att förnimma ljus och rörelser.
Varför är det såhär? Jo, man kan säga att naturen har löst ett bandbreddsproblem: Om
vi skulle ha lika stor koncentration av receptorer över hela näthinnan så skulle
synnerven vara tjockare än ögat självt, och vi skulle antagligen behöva en större
hjärnvolym. Vissa djur har utvecklat andra former på fovean, t.ex. utsträckt i
horisontalled för att bättre kunna överblicka en horisontlinje.
Visuell perception
Om det nu stämmer att synvinkeln där vi ser skarpt bara är 2°, hur kommer det då sig
att vi upplever det som om att vi ser skarpt i hela vårt totala synfält? Svaret är att
näthinnan och synnerven bara är en del i det komplexa system som utgör vår visuella
perception. Enligt Gibson (1979), är perception nära kopplat till ett utforskande och
en interaktion med vår omgivning. Synorganet är, precis som i annan perception,
naturligt sammanlänkat till beteenden och reflexer. De slutliga synintryck vi får i våra
hjärnor är resultat av bl.a. flera motoriska handlingsmönster, som antingen kan vara
autonoma, eller delvis styrda av medvetandet. Här är några exempel:
- Fixation. Vår blick stannar till vid en enskild fixeringspunkt i synfältet som då
träffar fovea centralis. Fixeringarna varar cirka 200-400ms, men vi tenderar att fixera
en längre tid om punkten är mer informativ än om den inte är det.
- Saccader. Fixeringen avbryts med en snabb förflyttning till en annan fixeringspunkt.
En saccad är den snabbaste rörelse vår kropp kan utföra (ca 700°/s), och de varar
mellan 10-80 ms. Under denna tidsperiod tar vi inte in någon syninformation. Denna
tillfälliga blindhet är dock vår hjärna duktig på att sopa igen spåren av (på liknande
sätt som vi nästan aldrig blir medvetna om när vi blinkar).
- Följerörelser (smooth pursuit). Vår blick kan följa ett rörligt objekt med närmast
perfekt matchande ögonrörelser. Alternativt, när vi själva är i rörelse kan vi fixera på
en specifik punkt.
- Ackommodation. Detta är en mekanism för att kunna justera brytningen på infallande
ljus så att fokus hamnar på näthinnan, och man därmed får optimal synskärpa. Genom
att linsens kant är förbunden med trådar till en omkringliggande, ringformad muskel,
så kan linsen sträckas ut och därigenom förändras det fokala djupet. (Tyvärr förlorar
vi denna förmåga vid stigande ålder, eftersom linsens elasticitet avtar successivt).
- Vergens. För en fixeringspunkt som ligger nära oss, har vi god nytta av vergens, dvs
att muskulatur runt ögonen gör att de kan konvergera så att samma fixeringspunkt
hamnar i fovea centralis för båda ögonen (figur 2.2).
25
Figur 2.2 Vergens.
Spatiala tolkningar
Genom hela vår evolution har det varit livsavgörande att kunna göra en korrekt
bedömning av olika objekt i omgivningen, till exempel med avseende på dess avstånd,
storlek och rörelse. Det bör understrykas att det absolut inte är enbart synen som
förser oss med stimuli för spatiala tolkningar. Men vanligtvis, om vi kan använda
synen i en viss situation, så blir detta oftast det dominerande sinnet.
Vår förmåga att bedöma storlek/avstånd i djupet baseras på flera olika ledtrådar, s.k.
depth-cues. Man brukar skilja på två typer: binokulära och monokulära.
Binokulära cues är de ledtrådar som vi får på grund av att vi har två ögon. Eftersom
ögonen sitter ganska nära varandra (centrumavstånd ca 6 cm), så är binokulära cues
egentligen bara effektiva på relativt nära håll, upp till ungefär 30 m.
 Retinal disparity. Ögonens inbördes avstånd ger upphov till att det som
avbildas på höger respektive vänster näthinna är en aning olika. Ju närmare
objektet befinner sig ögonen, desto mer olika blir bilderna på höger respektive
vänster näthinna (se figur 2.3).
 Vergens. Ju närmare ett objekt befinner sig, desto mer måste vi konvergera
med ögonen (se figur 2.2).
Vårt binokulära seende ger oss förvisso djupseende, men egentligen erbjuder det inte
så särskilt starka cues till en mer noggrann avståndsbedömning. Det är snarare
26
kognitiva processer baserat på ackumulerade synintryck, såsom monokulära cues, som
ger det största bidraget till avståndsbedömning.
Figur 2.3 Retinal disparity.
Monokulära cues kallas ibland även pictorial cues, och det räcker med ett öga för att
uppfatta dem. De 7 klassiska monokulära cues man vanligtvis brukar man räkna upp
är följande:

Perspektiv (linear perspective). Med våra ögon betraktar vi omvärlden med en
perspektiv-projektion. Med ökande avstånd så ser parallella linjer (t.ex. en
järnvägsräls) ut att konvergera till en punkt i fjärran (vanishing point). Vid en
ortografisk avbildning saknas denna konvergens, och information om djup kan bli
svårt, ibland omöjligt att tolka (se Figur 2.4).

Överlagring av konturer (interposition & occlusion). När objekt är
ogenomskinliga så kommer de att blockera de objekt som befinner sig längre bort
från betraktaren (se Figur 2.5).

Relativ storlek. Ett objekts relativa storlek i bilden jämfört med likadana objekt
ger oss information om hur långt bort från oss objektet är (se Figur 2.6).

Relativ höjd. Ett objekts relativa höjd i bilden tolkas hur nära det ligger
horisonten. För objekt nedanför en horisontlinje så verkar högre positionerade
objekt som är längre bort. För objekt som befinner sig ovanför horisonten är det
tvärtom (se Figur 2.7).

Textur-gradient. De flesta objekt har någon slags textur på sin yta. Man kan
avgöra hur en yta är lutad mot betraktaren genom att texturens täthet förändras.
27
Tätheten ökar med avståndet, dvs. ju högre täthet desto mer avlägsen (se Figur
2.8).

Skuggor och belysning. En ljuskälla som belyser ett objekt ger ledtrådar om dess
form, och skuggan ger ledtråd om avstånd till omkringliggande objekt (se Figur
2.9).

Atmosfäriskt perspektiv. Ljuset som reflekteras från objekt sprids och absorberas i
partiklarna i det medium som det färdas i. Detta gör att näraliggande objekt
förefaller att vara ljusare och skarpare och att de dessutom har mer mättade färger
än objekt som befinner sig längre bort (se Figur 2.10).
Figur 2.4 Perspektiv (linear perspective). Vänster bild återger en liggande rektangel i en ortografisk
projektion. Det går inte att se att rektangeln faktiskt ligger ned. Höger bild, däremot, återger samma
rektangel med en perspektivprojektion. Med ökande avstånd så ser parallella linjer ut att konvergera till
en punkt i fjärran (vanishing point).
Figur 2.5 Överlagring av konturer (interposition & occlusion). Vänster bild visar två rektanglar som en
trådmodell (wire-framed). Det är svårt att avgöra vilken av rektanglarna som är närmast. Höger bild
visar ”shaded view”. Därmed ser man att röd rektangel blockerar den gröna, och således är den röda
närmast betraktaren.
28
Figur 2.6 Relativ storlek.
Erfarenhetsmässigt vet vi ungefär hur stort
ett objekt av en viss typ är. I en bild ger ett
objekts relativa storlek i förhållande till
annat oss information om avstånd. Den
högra tekannan verkar vara längre bort.
Figur 2.7 Relativ höjd. Ett objekts relativa
höjd i bilden tolkas hur nära det ligger
horisonten. För objekt nedanför en
horisontlinje så verkar högre positionerade
objekt som är längre bort. För objekt som
befinner sig ovanför horisonten är det
tvärtom.
Figur 2.8. Textur-gradient. Vänster bild visar en texturerad yta rakt framifrån. Då får man inga
ledtrådar om djup i bilden. Höger bild visar samma yta, men aningen roterad. Då kan man med hjälp av
täthetsgradienten se att högra änden är längre bort.
29
Figur 2.9. Skuggor och belysning. En ljuskälla som belyser ett objekt ger ledtrådar om dess form, och
skuggan ger ledtråd om avstånd till omkringliggande objekt. Bilden till vänster visar en scen utan
skuggor, vilket gör det svårt att avgöra tekannornas position och storlek. Högra bilden visar samma
scen med skuggor. Då får man en helt annan information: högra tekannan är närmre, har höjd över
marken, samt är mindre.
Figur 2.10. Atmosfäriskt perspektiv. Ljuset som reflekteras från objekt sprids och absorberas i
partiklarna i det medium som det färdas i. Detta gör att näraliggande objekt förefaller att vara ljusare
och skarpare och att de dessutom har mer mättade färger än objekt som befinner sig längre bort.
Alla de depth-cues som har presenterats hittills har byggt på statiska scener och
stillastående observatörer. Men information om djup erhåller vi även genom t.ex.
parallaxförändring eller rörelseparallax. Gemensamt med många djur, så har vi ett
väl intrimmat beteende att flytta på huvudet, eller hela kroppen, för att få en alternativ
projicering av omgivningen på våra näthinnor. Genom denna projektionsskillnad
framträder de mest närliggande objekten som de som förflyttat sig mest på våra
näthinnor.
Ett exempel på utnyttjande av rörelseparallax var de små spelkonsoller som blev
populära på 80-talet. De var alldeles för primitiva för ”riktig” 3D-grafik. Istället så
visade man scenen i en ortografisk sid vy. För att ge en djupkänsla, behöver man då
låta olika lager av objekt röra sig olika snabbt över scenen. Närliggande objekt
förflyttar sig snabbt, medan objekt i bakgrunden rör sig långsamt (se figur 2.11).
30
Figur 2.11 Nintendo’s Super Mario. Ortografisk sid vy som följer med huvudpersonen. Närliggande
objekt förflyttar sig snabbt, medan objekt i bakgrunden rör sig långsamt.
Vection & Optic flow
Vection (även ”self-motion illusion”) är illusionen av att vara i rörelse som
framkallats av enbart visuell stimuli. Ett vanligt exempel är att sitta på ett stillastående
tåg och ett tåg på spåret bredvid börjar röra sig. Då får man känslan av att man själv
rör sig. Denna illusion ger en ledtråd om hur viktigt visuell stimuli är för rörelse- och
hastighetsuppfattning. En mycket grundläggande funktion (även insekter använder sig
av detta) är något som kallas optiskt flöde (optic flow). Varseblivelse av
färdriktningen bestäms av att i denna punkt i synfältet förändras bildinformationen
minimalt (“focus-of-expansion"). Utifrån denna punkt rör sig visuella objekt med
stigande hastighet mot periferin. Avvikelser från ett jämnt optiskt flöde kan man då
enkelt identifiera som eventuella objekt man måste väja för.
Display-teknologi
Med ovanstående genomgång av vårt visuella system, så kan man lätt inse
svårigheterna med att försöka framställa artificiella visuella stimuli. Kort sagt: idag
finns inte tekniken för att framställa en fullständig visuell illusion. För att uppnå det
behöver man förmodligen koppla in sig på synnerven direkt, eller bära ett par
bildskärmar som kontaktlinser.
Idag finns det även olika lösningar för volumetriska displayer (populärt kallat
holografi-tekniker), men dessa kan bara presentera ett objekt i en begränsad storlek
(se Figur 2.12). Än så länge är det långt kvar till Star Trek’s ”Holodeck”.
31
Figur 2.12 Volumetrisk display från Actuality
Systems Inc. Inne i glaskupan roterar en spegel
mycket snabbt. När den projiceras med laser från
olika vinklar, uppnås en illusion av holografi.
Således, om vi vill visa en 3D-miljö, så är vi än så länge hänvisade till en eller flera 2dimensionella projektioner. De tekniska utmaningarna för att få dessa 2D-projektioner
att exakt motsvara det som en verklig omgivning avbildar på näthinnan är många. Här
följer några av utmaningarna:
-
-
-
Synfältet. Detta bör omfatta omkring 180° i horisontalled. Detta är svårt att
tillgodose med en enstaka, plan projektionsyta. Närvarokänslan kan förbättras
genom flera vinklade projektionsytor, alternativt en krökt, konkav
projektionsyta.
Huvudrörelser. Parallax-förändringar orsakade av huvudrörelser hjälper oss att
avgöra hur närliggande ett objekt är. En korrekt 2D-projektion behöver därför
kontinuerligt mäta in betraktarens huvudposition och kompensera för dessa
rörelser.
Stereoskopi. Binokulära effekter såsom retinal disparans och vergens ger oss
ett stereoseende som är speciellt effektivt i ett närområde. Hur man kan göra
detta med olika tekniker beskrivs i steroskopi-avsnittet.
Figur 2.13 ger exempel på några olika display-produkter, som alla har sina fördelar
respektive nackdelar. Från övre vänstra hörnet:
- Tre eller fler separata bildskärmar.
- Display-vägg där flera projektorer samverkar med hjälp av edge-blending3.
- Head-Mounted Display (finns i många utföranden).
- Konkav display-vägg.
- Parabolisk display (Elumens Vision-station).
- CAVE, ett omslutande rum som utgörs av 3-4 väggar och ibland även golv
och tak.
3
http://paulbourke.net/texture_colour/edgeblend/
32
Figur 2.13 Några olika display-produkter, som alla har sina fördelar respektive nackdelar. T.ex. är
produkterna i den vänstra kolumnen avsedda för en person åt gången.
Bildskärmar
Det finns tre huvudsakliga typer av bildskärmar som används inom AR: Head
Mounted Display (HMD), handhållna skärmar och rumsliga skärmar (Spatial
displays).
HMD är en bildskärm som bärs på huvudet och kombinerar bilderna av den verkliga
och virtuella miljön över användarens syn på världen. HMD för AR kan antingen vara
video see-through eller optical see-trough (Figur 2-14).
33
Figur 2-14 Bilden visar skillnaden mellan video see-through och optisk see-through skärmar.
Video see-through system är mer krävande än optisk see-through system eftersom de
kräver att användaren bär på minst en men ofta två kameror på huvudet och kräver
behandling av båda kamerornas bild för att kunna återge både den "verkliga delen" av
den utökade scenen och de virtuella objekten. Optisk see-through däremot använder
en halv-silver spegel-teknik som låter den fysiska världen att passera genom
glaset/linsen utan bearbetning och projicerar de grafiska virtuella objekten på spegeln
som i sin tur återspeglas i användarens ögon. Scenen liksom den verkliga världen
uppfattas mer naturlig med optisk see-through än med video see-through. Å andra
sidan, med video see-through system är den utökade bilden redan utarbetad och
tillåter därmed mycket större kontroll över resultatet. Således kan kontroll över
tidpunkten för verklig scen uppnås genom att synkronisera den virtuella bilden med
scenen innan den visas. Medan med en optisk see-through kan den verkliga världen
inte fördröjas, så tidsfördröjningen som införs i systemet av grafik och bildbehandling
uppfattas av användaren. Detta resulterar i att bilden inte är fäst med det verkliga
objektet vilket i sin tur upplevs vara instabil, jittering eller som om virtuella objekten
svävar omkring.
Exempel på glasögon som är ute och säljs är Epson Moverio BT-200 (Figur 2-15) och
Vuzix M100 (2-16) båda är väldigt likt till utseendet Google Glass (Figur 1-11c).
Figur 2-15 Epson Moverio BT-200 (optisk see-through) glasögon.
34
Figur 2-16 Vuzix M100 (video see-through) glasögon.
Figur 2-17 SAR, rumslig skärm.
Spatial AR (SAR) använder sig av video-projektorer, optiska element,
hologram, radio frekvens taggar, och andra spårningsmetoder för att visa grafisk
information direkt på fysiska objekt utan att användaren behöver ha på sig eller bära
displayen (Figur 2-17). Rumsliga displayer separerar AR tekniken från användaren
och integrera den i omgivningen istället.
35
Olika tekniker för stereoskopi
Med stereoskopi menas att artificiellt återskapa upplevelsen av retinal disparans (se
Figur 2.3). Det finns många olika tekniska lösningar för att åstadkomma detta.
Följande tekniker är vanliga inom VR:
- optisk separation
- aktiv stereo
- anaglyfisk separation
- polariserad separation
- autostereo-displayer
Optisk separation
Med optisk separation menas att man genom linser, prisman, speglar, etc., optiskt
avskiljer synfältet för höger respektive vänster öga. Därmed kan man visa två separata
bilder som motsvarar den retinala disparansen. Detta presenterades första gången
redan 1838 av Sir Charles Wheatstone. Stereoskopen blev sedermera enkelt utformade
med ett par linser, en skiljevägg och en hållare för bild-paret, och stereofotografering
fick ett stort genomslag under 1800-talets senare hälft (se Figur 2.18). Det har också
använts flitigt vid flygfotografering sedan andra världskriget.
Figur 2.18 T.v. ett stereoskop i ett vanligt 1800-tals utförande, bestående av ett par linser, en
skiljevägg och en hållare för bild-paret. T.h. View-master, en mycket populär produkt på 60-och 70talet.
Idag används många olika typer av display-lösningar för optisk separation. Figur 2.19
visar två varianter. Men den mest förekommande är den huvudburna varianten. Vi
kallar det Head-Mounted Display (HMD) i brist på ett bra svenskt ord. I VR
tillämpningar finns det flera uppenbara fördelar att använda en HMD. Först och
främst får ju en användare den virtuella världen presenterad framför ögonen hela tiden
oavsett hur man rör på huvudet. Om man kompletterar en HMD med en
huvudposition-tracker, och låter trackern styra position och orientering i den virtuella
världen, så kan man skapa en stark illusion av att befinna sig i, och titta runt i, den
virtuella miljön. En annan fördel är att optisk separation är ganska enkelt realiserbart
med en separat display framför varje öga. I dagens läge är det vanligast med LCDs,
36
men de tidigaste använde sig av miniatyr katodstrålerör (CRT). I forskningsfronten
finns det lasrar som direkt ”ritar” på näthinnan.
Figur 2.19 Till vänster: optisk separation av två olika områden på en stationär bildskärm. Till höger: en
s.k. Boom som fungerar ungefär som ett rörligt periskop.
Tyvärr finns det även nackdelar med HMDs. Förutom att HMDs med hög kvalitet
fortfarande är extremt dyra (en avancerad modell kan kosta drygt 1 miljon kr/styck),
så ligger det en stor utmaning i att kunna erbjuda ett acceptabelt synfält. Figur 2.20
ger en ledtråd till problematiken: Bilden från en LCD måste avledas och ljus brytas så
att vi kan fokusera på den. Det är svårt att utforma på ett kompakt och billigt sätt, och
samtidigt erbjuda en hög field-of-view (FOV). FOV brukar anges diagonalt per öga,
och brukar ligga mellan 25°-60°. Ett lågt FOV ger känslan av att gå omkring med
skygglappar. Det finns dock mer avancerade produkter, t.ex. Sensics’ piSight som ger
en FOV på upp till 180° genom att placera flera enheter med LCD + optik intill
varandra i en konkav array mycket nära framför respektive öga (se Figur 2.21).
37
Figur 2.20 Principskiss för en HMD. Ljuset från en LCD måste avledas och ljus brytas så att vi kan
fokusera på den, samtidigt som man vill göra enheten så kompakt som möjligt.(Illustration från Oxford
University Press, www.oup.co.uk).
Figur 2.21
Sensics piSight ger en
FOV på upp till 180°
genom att placera flera
display-enheter intill
varandra i en array
framför respektive öga
(www.sensics.com).
Aktiv stereo
Med begreppet aktiv stereo syftar man på att betraktaren bär på ett par glasögon med
aktiv elektronik. De brukar kallas shutter-glasses (slutar-glasögon), och består av ett
par skikt med flytande kristaller som kan styras att antingen släppa igenom, eller
blockera allt ljus. I aktivt läge så växlar ljusblockeringen mellan vänster och höger
öga, så att man bara kan se med ett öga i taget. På motsvarande sätt renderar
datorsystemet varannan frame (bild) som en projicering för vänster öga, och varannan
för höger öga. Växlingen mellan vänster-bild och höger-bild behöver synkroniseras
med glasögonen, vilket man ofta gör trådlöst med en IR-emitter som sänder ut en
bildväxlingspuls. Figur 2.22 visar en vanligt förekommande produkt.
Eftersom vi bara kan se med ett öga i taget så är risken uppenbar att vi uppfattar
flimmer. I praktiken behöver vi dubbla den bildväxlingsfrekvens som vi kan acceptera
under normala förhållanden. Således behöver vi ca 90-120 Hz i bildväxlingsfrekvens
för att det ska uppfattas som flimmerfritt. Detta ställer ju en del krav på bildskärmar
och projektorer. Gamla tiders CRT-bildskärmar och CRT–projektorer klarade detta
galant. Det har dock varit lite svårare för LCD-tekniken att komma ifatt på detta
område.
38
Ghosting kallas problemet när man kan se antydan till dubbel bild, dvs. en
ofullständig kanalseparation. I fallet med LCD-tekniken beror det på att föregående
bild(er) inte hinner släckas ut i tid.
En nackdel med de gamla CRT-projektorerna var att de var ljussvaga och enormt
dyra. Dock finns det idag special-utformade DLP-projektorer som kan klara aktiv
stereo på ett tillfredsställande sätt.
Nackdelar är även att glasögonen som varje betraktare måste bära är mycket dyra, går
lätt sönder, och behöver batterier.
Figur 2.22
CrystalEyes från StereoGraphics. Till
vänster en IR-emitter som sänder en trådlös
synk-signal till glasögonen t.h. Denna signal
använder glasögonen till att omväxlande
blockera vänster respektive höger öga.
39
Anaglyfisk separation
Detta är en mycket billig och enkel teknik, och samtidigt en klassiker som ofta
användes till bio-filmer på 50-talet, t.ex. den oförglömliga ”Creature from the Black
Lagoon” (figur 2.23), och publiken fick pappersglasögon liknande de i figur 2.24.
Tekniken är enkel eftersom man inte behöver någon speciallösning för projektorer
eller displayer. Det är istället en dubbelexponerad bild där vänster ögas bild är rödtonad, och höger ögas bild är blå(cyan)-tonad. Man får en förvånansvärt bra bildseparation med ett par glasögon med enkel plastfilm i matchande färg-toner. Dock blir
färgåtergivningen inte så optimal. Det ger också en trötthetskänsla efter ett tag.
Figur 2.23
Creature from the Black Lagoon, 1954.
Anaglyfiskt sammansatt bild med en
blåtonad och en rödtonad bild för
respektive öga.
Figur 2.24
Ett par anaglyfiska glasögon i ett enkelt
utförande. En cyan- och en röd-tonad
plastfilm, med en båge av papper.
40
Polariserad separation
Inom optiken betraktar man vanligtvis ljus som en stråle. Men man kan ju, som
bekant, även beskriva ljus som transversella elektromagnetiska vågor. Det som
oscillerar är den elektriska fältvektorn (och dess följeslagare, magnetiska fältvektorn),
och är vinkelrät mot utbredningsriktningen. Det håll utmed vilken E-vektorn oscillerar
kallas för vågens polarisationsriktning. Ljus från solen eller en vanlig lampa består av
en mängd ljusvågor, vars E-vektorer oscillerar åt olika håll, och man talar om
opolariserat, eller naturligt ljus. Om däremot vågorna svänger alla åt samma håll talar
man om polariserat ljus, vilket kan åstadkommas med laser som källa, alternativt med
ett polarisationsfilter.
För att uppnå stereoskopi med hjälp av polariserat ljus används vanligtvis projektorsystem, där såväl frontprojektion som bakprojektion förekommer. Man brukar skilja
på två typer:
- Linjär polarisation.
- Cirkulär polarisation.
Det är viktigt att projektionsytan kan reflektera, alternativt släppa igenom ljuset så att
det inte förlorar sin polarisationsriktning. I fallet med frontprojektion fungerar det bäst
med en s.k. silverduk.
Man bör undvika LCD-projektorer, och istället välja DLP-projektorer, eftersom LCDenheterna i sig själva ger upphov till olika polariseringar för olika färger.
Linjär polarisation
Tekniken att åstadkomma stereoskopi med linjär polarisation är i princip väldigt
enkel: Man tar två likvärdiga projektorer och riktar in dem så de projicerar på exakt
samma yta. Framför projektorlinserna placerar man varsitt polarisationsfilter med
motsatt riktning. På motsvarande sätt har betraktarna polariserande filter i form av ett
par glasögon med motsatt polariseringsriktning för varje öga (Figur 2.25).
Ett problem med linjärpolarisationstekniken uppstår när man lutar huvudet åt sidan.
Ljuset blir snabbt utsläckt. Det är således därför som man numera ofta använder en
något mer sofistikerad teknik: Cirkulär-polarisering.
41
Figur 2.25 Principen för linjärpolarision. Lampan avger ljus med E-vektorer åt alla håll, men filtret
släpper bara igenom E-vektorer med vertikal orientering. Glasögonen, där enbart det ena filtret matchar
det framför källan, släpper därför bara igenom ljuset på ena ögat.
Cirkulär polarisation
Cirkulär-polarisering är en elegant vidareutveckling av linjärpolarisationstekniken.
Principen är att man får E-vektorn till att rotera ett fullt varv under det att den
tillryggalägger en våglängd i sin utbredningsriktning. Man kan se det som en
skruvrörelse. Man kan åstadkomma skruvrörelsen både högerorienterat (medurs) och
vänsterorienterat (moturs).
Figur 2.26 visar tekniken: Först filtrerar man fram ett vanligt linjärpolariserat ljus.
Sedan tar man ett speciellt filter, en kvartsvåglängdsplatta. Kvartsvåglängdsplattan är
tillverkad med ett så kallat dubbelbrytande material. Detta betyder att den har olika
brytningsindex i olika riktningar. Det finns en “snabb” axel, lågt brytningsindex, och
en “långsam” axel, högt brytningsindex. Detta får till följd att en fasskillnad uppstår.
Fasskillnaden beror på plattans tjocklek, den relativa skillnaden i brytningsindex och
ljusets våglängd. Tillverkas plattan på rätt sätt kan man alltså introducera en
godtycklig fasskillnad. I fallet med cirkulär polarisation vill man åstadkomma ett
fasskift på -π/2 (medurs), respektive π/2 (moturs). Tjockleken är typiskt en kvarts
våglängd av grönt ljus (140 nm).
På motsvarande sätt kan man återfå ett linjärpolariserat ljus med ett matchande
kvartsvåglängdsfilter på glasögonen. I övre fallet i figur 2.26 så släpps ljuset igenom,
men i nedre fallet, så kommer ljuset att spärras eftersom kvartsvåglängdsfiltret
omvandlade ljuset till horisontell polarisation.
42
Figur 2.26
Principen för cirkulärpolarisering. I övre fallet (högerorienterad skruvrörelse) släpps ljuset igenom
filtret. I det nedre fallet (vänsterorienterad skruvrörelse) spärras ljuset.
Normalt tillverkas kvartsvåglängdsfilter och polarisationsfilter som en sandwich.
Därmed är det är viktigt att ha kontroll på vilken sida som är vilken, eftersom
kvartsvåglängds-filtret inte gör någon nytta för opolariserat ljus.
Autostereo-displayer
Autostereo-displayer har den stora fördelen att betraktaren slipper ha några glasögon
eller annan utrustning på sig för att kunna se en stereo-bild. Displayen presenterar en
stereo-bild där varannan pixel-kolumn är avsedd för vänster öga, och varannan för
höger öga. Sedan utnyttjar man den naturliga parallax-skillnad som beror på avståndet
mellan våra ögon. Denna teknik har speciellt blivit framgångsrik på grund av att
pixelbaserade displayer relativt enkelt kan integreras med en raster-barriär eller med
linsrader som kan avleda två intilliggande pixel-kolumner till respektive öga. En
vanlig teknik bygger på samma princip som för en lenticular image, dvs. vertikalt
utsträckta linsrader bryter strålgången lite olika beroende på betraktelsevinkeln (se
figur 2.27). En annan teknik använder en raster-barriär för att uppnå en liknande
effekt (se Figur 2.28). Ett exempel på en konsumentprodukt som använder en rasterbarriär för att uppnå autostereoskopi är den bärbara spelkonsollen Nintendo 3DS.
En nackdel är att betraktarens huvudposition måste befinna sig i vissa avgränsade
zoner för att strålgången ska vara korrekt. Flyttar man huvudet i sidled, så kan pixelkolumnen avsedd för vänster öga hamna hos höger öga, och vice versa. I vissa
positioner kan effekten helt försvinna. Dessutom förlorar displayen halva sin
horisontella upplösning när 2 bilder visas samtidigt på detta sätt. För lågupplösta
displayer kan man då uppleva vertikala ränder.
43
Figur 2.27
Principen för en lenticular
autostereo display. 2 bilder
visas samtidigt, där
varannan pixel-kolumn är
avsedd för vänster öga, och
varannan för höger öga.
Med de vertikalt utsträckta
linserna bryts strålgången
lite olika beroende på
betraktelsevinkel (tyvärr
syns det lite dåligt i
illustrationen). I en korrekt
betraktelseposition ser
höger respektive väster öga
enbart ”sin” bild.
(illustration från www.3dforums.com).
Figur 2.28
En raster-barrier display
eller även kallad parallax
barrier display.
Strålgången blockeras i
vissa synvinklar, så att 2
intilliggande pixelkolumner visas korrekt för
respektive öga.
(illustration från www.3dforums.com).
Rekommenderad läsning:
Kapitel 3 i ”Handbook of Virtual Environments – Design, Implementation and
Applications”.
44
Om cirkulärpolarisation:
http://www.fas.harvard.edu/~scdiroff/lds/LightOptics/CircularPolarization/CircularPo
larization.html
Halle, M. 1997. “Autostereoscopic displays and computer graphics”. in Computer
Graphics, ACM SIGGRAPH, 31(2), pp. 58-62.
(http://web.media.mit.edu/~halazar/autostereo/disptech97.pdf)http://web.media.mit.ed
u/~halazar/autostereo/disptech97.pdf
45
3. Auditiv modalitet
Varför är auditiv feedback viktig?
-
I simuleringar med begränsad field-of-view (FOV) kan 3D-ljud spela en viktig
roll genom att det underlättar för användaren att navigera genom den virtuella
miljön.
-
3D-ljud har visat sig minska responstiden på visuella stimuli (s.k. cross-modal
enhancement)
-
Komplex, visuell information kan förenklas om den kombineras med ljud som
på något sätt är spatialt kodat.
-
De gör det möjligt att öka upplösningen i användarens auditiva perception.
Detta kan man t ex göra genom att överdriva storleken på de huvud-och-öracues som når användaren. Denna teknik är speciellt användbar i
teleoperatörstillämpningar och virtuella miljöer i vilka det är viktigt att
kompensera för begränsad FOV.
-
Det har visats att en auditory display av hög kvalité kan öka användarens
upplevda perception av en visuell display.
Spatialt hörande
Den rumsliga noggrannheten för hörselsystemet är sämre jämfört med det visuella och
det proprioceptiva systemet. Hörselsystemet kan bedöma relativa skillnader i avstånd
men förmågan att bedöma absoluta avstånd är ibland förvånansvärt dålig.
Interaural cues
Med hjälp av att vi har två öron kan små skillnader ge oss ledtrådar om ljudkällans
position. Det ger oss mest information i horisontalplanet. Interaural time difference
(ITD) beror på tidsskillnader i ljudsignaler som når respektive öra. ITD är mest
påtaglig för frekvenser under 2 kHz. Interaural intensity difference (IID) uppstår pga.
att ljud med högre frekvenser reflekteras och ockluderas så att mindre akustisk effekt
når ett av öronen. IID ökar vanligen med frekvensen på ljudet och vinkeln mellan
ljudkällan och lateralplanet. Lågfrekvent IID som kan uppstå pga. Egna kroppen
hjälper till vid bedömningar av en ljudkällas position. Det finns ett flertal positioner
en ljudkälla kan ha som ger upphov till ungefär samma ITD och IID. För ljudkällor
som befinner sig mer än en meter från lyssnaren ligger dessa positioner på en rymdyta
som kallas cone of confusion
(Figur 3.1).
46
Figur 3.1 Cone of confusion
Spectral cues
Den viktigaste cue:n för bestämning av en ljudkällas position är frekvensspektrumet
för de signaler som når örat. Dessa cues uppstår när ytterörat (pinna) interagerar med
den infallande ljudvågen. Spectral cues uppstår bara för frekvenser över 6 kHz.
Spektral cues kan ibland förväxlas med spektralförändringar i själva ljudkällan.
Reverbation
Reverbation (akustisk energi som når lyssnaren via indirekta vägar t ex väggar, golv
och tak) har rent generellt ingen eller liten effekt på lyssnarens förmåga att bedöma
vilken riktning ljudet kommer ifrån. Däremot gör reverbation det lättare för
lyssnaren att bedöma avståndet till ljudkällan. Revarbation förmedlar dessutom
ledtrådar om storleken och utformningen på en miljö till lyssnaren.
Dynamic cues
Dynamiska cues i form av förflyttningar av antingen ljudkällan eller lyssnaren kan
också förmedla information till lyssnaren. T ex, ett ljud som kommer rakt framifrån
genererar samma IID och ITD som ett ljud som kommer rakt bakifrån. Lyssnaren kan
då vrida huvudet åt vänster varvid ITD och/eller IID ökar för något av de två öronen.
Effects of stimulus characteristics on spatial perception
Även ljudkällans beskaffenhet kan påverka lyssnarens spatiala ljuduppfattning på ett
flertal olika sätt. Bandbredden hos ett ljudstimuli kan t ex påverka lyssnarens
uppfattning om ljudkällans placering. Spektrumfiltreringen som sker, orsakas av att
ytterörat kan ej positionsbestämmas om ljudet inte har tillräcklig bandbredd. Detta gör
det svårt att positionsbestämda en smalbandig ljudkälla som ligger på cone of
confusion.
Intersensory integration of spatial information
Akustisk spatial information integreras med spatial information från andra sinnen,
speciellt synsinnet, och formar spatiala uppfattningar. Synsinnet är mycket mer
dominant än hörselsinnet och den upplevda positionen hos en ljudkälla bestäms
därmed till hög grad av den visuella spatiala informationen. Detta fenomen utnyttjas t
ex av buktalare.
47
Spatial simulering
Simulering med hörlurar
En diotic display matar samma signal till båda öronen. Med ett sådant system
uppfattar lyssnaren det som att ljudkällan befinner sig inne i huvudet.
En dichotic display genererar en upplevelse av att ljudkällan befinner sig någonstans
på en tänkt linje som sammanbinder öronen. Konventionella stereoinspelningar i
musikbranschen använder ofta enkla ITD och IID cues men även reverbation och
ekon vilket leder till en relativt realistisk ljudupplevelse.
Ljuddisplayer med spatial ljudinformation kan skapas med olika signalbehandlingstekniker. Faktum är att om ljudet renderas på rätt sätt så kan det bli praktiskt taget
omöjligt att skilja det från ett riktigt ljud. För att kunna simulera ljudkällor från alla
tänkbara positioner i det virtuella rummet måste man till hörlurarna skicka en signal
som matar trumhinnorna med exakt den akustiska signal som hade nått öronen från en
verklig ljudkälla. Detta gör man oftast på följande sätt (Figur 3.2):
1. Man mäter den överföringsfunktion som beskriver hur en ljudvåg
transformeras när den färdas från en speciell plats i rummet och träffar
lyssnarens huvud och öron.
2. För att simulera ett godtyckligt ljud från en position i rummet så använder man
sedan överföringsfunktioner för att filtrera den kända ljudsignalen.
3. Den resulterande stereosignalen justeras sedan för att kompensera för
displayens egen överföringsfunktion (t ex frekvenskaraktäristiken hos ett par
hörlurar) och presenteras sedan för lyssnaren.
Figur 3.2 HRTF
De filter som beskriver hur ljudet transformeras när det möter lyssnaren kallas headrelated transfer functions (HRTFs). HRTFs beskriver hur ljudet som når lyssnaren
från en speciell position ska simuleras, men har vanligtvis ingen information om
reverbation.
48
ITD och IID är inbakad i filterna i form av den relativa fasen och magnituden mellan
filtret för höger respektive vänster öra. Informationen om spectral cues och ljudstyrka
(source intensity) ligger i den absoluta (frekvensberoende) magnituden hos de två
filterna.
Vanligtvis innehåller inte HRTFs reverbation även om det är fullt möjligt att mäta
upp överföringsfunktioner som tar hänsyn till ett rums akustik. Sådana lösningar är
inte praktiska eftersom sådana filter varierar med lyssnarens och ljudkällans position i
rummet vilket kräver ett stort antal överföringsfunktioner. Att simulera varje eko för
sig innebär enorma beräkningar. Vid många simuleringar väljer man därför att endast
rendera ett fåtal av de tidigaste ekona. Sedan lägger man på ett slumpmässigt brus
som klingar av exponentiellt för att simulera senare ekon. Även med en sådan
förenklad approach kan beräkningarna bli mycket krävande.
Hur känslig människans auditiva perception är för cues i reverbant ljudenergi är något
som ännu ej är helt utforskat. Icke desto mindre vet man att reverbation kan ha en
dramatisk effekt på den subjektiva realismen i en virtual auditory display och att
reverbation kan hjälpa lyssnaren att uppfatta avståndet till ljudkällan.
Det finns en rad praktiska faktorer som begränsar realismen hos de stimuli som kan
simuleras med en virtual auditory display. För det första är mätningar av HRTFs en
mycket svår och tidskrävande process. Som en följd av detta mäter man upp HRTFs
endast för ett avstånd till lyssnaren, oftast med ljudkällan långt ifrån lyssnaren. Alla
andra avstånd simuleras genom att man helt enkelt skalar ner magnituden hos
överförings-funktionerna. Av praktiska skäl mäter man endast upp HRTFs för ett
begränsat antal punkter och interpolerar fram HRTFs för övriga punkter. Detta
fungerar bra för ljudkällor långt från lyssnaren men kan inte leverera stimuli med
perfekt realism till lyssnaren för alla punkter i rummet. Ett annat problem är att de
flesta system använder ett standard-uppsättning av HRTFs som inte är anpassad efter
den individuelle lyssnaren. Det forskas mycket kring hur man ska kunna skräddarsy
HRTFs till den individuelle lyssnaren utan att behöva mäta upp dennes specifika
överföringsfunktioner.
De mest sofistikerade systemen som använder spatialt ljud har trackers som mäter
lyssnarens rörelser och uppdaterar HRTFs i realtid och skapar på så sätt dynamiska
rumsliga cues. Tidsfördröjningen kan emellertid vara större än 100 ms till följd av de
komplexa beräkningar som måste utföras: mäta lyssnarens rörelser, välja lämplig
HRTF och filtrera källsignalen genom denna.
Simulering med högtalare
Man kan även använda ett antal högtalare för att simulera 3D-ljud. Man utnyttjar helt
enkelt att den totala akustiska signalen vid örat är summan av de infallande akustiska
signalerna. Problemet är att både öronen tar del av signalerna vilket gör det svårt att
kontrollera interaural differences och spectral cues. För att motverka detta måste man
noggrant beakta högtalarnas placering samt rummets akustik. De två främre
högtalarna bör placeras vid ±30 grader och de två bakre vid ±110 grader. Vidare
rekommenderas att signalerna till de bakre högtalarna är olika.
49
Vad görs i spelindustrin?
Ledande på 3D-ljud i dataspelsvärlden är Creative Labs. De konkurrerade ut Aureals
system A3D2.0 med sin EAX-teknologi (Environmental Audio Extention) i slutet av
90-talet. EAX är i princip en utökning av DirectX-komponenten DirectSound3D som
endast har följande funktioner:
-
Ett ljuds intensitet avtar med avståndet till ljudkällan
IID
ITD
Ett ljud som bakifrån är mer dämpade än ljud som kommer framifrån
EAX möjliggör simulering av eko, luftabsorption av ljud, simulering av olika
rumsstorlekar etc. Det finns numera en mer avancerad version av EAX kallad EAX
Advanced HD som har följande funktioner:
-
-
Multi-Environments™ Stödjer rendering av flera ljudmiljöer samtidigt i
realtid
Environment Panning™ Ger spelutvecklarna möjlighet att styra och placera
ljudmiljöer på ett unikt sätt. T ex är det möjligt att simulera ekot av ett tåg som
är på väg ut från en tunnel.
Environment Reflections™ Möjliggör lokalisering av tidiga reflektioner och
ekon
Environment Filtering™ Simulerar ljudutbredning i både öppna och stängda
utrymmen.
Environment Morphing™ Möjliggör mjuka övergångar mellan olika
ljudmiljöer
Rekommenderad läsning:
Kapitel 4, ”Handbook of Virtual Environments – Design, Implementation and
Applications”.
50
4. Känsel-modalitet
Vårt “känselsinne” är som tidigare nämnts enormt komplext, och består egentligen av
flera olika typer av organ och receptorer. De tre viktigaste systemen:
 Taktila systemet. Olika typer av receptorer i huden för tryck, drag, vibrationer,
temperatur, samt hårrörelser.
 Proprioceptiva systemet. Receptorer i muskler och senor som ger information
om kroppsställning, och muskelbelastning.
 Vestibulära systemet. Organ i innerörat som kan liknas vid accelerometer- och
gyro-sensorer. Dessa organ ger information om huvudets rörelseförändringar,
samt dess lutning i förhållande till gravitationsriktningen.
Således är det en oerhörd utmaning att erbjuda känsel-feedback som både är realistisk
och generell. Man blir tvungen att göra kompromisser, och låta applikationen och de
ekonomiska ramarna styra vilken typ av feedback som är mest relevant att ge.
Taktil feedback är lättast att ge på mindre ytor som exempelvis en mindre display.
Enstaka pulser eller vibrationer kan förmedlas via reläer eller piezo-kristaller. En
viktig tillämpning för synskadade är displayer som dynamiskt kan förmedla brailleskrift. Det har också experimenterats med displayer som kan ge temperaturvariationer.
Joysticks och spelrattar med ”force feedback” är enkla produkter som kan ge en
kombinerad proprioceptiv och taktil feedback till en låg kostnad. Denna typ av
gränssnitt har ju sin förlaga i styrdon för att framföra ett fordon, och man kan ju
ibland ifrågasätta om det är så naturligt att även i helt andra situationer använda ett
sådant gränssnitt. För en mera generell feedback, t.ex. för att interagera med ett objekt
så kan det vara lämpligare med ett ”haptiskt” gränssnitt (se nedan).
Det vestibulära systemet är en viktig del i vårt balanssinne, och samverkar till en stor
del med den visuella informationen (se kapitel 5). Flygning och bilkörning är exempel
på situationer där man utsätts för laterala och vertikala krafter som skiljer sig kraftigt
från den normala gravitationskraften. För att ge feedback för detta, så brukar man
använda plattformar som kan lutas och höjas/sänkas med hjälp av hydraulik eller
luftbälgar. Rena translationskrafter, som t.ex. vid inbromsning, kan man framkalla
genom att åka fram på en släde. Tillsammans med matchande visuell feedback kan
detta ge en mycket stark illusion av rörelse. Dock är denna typ av utrustning mycket
resurs- och utrymmeskrävande. Det är vanligast förekommande vid avancerad flygoch fordonssimulering (se Figur 4.1).
51
Figur 4.1 Toyotas bilsimulatoranläggning i Susono, Japan. I simulatorgloben ryms en
komplett bil. Globen kan lutas upp till 25 grader åt alla håll, och den löper på räls för
förflyttning 35 meter i längsled och 20 meter i sidled. Denna simulator borde kunna
ge en mycket realistisk upplevelse av acceleration, inbromsning och kurvtagning.
Haptisk simulering
Haptik4 kommer från grekiska och har betydelsen ”att ta på”, eller ”att känna på”.
Normalt innefattas gränssnitt som ger stimuli till både det proprioceptiva systemet,
och till det taktila systemet (hudreceptorer). En joystick med ”force feedback” skulle
förvisso kunna benämnas som ett haptiskt gränssnitt, men oftast syftar man på
produkter som har minst 3 frihetsgrader, helst fler. Exempelvis har Sensable
Technologies en produktserie kallad Phantom, som erbjuder interaktion via antingen
”fingerborg” där en fingertopp träs i, eller genom ett skaft som hålls som en penna.
Dessa är kopplade till ett sofistikerat länksystem, där olika modeller erbjuder olika
stort arbetsområde och antal frihetsgrader (se Figur 4.2). Budgetmodellen Omni
erbjuder 6 frihetsgrader (6 DOF).
När man utforskar ett virtuellt objekt med hjälp av en Phantom Omni, så beräknas
haptisk feedback utifrån en enda punkt, nämligen ”pennans” spets. Detta är ett smart
sätt att förenkla interaktionen. Om man däremot verkligen vill kunna greppa ett objekt
för att t.ex. känna dess form med fingrarna, då måste haptik-återkopplingen beräknas
för flera punkter och man behöver ett komplext exo-skelett för att förmedla krafterna
till handens fingrar (se Figur 4.3).
4
hap-tic (hap'tik) adj. [Gr. haptein, to touch + ic] of or having to do with the sense of touch; tactile Webster's New World Dictionary, Second College Edition
52
Figur 4.2a
En Phantom från SensAble
Technologies, , där den virtuella
modellen kan utforskas och ”kännas”
i fingertoppen.
Figur 4.2b
En Phantom Omni, där en
virtuell modell kan ”kännas”
via penn-skaftet.
Omni är en budget-modell som
inte erbjuder så stort
arbetsområde.
53
Figur 4.3
CyberGrasp,
ett
exo-skelett
för
handen, som kan ge
en individuell kraftåterkoppling
för
varje finger.
Vanligtvis består en haptisk simuleringsalgoritm av två delar: kollisionsdetektion och
kollisionsrespons. När användaren rör på det haptiska systemets probe så tas dess nya
position och orientering fram och kollisionsdetektion genomförs. Om en kollision
upptäcks så beräknas interaktionskrafter med hjälp av fördefinierade regler för
kollisionsrespons som sedan överförs till användaren. Denna så kallade haptiska loop
uppdateras med en frekvens kring 1 KHz, annars är risken att användaren upplever det
som att det haptiska systemet vibrerar.
Figur 4.4a beskriver det enkla fallet med en punkt (the haptic interaction point, HIP)
som interagerar med en friktionsfri sfär. Eftersom sfären har en ändligt stor stelhet så
kommer HIP att penetrera sfären vid kontaktpunkten. När penetreringen har
detekterats av det haptiska systemet och lämpliga motkrafter har beräknats så blir
systemet aktivt och ger motkrafter mot användarens hand för att motverka ytterligare
penetrering. Motkraften skulle kunna beräknas enligt
F = k*dX
där k är stelhetskoefficienten och dX penetrationsdjupet. Med ett lågt k skulle sfärens
yta upplevas som mjuk. Med ett högt k skulle man få instabilitet pga. av oönskade
vibrationer. Detta beror på den ”trappeffekt” som illustreras i Figur 4.4b. Med ett
verkligt, kontinuerligt fjädrande system så är energin vid kompression och expansion
lika stora. Med ett virtuellt, fjädrande system så får man däremot en positiv
nettoenergi eftersom energin vid expansionsfasen är större. Detta kan leda till
instabilitet för stora k eftersom lutningen på kurvan och därmed nettoenergin blir
större.
54
(a)
Figur 4.4 Haptisk rendering av en friktionsfri sfär
(b)
En friktionsfri sfär är ett mycket enkelt objekt att rendera haptiskt. Om man har mer
komplexa objekt så måste man ta till vissa tekniker för att klara av att uppdatera
krafterna med en frekvens på 1000 Hz. Dessa tekniker kan delas in efter hur the
probing objekt modelleras: 1) en punkt; 2) ett linjesegment; eller 3) ett 3D-objekt
bestående av punkter, linjesegment och polygoner.
Vid punkt-baserad interaktion så är det bara ändpunkten på det haptiska pekdonet som
interagerar med de virtuella objekten. Varje gång användaren flyttar pekdonet så görs
en kollisionsdetektering för att se om punkten befinner sig inne i ett virtuellt objekt.
Om så är fallet så beräknas den ideala HIP (IHIP). Beräkningen av denna punkt
baseras inte bara på nuvarande punkt utan även på tidigare kontakter med det virtuella
objektet (figur 4.5).
Figur 4.5 Ideal HIP
När man istället använder ett linjesegment för att modellera the probing object görs
kollisionsdetektering mellan linjesegmentet och virtuella objekt. Detta möjliggör för
användaren att röra flera virtuella objekt samtidigt. Även vridmoment kan simuleras
med denna teknik, något som inte är möjligt med punktbaserad interaktion.
Att använda ett 3D-objekt som probing object är önskvärt i många tillämpningar
men kostar mycket datorkraft. En lösning är att använda ett antal punkter som är
distribuerade över 3D-objektet (McNeely et al, 1999).
55
Rendering av mjuka former, friktion and textur
Vissa principer från datorgrafiken kan återanvändas för haptisk rendering av släta
ytor. Genom att använda the force-shading technique av Morgenbesser och Srinivasan
(1996) så kan diskontinuiteter reduceras och kanterna på 3D-objekt fås att upplevas
som släta. Texturer är något som finns på de flesta ytor i naturen och som kan känns
av ganska väl av människans taktila system. Både friktion och textur brukar simuleras
genom att lägga in rätt sorts ”störningar” i reaktionskraften som bygger på
fördefinierade egenskaper hos det material som simuleras. Den stora skillnaden
mellan simulering av friktion och textur i ett haptiskt system är att friktionen endast
genererar tangentkrafter i motsatt riktning till probens rörelseriktning. En
textursimulering däremot kan generera krafter tangent- och normalkrafter i vilken
riktning som helst. Olika sorters texturer, t ex sandpapper av olika grovhet, kan
simuleras genom att man varierar friktionskoefficientens medelvärde och variation.
Rent generellt så kan haptiska textureringstekniker kan delas in i två grupper:

Image-based haptic texturering bygger på att man konstruerar en textur av
tvådimensionell bilddata. Rent konkret så fungerar dessa tekniker enligt
följande:
1. Först så mappar man 2D-bilden till en mellanliggande enkel yta
som ett plan, en kub eller en sfär.
2. I andra steget så mappas texels från den mellanliggande ytan till
själva objektet

Procedureal haptic texturing bygger på att man genererar syntetiska
texturer med matematiska funktioner. Denna funktion tar x-y-och zkoordinater som input och returnerar höjdvärdet och dess gradient.
Rekommenderad läsning:
 Kaptitel 5 och 6 i ”Handbook of Virtual Environments – Design,
Implementation and Applications
 Kapitel 3.4 i ”3D user interfaces – theory and practice”. ISBN 0-201-75867-9
Referenser
Hinckley Ken, Pausch Randy, Proffitt Dennis, Attention and visual feedback:
the bimanual frame of reference, Proceedings of the 1997 symposium on Interactive
3D graphics, p.121-ff., April 27-30, 1997, Providence, Rhode Island, United States
McNeely, William A., Puterbaugh, Kevin D., and Troy, James J.. Six degreesof-freedom haptic rendering using voxel sampling. Proceedings of SIGGRAPH 99,
pages 401--408, August 1999. ISBN 020148 -560-5. Held in Los Angeles, California.
Noma, H., Miyasato, T., and Kishino, F., “A Palmtop Display for Dexterous
Manipulation with Haptic Sensation”, CHI’96, pp. 126-133, ACM Press, New York,
1996.
Richard C. and Cutkosky M.R., “Contact force perception with an ungrounded
haptic interface,” Proceedings of the ASME Dynamic Systems and Control Division,
DSC-Vol. 61, 1997, pp. 181-187.
56
5. Inter-modalitet
Det är viktigt att beakta möjligheterna och begränsningarna i människans sinnen när
man designar virtuella miljöer. T.ex. en visuell display med upplösning som är så hög
att den mänskliga perceptionen inte kan uppfatta det är slöseri med resurser. Men det
räcker inte med att studera syn-, hörsel-, känselperception var för sig, utan människan
använder sig nästan alltid av flera olika sinnen samtidigt i en komplex samverkan.
Forskning om interaktionen mellan våra sinnen görs inom många olika discipliner t ex
psykologi, neurologi, filosofi och människa-datorinteraktion. Problemet är att
forskningsresultaten oftast stannar inom respektive disciplin.
Det teoretiska perspektivet
Marks (1978) formulerade vad han kallar the Five Doctrines of sensory
correspondence:
1. Olika sinnen kan informera oss om samma egenskaper hos omgivningen
2. Trots att det finns stora fenomenologiska skillnader mellan olika modaliteter
så finns det en del gemensamma egenskaper
3. Åtminstone en del av de sätt på vilka våra sinnen fungerar på inkommande
stimuli är generella egenskaper hos sensoriska system.
4. Det finns en motsvarighet på nervnivå till var och av de tre ovanstående
doktrinerna.
5. Denna doktrin införlivar de ovanstående fyra och förslår att flera sinnen kan
tolkas som modaliteter av en generell, och kanske mer primitiv känslighet.
Marks (1978) föreslår vidare att dimensionen kvalité verkar uppvisa minst likheter
mellan olika modaliteter medan intensitet uppvisar de starkaste likheterna över
modaliteter. Dessa forskningsresultat indikerar att meningsfulla perceptionella
interaktioner uppträder när samstämmig information når olika sensoriska kanaler,
medan information som inte har någon meningsfull relation till varandra (t ex en bild
på ett tåg och ljudet av råmande ko) så uppträder lite eller ingen interaktion.
Interaktion mellan olika modaliteter är alltså i allra högsta grad stimuliberoende.
Millar (1981) konkluderar att sinnesmodaliteterna varken är separata eller enskilda
utan snarare en kombination av båda. Annan forskning beskriver integrationen av
information från olika sinnen med konceptet sensory capture. Man har funnit att när
motsägelsefulla stimuli presenteras för olika modaliteter så tenderar observatören att
lösa stimulikonflikten genom att omforma den svagare sinnesupplevelsen till att mer
likna den starkare.
Det neurologiska perspektivet
Det har gjorts en del forskning på att identifiera de ställen i hjärnan på vilka
integration av information från olika sensoriska kanaler sker. Ett sådant ställe i
hjärnan där visuell, auditiv och somatosensory5 input konvergerar är superior
colliculus. Ändå finns det fortfarande många fenomen kopplade till integration av
stimuli som man inte kan förklara.
5
http://sv.wikipedia.org/wiki/Känsel
57
Figur 5.1 Superior colliculus
Ett sådant fenomen är synestesi som har definierats som ett ofrivilligt sammanfogande
som innebär att den riktiga sinnesinformationen i ett sinne kompletteras med ett
sinnesintryck i ett annat sinne. Förutom att upplevelsen är ofrivillig så betraktas den
av personen som verklig, ofta utanför kroppen, och inte som någon påhittad
fantasiskapelse. En av de vanligaste formerna av synestesi är färgad hörsel. När vissa
ljud uppträder så kan personen med synestesi uppleva färger (som inte finns) av olika
slag
Cross-modal matching
Cross-modal matching innebär att hjärnan använder information som tagits in via en
modalitet för att göra en bedömning av ett likvärdigt stimuli från en annan modalitet.
Lawrence Marks har forskat på cross-modal matching i ca 25 år (t ex Marks, 1978)
och har bl a funnit en stark koppling mellan brightness, pitch och loudness. I ett av
hans experiment fick försökspersonerna matcha ljudtoner till gråa ytors brightness.
Resultaten indikerade att de flesta försökspersonerna matchade ökande pitch till
ökande brightness. Hur mycket av Marks resultat beror på kulturell betingning? Det är
svårt att säga men ett experiment som pekar på att cross-modal matching är oberoende
av kultur utfördes av Wolfgang Köhler, en av skaparna till den så kallade
gestaltpsykologin. I detta experiment fick försökspersonerna para ihop ljuden ”Kiki”
och ”Booba” med formerna i figur 5.2. Dessa former och deras namn kommer från en
avlägsen stam. Nästan alla försökspersonerna parade ihop ”Kiki” med den gula,
taggiga formen och ”Booba” med den violetta, runda formen. Detta experiment har
upprepats ett antal gånger och antalet personer som parar ihop stimuli på detta sätt
ligger mellan 95 % och 98 %.
Figur 5.2 Kiki och Booba
58
Buktalarfenomenet
Ett välkänt visuellt-auditivt fenomen är the ventriloquism effect. Detta fenomen är den
illusion som uppstår då skickliga buktalare uppträder. Publiken upplever inte bara att
dockan pratar utan även att ljudet av buktalarens röst faktiskt kommer från dockan!
Detta demonstrerar den starka spatiala koppling som finns mellan syn och hörsel. En
orsak till denna illusion är det som kallas visuell dominans. Såvida det inte finns stora
skillnader i intensiteten hos inkommande stimuli till olika modaliteter så kommer
visuella stimuli att dominera perceptionen. Ragot et al (1988) kom fram till att visuell
dominans uppträder när uppmärksamheten delas mellan visuella och auditiva
modaliteter, men inte när försökspersonerna ombeds att fokusera på en av två
modaliteter.
Delad uppmärksamhet
När det gäller att uppmärksamma signaler, signal detection, så har det visat sig att den
auditiva kanalen är dominant gentemot den visuella kanalen. Detta är anledningen till
att varningssignaler vanligtvis ges i formen av ljud.
I ett experiment av Colavita (1974) fick försökspersonerna auditiva och visuella
stimuli som låg över tröskeln för vad som kan uppfattas. Stimuli gavs slumpmässigt i
form av bara auditivt stimuli, bara visuellt stimuli eller både och. När
försökspersonerna utsattes för kombinationen av auditivt och visuellt stimuli så
uppgav de att de bara uppfattat den visuella informationen och märkte alltså inte alls
att något auditivt stimuli.
Den så kallade McGurk-effekten är ett mycket intressant exempel på visuell
dominans. McGurk och MacDonald (1976) utförde ett experiment i vilket
försökspersonerna fick se läpprörelser och motsägelsefulla ljud. Försökspersonerna
fick dels höra bara själva ljudet och dels se och höra läpprörelserna och ljuden.
Resultaten var häpnadsväckande. De flesta försökspersonerna var övertygade om att
de hörde det de såg, dvs. det ljud som egentligen hörde till läpprörelserna. Inte alla
upplever illusionen, men de flesta upplever att kombinationen av "ma" (ljud) och "ka"
(läpprörelser) blir ljudet "na". En annan inte lika stark variant av McGurk-effekten är
"ba" (ljud) och "ga" (läpprörelse) som blir "da". Stein och Meredith (1993) fann att
visuella stimuli i form av läpprörelser kan förstärka aktiviteten i ljudkortex så mycket
att signal-brus-förhållandet med 15-20 dB.
59
Haptisk perception
Den visuella modaliteten kan även dominera gentemot den haptiska perceptionen.
Srinivasan, Beauregard och Brock (1996) demonstrerade detta i ett experiment i vilket
försökspersonerna hade i uppgift att bestämma styvheten hos två virtuella fjädrar. De
två fjädrarna upplevdes visuellt genom en datorskärm och haptiskt via en
PlanarGrasper. Försökspersonerna fick slumpmässigt bedöma olika kombinationer av
visuell och haptisk stimuli. Resultaten indikerade att perceptionen av styvhet till stor
del påverkades av den visuella informationen.
Perceptionsexperiment
Det har föreslagits att man genom att använda ljud av hög kvalité kan påverkar
upplevelsen av visuellt stimuli på ett positivt sätt, dvs. på så sätt att man upplever att
bildkvalitén är bättre än den egentligen är. Denna princip har bl a tillämpats för
utformning av militära simulatorer. Istället för att förbättra upplösningen på
bilddisplayen och därmed simulatorns totala kostnad så lade man till auditiva och
haptiska stimuli. Det finns väldigt lite forskning på detta område men det finns ett par
studier som har resulterat i intressanta resultat. Neuman, Crigler och Bove (1991)
genomförde ett experiment för att mäta effekterna av ändringar i ljudkvalitén på
visuell perception av en HDTV-bild. Kvalitén på den visuella stimulin hölls konstant
medan ljudkvalitén manipulerades. Det mest intressanta resultatet var att några
försökspersoner upplevde en ökning i visuell kvalité när ljudkvalitén var hög.
Ökningen var emellertid inte statistiskt signifikant.
Woszczyk, Bech och Hansen (1995) föreslår att det är viktigt att fokusera på den
totala upplevelsen och inte på de individuella modaliteterna var för sig. Ett av deras
mest intressanta resultat var att både den upplevda ljud-och-bildkvalitén ökade med
ökande skärmstorlek.
Storms och Zyda (2001) genomförde tre experiment med totalt 108 försökspersoner
för att undersöka intermodala effekter mellan den auditiva och den visuella
modaliteten. Deras resultat indikerade att en visuell display av hög kvalité i
kombination med en auditiv display av hög kvalité ökar den upplevda kvalitén hos
den visuella displayen jämfört med fallet då endast den visuella displayen är aktiv.
Vidare indikerade resultaten att en ljuddisplay av låg kvalité kopplad till en visuell
display av hög kvalité minskar den upplevda kvalitén hos den visuella displayen
jämfört med fallet då endast den visuella displayen är aktiv. Dessa resultat visar på
vad man inom spel-och-filmindustrin känt till sedan länge: att ljud kan påverka den
upplevda kvalitén hos bildstimuli och vice versa. Resultaten visar även att även om vi
människor kan dela vår uppmärksamhet mellan ljudstimuli och visuell stimuli så är vi
inte medvetna om eventuella intermodalitetseffekter.
Balans och yrsel
Vår balansförmåga är en mycket komplex funktion som bygger på samspelet mellan
synen, vestibulära systemet, proprioceptiva systemet, och taktila systemet. De
vestibulära organen finns i innerörat och ger hjärnan information om huvudets
rotations- och translations-förändringar samt gravitationen. Speciellt är synen och det
vestibulära systemet nära sammankopplat. Exempelvis kan sjukdomar som ger
upphov till yrsel ofta påverka den oculo-vestibulära samverkan, och diagnosticeras
genom att studera anomalier i ögonrörelserna.
Inom VR kan det vara speciellt viktigt att beakta att man ganska enkelt kan framkalla
vection, dvs en illusion av rörelse som enbart kommer från visuell stimuli. Och vill
60
man förstärka t.ex. en illusion av bilkörning så kan ljud och vibrationer öka
närvarokänslan kraftigt. Har man en stor budget kan man även ge kraft-påkänningar
med hjälp av slädar eller rörliga plattformar. Men nästan oavsett hur stor
ambitionsnivån är, så är det väldigt svårt att matcha alla stimuli perfekt så att det
motsvarar vad en människa varseblir i en verklig situation. Det är ett allmänt
antagande att illamående, eller ”simulator-sjuka”, är resultatet av stimuli som ligger
lite utanför referensramarna av vad man är van vid att uppleva. T.ex. alltför snabba
hastigheter, eller en dålig matchning mellan visuella och vestibulära intryck.
Referenslista
Colavita, Francis, B.: Human sensory dominance. Perception &
Psychophysics, 16, 1974, S. 409-412.
McGurk, K. and MacDonald, J. (1976). Hearing Lips and Seeing Voices.
Nature, 264:746 748.
Marks, LE (1978) - The Unity of the Senses: Interrelations among the
Modalities, New York: Academic Press.
Millar S. (1981). Crossmodal and intersensory perception and the blind. In
R.D. Walk & H-L. Pick, Jr. (eds.) Intersensory Perception and Sensory Integration.
New York: Plenum Press.
Newman WR, Krickler A, Bove BM (1991) Television, Sound, and Viewer
Perceptions. In: Proceedings Joint IEEE and Audio Engineering Society Meeting,
1991, Detroit, Mich. February 1-2, 1994
Ragot R.; Cavé C.; Fano M. (1988). Reciprocal effects of visual and auditory
stimuli in a spatial compatibility situation. Bulletin of Psychonomic Society, 26, 4,
350-352.
Stein, B.E. & Meredith, M.A. (1993). The merging of the senses. Cambridge,
MA. MIT Press.
Storms RL. and Zyda MJ "Interactions in Perceived Quality of AuditoryVisual Displays," Presence, Vol. 9, No. 6, December 2000, pp.557-580.
Woszczyk W., Bech S. and Hansen V., Interaction between audio-visual
factors in a home theatre system: definition of subjective attributes, 99th Conv. AES,
pre-print 4133, October 1995.
Rekommenderad läsning:
Kapitel 22 i ”Handbook of Virtual Environments – Design, Implementation and
Applications”.
61
6. Interaktion för VR och AR
Inom VR och AR är det fundamentalt att en användare ska kunna ge input på något
sätt, för att kunna påverka den simulerade miljön. Vanligtvis med avseende på:
 Navigation: användaren kan se sig runt, och förflytta sig i den virtuella miljön.
 Objektmanipulation: användaren kan påverka, t.ex. flytta runt eller ändra
status på objekt i den virtuella miljön.
I inledningskapitlet så uttrycktes ambitionen att interaktionen bör utföras på ett
verklighetstroget sätt. Traditionellt har dock möjligheterna varit begränsade, på grund
av tekniska och ekonomiska orsaker. Medan det för vissa simuleringsmiljöer, såsom
bilkörning eller flygning, kan vara relativt enkelt att efterlikna verklighetens
kontrollenheter, är det i andra situationer en uppenbar teknisk utmaning, t.ex. att
försöka efterlikna gång i First Person Shooting (FPS) spel. Ett substitut i form av W,
A, S, D-tangenterna har blivit ett pragmatiskt och allmänt accepterat interaktionssätt.
En ny trend inom interaktionsdesign är paradigmet Natural Interaction, där
ambitionen är att när så är möjligt efterlikna naturliga handlingar och rörelser.
Teknologi på frammarsch som kan understödja denna trend är exempelvis:
 Displayer med multi-touch
 Wearable devices
 Tal-syntes/-igenkänning
 Bättre och billigare tracking-produkter
Den sistnämnda punkten, tracking-produkter, var fram till för bara några år sedan
väldigt exklusiva och dyra produkter, men numera har de fått en enorm spridning tack
vare diverse teknikgenombrott och trender inom spelindustrin. Kapitel 7 kommer att
beskriva olika metoder för tracking.
Interaktion via gester
Gester är uttryck med kroppsrörelser som syftar till att överföra information eller
interagera med omgivningen. Ett intressant exempel på hur gester används för visuell
kommunikation är U.S. Army field manual som är en guide för hur man ska använda
visuella signaler inklusive hand-och armgester för en mängd olika situation.
Kendon (1972) beskriver ett kontinuum av gester:





Gesticulation – spontana hand-och armrörelser när man pratar
Languagelike gestures – gest som är integrerad i ett yttrande och som ersätter
ett visst ord eller en viss fras
Pantomimes – gester som avbildar objekt eller handlingar, med eller utan tal
Emblems – välkända gester som t ex ”V for victory”
Sign languages – linguistiska system som är väldefinierade
Ju längre ner i listan man kommer desto mindre blir spontaniteten och desto fler blir
de sociala reglerna. Gesticulation utgör ca 90 % av de mänskliga gesterna. Trots den
stora betydelsen som gestikulation har för människa-människainteraktion så har större
delen av forskningen inom människa-datorinteraktion och virtual reality fokuserat på
62
de nedre delarna av Kendons (1992) kontinuum. Emblems och gestural languages har
ofta klarare semantisk mening och kan därför vara mer lämpliga för den typ av
interaktion som är lämplig för VR-system.
Representation av gester
Att känna igen gester handlar om mönsterigenkänning. Först fångas själva gestens
rörelser in t ex med hjälp av ett trackingsystem. Dessa rörelser (positioner, vinklar,
hastigheter etc.) analyseras sedan för att får fram deras grundläggande drag. Dessa
drag körs sedan mot en databas med gester för att kunna känna igen vilken gest det rör
sig om.
Sensor
processing
Feature
extraction
Gesture
classification
Recognized
gesture
Gesture
database
Figur 6.1 Igenkänning av gester
Eftersom gester varierar mycket så är det viktigt att fånga själva essensen i dem.
Precis som med taligenkänning så får man ofta kompromissa mellan noggrannhet och
generaliserbarhet: ju större noggrannhet man vill ha, desto mer användarspecifik
träning behövs.
Det finns en rad olika sätt på vilket gesterna kommuniceras från användaren till VRsystemet:

Penn-baserad gestigenkänning
En del forskning har gjorts på att känna igen gester från 2D styrdon som penna
eller mus. Det idag vanligaste exemplet på denna teknik är
teckenigenkänningen i t ex handdatorer. Oviatt (1996) kunde påvisa
signifikanta fördelar med att använda tal och gester tillsammans för vissa
uppgifter.

Tracker-baserad gestigenkänning
Några fördelar med att använda trackade handskar är
 Direkt mätning av hand-och fingerparametrar (vinklar, positioner etc.)
 Ger data med hög samplingsfrekvens
 Lätt att använda
 Inga problem med siktlinjer
 Det finns system som inte är alltför dyra
Några nackdelar:
 Svårigheter med kalibrering
 Handskarnas räckvidd kan begränsas av sladdar
 Data från billigare system kan innehålla mycket brus
 System med hög noggrannhet är dyra

Passiv kamerabaserad gest-igenkänning
63
Kamerabaserade system använder en eller flera kameror för att fånga och tolka
bildinformation i syfte att producera visuella drag som kan användas till att
tolka mänsklig aktivitet och känna igen gester. Till skillnad mot sensorer som
man bär på sig så har kamerabaserade system problem med att kamerans sikt
kan skymmas. Man kan använda fler kameror för att komma runt detta
problem men då får man istället problem med integrering av
kamerasignalerna.
Hand-och-armgester är de gester som har forskats mest på. Majoriteten av de
automatiska igenkänningssystem som finns är för
o deictic gestures (pekande gester som refererar till människor, objekt
eller händelser i tid och rum)
o emblematic gestures (t ex ett V-tecken)
o teckenspråk med begränsad vokabulär och syntax
Ett exempel på ett sådant system är ZYKLOP (Stark och Kohler, 1995) som
kan känna igen gester i realtid. Efter att handen har extraherats ut från bilden
och drag såsom fingertopparnas positioner har plockats ut så bestäms vilken
handgest det rör sig om. Gestigenkänning över tid görs sedan på sekvenserna
av handposer och deras rörelsemönster.
AR specifik interaktion
En av de viktigaste aspekterna av AR är att skapa lämpliga tekniker för intuitiv
interaktion mellan användaren och det virtuella innehållet av AR applikationer. Det
finns fyra huvudsakliga sätt att interagera med AR applikationer: gripbar (tangible)
AR gränssnitt, kollaborativ AR gränssnitt, hybrid AR gränssnitt och multimodala
gränssnitt.
Tangible AR interfaces
Gripbara gränssnitt stöder direkt interaktion med den verkliga världen genom att
utnyttja användning av verkliga, fysiska objekt och verktyg. Ett klassiskt exempel på
gripbar användargränssnitt är VOMAR som utvecklats av Kato et al. (2000), där en
person kan välja att flytta möbler i en AR vardagsrum med hjälp av en verklig, fysisk
paddel. Paddel rörelser är mappade till intuitiva gestkommandon. Till exempel
används paddel rörelse för att "plocka upp" ett objekt, för att markera det. Rörelsen
för att ta bort ett objekt utförs genom att slå ett objekt.
Ett mer aktuellt exempel på tangible AR gränssnitt är TaPuMa. (Figur 6.2).
Figur 6.2 TaPuMa
64
TaPuMa systemet som är utvecklat av Pranav et al. (2008) erbjuder användare att hitta
information om vardagliga saker genom saker som man bär med sig. Till exempel
genom att lägga visa kort på TaPuMa systemet kan du få en utritad väg till närmaste
affär eller bankomat etc. Fördelen med att använda föremål som sökord är att man
eliminerar språkbarriären som man normalt ertappas med av konventionella grafiska
gränssnitt (även om de flesta av dem har flera språk, är de ofta felöversatta). Å andra
sidan, kan sökord med objekten också vara tvetydig, eftersom det kan finnas mer än
en mappning till åtgärder eller information som är möjliga, och olika människor från
olika platser, åldersgrupper och kulturer har olika betydelser för olika objekt.
Kollaborativ AR interfaces
Kollaborativ AR gränssnitt inkluderar användning av flera skärmar för att stödja både
fjär och när aktiviteter. Det är speciellt lämpat då man ska kollaborera med rumsliga
3D objekt. Exempel på kollaborativ AR är Studierstube, där två personer kan
samtidigt titta på ett 3D gränssnitt och interagera med det (Figur 6.3).
Figur 6.3 Studierstube gränssnitt.
Fjärdelning kan användas för att förbättra telefonmöten. Sådana gränssnitt kan
integreras med medicinska applikationer för att utföra diagnostik, kirurgi, och/eller
servicerutiner.
Hybrid AR interfaces
Hybrid gränssnitt kombinerar ett sortiment av olika, men kompletterande gränssnitt
liksom möjligheten att interagera, genom ett brett spektrum av interaktions
anordningar. De ger en flexibel plattform för oplanerade, vardaglig interaktion där det
inte är känt i förväg vilken typ av interaktion display eller enheter som kommer att
användas.
Multimodal AR interfaces
Multimodala gränssnitt kombinerar flera användargränssnitt som tal, beröring,
naturliga gester, eller ögonrörelse som styrdon. Exempel på multimodala gränssnitt
innefattar MITs Sixth Sense bärbara gestgränssnitt, som kallas WUW. WUW ger
användaren information genom att projicera på ytor, väggar och fysiska föremål
genom naturliga gester, armar rörelse och/eller samverkan med själva objektet. Ett
annat exempel på multimodal interaktion är Lee et al. (2010), som erbjuder möjlighet
65
för interaktion med ögonrörelser och blinkningar. Denna typ av interaktion är under
utveckling och just kombinationen av ögonrörelser, röst och gester kan komma att ge
en relativt robust och effektiv människa datorinteraktion. Multimodala gränssnitt ger
dessutom frihet att välja den interaktion som är mest lämplig beroende på
sammanhanget, dvs. offentlig plats, museum, bibliotek, etc.
Framtiden
Det finns fortfarande många obesvarade frågor på det här området. T ex så har väldigt
lite gjorts för att utvärdera användbarheten av interaktion med gester. Felprocent
mellan 1 % och 50 % har rapporterats beroende på svårigheten hos uppgiften.
En annan fråga är om gestigenkänningssystem kan anpassa sig efter skillnader mellan
olika användare eller om det är nödvändigt att träna systemet och/eller användaren
innan. Och så den kanske viktigaste frågan av alla: hur bra måste
gestigenkänningssystem bli för att på allvar vara användbara för kommersiellt
gångbara applikationer?
Ögonrörelse-styrning
Ögonrörelsemätningar har traditionellt använts inom kognitionsvetenskapen för att
studera en rad olika egenskaper hos människans visuella beteende. De vanligaste
mätenheterna är saccader, smooth pursuit (ögonen följer ett objekt) och fixeringarna
mellan dessa rörelser. Amplitudmässigt brukar saccader ligga mellan 1 och 20 grader
och varar mellan 10 och 80 millisekunder. När ögat följer ett objekt med
vinkelhastigheter mellan 1 och 30 grader/sekund så kan ögat följa objektet på ett
mjukt sätt (dvs. utan saccader).
Hur ögonrörelsemätningar fungerar
Flera olika tekniker har använts för ögonrörelsemätningar och de kan delas in i
kontakt och icke-kontakt-metoder. Kontakt-metoder använder magnetisk induktion
för att läsa av ögats rörelser m h a en anordning som monteras på användarens huvud.
Bland icke-kontakt-metoderna är the limbus eyetracker det enklaste och billigaste
systemet. Två infraröda fotoemittrar som arbetar med frekvensen 1 kHz riktas mot
gränsen mellan iris och ögonvitan. Mer eller mindre ljus kommer att reflekteras
beroende på ögats position relativt fotoemittern. Ett par infraröda detektorer plockar
upp det reflekterade ljuset. Med denna information kan man sedan bestämma i vilken
riktning personen tittar.
Videobaserade ögonrörelsemätningssystem passar bäst till 2D-inspelningar av
ögonrörelser hos en person som är relativt fri att röra sig inom ett visst utrymme.
Systemet plockar in en videobild av ögat som är belyst av ett avlägsen, låg-effekts
infraljuskälla, i vilken man kan se en highlightad punkt på hornhinnans yta. Denna
bild behandlas av en dator som beräknar hornhinnereflektionens mittpunkt samt
pupillens mittpunkt. Hornhinnereflektionens mittpunkt är okänslig för ögonrotationer
men känslig för positionsförändringar hos huvudet och ögat. Pupillens mittpunkt är
däremot känslig för båda dessa fenomen. Skillnaden mellan pupillens mittpunkt och
hornhinnereflexens mittpunkt blir en signal som är proportionerlig mot ögats rotation
och därmed ögats blickriktning.
66
Ögonrörelser som styrdon
Det finns ett antagande som säger att det som en användare tittar på en datorskärm är
också det som användaren önskar välja. Av denna anledning har man försökt att
använda ögonrörelser som styrdon för framför allt menyval. Eftersom ögonen
tenderar att snabbt röra sig mellan olika positioner så brukar objektval definieras som
en längre tid som ögat fixerar ett objekt, vanligtvis 250 ms. Det är emellertid svårt för
de flesta användare att hålla ögonen stilla under en sådan tidsrymd. Om man minskar
denna tid så får man dock andra problem. The Midas touch är ett fenomen som
resulterar i att man väljer fler objekt än det man ville välja.
Nackdelen med att ha ögonrörelser som datorinput är att det lätt blir konflikter mellan
det önskade inputbeteendet hos ögonen och ögonens automatiska beteende. På senare
tid har forskare börjat studera om man kan bygga modeller av ögats beteende för att
kunna ta fram heuristik som kan hjälpa till att bestämma lämplig input. En enkel
sådan heuristik har tagits fram av Zhai, Morimoto och Ihde (1999). Med deras metod
befinner sig muspekaren hela tiden i den punkt på vilken användaren tittar. Ett val
görs genom att användaren klickar på musknappen.
Det finns stor potential i att kombinera input från ögonrörelser med input från andra
modaliteter. T ex så skulle man kunna kombinera ögonrörelser med röstinput. Med ett
sådant system skulle man t ex kunna flytta objekt genom att titta på det och säga
”Flytta objektet dit”. När användaren säger ”dit” och tittar på destinationen så flyttas
objektet dit. Informationen från användarens tal hjälper datorn att bestämma vilken
destinationen är trots svårtolkade och brusiga ögonrörelser.
I dagsläget finns det ingen enkel, naturlig lösning på hur man kan använda endast
ögonrörelser som input. Head-mounted displays är svåra att kombinera med
ögonrörelse-input eftersom det är svårt att hålla systemet kalibrerat då HMD:n ofta
glider och ändrar position på användarens huvud.
En av de stora utmaningarna med att göra ögonrörelser till ett musliknande styrdon är
att ögat inte rör sig på samma lugna och kontrollerade sätt som en handkontrollerad
mus. Försök med speciella filter och så kallade averaging techniques har dock gjorts
för att göra rörelserna mjuka och naturliga.
Hela tanken med att använda ögonrörelser som styrdon är att man kan ge snabbare
input till ett datorsystem. Saccader görs förvisso snabbare än handrörelser men att ta
fram ett styrdon som faktiskt drar nytta av ögats snabbhet kan vara svårt i praktiken.
Fitts’ lag lyder
MT = a + b*log2(2D/W)
MT är tiden det tar att flytta pekaren från en startpunkt till ett mål som har diametern
W och befinner sig på avståndet D. A och b är konstanter som är specifika för det
använda styrdonet. Ett styrdon med stort värde på konstanten a lägger förmodligen
stor kognitiv belastning på användaren (t ex så kräver styrdonet koordination av
många muskelgrupper för att sätta igång rörelsen mot målet.) Ett stort b förutsäger att
en användares prestanda med styrdonet kommer att sjunka med ökande D eller
minskande W om användaren t ex måste utföra flera motoriska uppgifter samtidigt
(som att hålla ner musknappen för att dra ett objekt till ett mål). Man har kunnat visa
67
att även ögonrörelser följer Fitts’ lag. Man har funnit att fördelen med
ögonrörelsestyrning beror på saccadernas höga hastighet och inte på den ”kognitiva
tid” som går år för att initiera uppgiften som representeras av konstanten b i Fitts’ lag.
Rekommenderad läsning:
Kapitel 9 ”Handbook of Virtual Environments – Design, Implementation and
Applications
Kapitel 10 ”Handbook of Virtual Environments – Design, Implementation and
Applications
Referenser
Kendon, A. Some relationships between body motion and speech. In A. Seigman and
B. Pope, editors, Studies in Dyadic Communication. Elmsford, New York: Pergamon
Press, 1972, pp.177-216.
Oviatt, S. L. Multimodal interfaces for dynamic interactive maps, Proceedings of
CHI’96 Human Factors in Computing Systems. ACM Press, NY, 1996, 95-102.
Stark M. and Kohler M., “Video based gesture recognition for human computer
interaction,” in W. D.-Fellner (ed.), Modeling - Virtual Worlds - Distributed
Graphics, November 1995.
Zhai Shumin, Morimoto Carlos, Ihde Steven: Manual and Gaze Input Cascaded
(MAGIC) Pointing. CHI 1999 246-253.
68
7. Tracking
Inom Virtual Reality är tracking ett mycket viktigt och kritiskt område med många
tekniska utmaningar. Vi har valt att använda det engelska ordet, men en översättning
till svenska skulle kunna vara spårning eller målföljning.
Tracking behövs för att realisera en interaktiv simulering där en person, en kroppsdel
eller ett objekts rörelse kontinuerligt ska registreras för att påverka simuleringen på
något sätt. En typisk situation är att en användares huvudposition trackas för att
uppdatera simuleringens point-of-view och projektionsmatris.
Det finns en mängd olika metoder för tracking. Alla har sina fördelar och nackdelar,
och man bör låta applikationen och budgeten avgöra vad som är lämpligast från fall
till fall. Man kan grovt klassificera dem under följande kategorier:

Mekanisk

Akustisk

Elektromagnetisk

Optisk / Bildbaserad

Global positionering

Ögonrörelsemätning
Mekanisk tracking
Mekanisk (eller kanske mera korrekt: elektromekanisk) trackning går ut på att
omvandla mekanisk rörelse till en elektronisk signal. Ofta kan man använda enkla
mekatronik-komponenter som är vanliga inom industrin, som t.ex. en
vridpotentiometer för att ge en vinkelangivelse. Man brukar skilja på två typer av
system: Kinematiska system (även kallat fjättrade system), samt Tröghetsbaserade
system (även kallat ofjättrade system).
Kinematiska trackingsystem
Ett kinematiskt system utgår från en fix bas som tjänar som en referenspunkt. Utifrån
denna bas går en serie rigida länkar som är förbundna med varandra med leder. Med
hjälp av vinkelgivare kan man då bestämma varje länks position och orientering i
förhållande till basen.
Fakespace Boom (Figur 2.15) och SenseAbles Phantom (Figur 4.2) är exempel på
kinematiska system. Fördelarna är hög precision och hög tillförlitlighet. Den
uppenbara nackdelen med denna metod är att arbetsområdet bestäms av systemets
fixerade bas och den begränsade räckvidden hos länkarna. Om man skulle göra
länksegmenten längre så ökar massan och resonansfrekvensen sänks. Detta kan leda
till fördröjningar eller resonanssvängningar, samt till att användaren känner av dess
egenmassa mer.
69
Människokroppen kan förvisso också betraktas som ett kinematiskt system, och med
ett personburet kinematiskt trackingsystem låter man basen vara någonstans på
kroppen och kan mer direkt mäta en kroppsrörelse. Det förekommer allt från enkla
goniometrar till avancerade flerledade exo-skelett. Goniometrar kallas de givare som
mäter vinklar mellan leder, och man kan använda t.ex. potentiometrar, resistiva
töjningsgivare eller fiberoptik (Figur 7.1). Man kan även skapa s.k. virtuella
goniometrar genom att sätta en orienteringsmätare på respektive kroppsdel och sedan
beräkna skillnaden i vinkel mellan dem. Nackdelen med denna metod är att
mätutrustningen kan vara obekväm, och tenderar att hamna ur läge när användaren rör
på sig. Vilken utrustning man än använder så kan man med de uppmätta beräkna läget
för varje kroppssegment i förhållande till baspunkten. Kroppsställningen kan
bestämmas ur vinkeldatan med hjälp av Forward Kinematics-beräkningar (FK). FK är
relativt enkelt att beräkna, och ger alltid en entydig lösning.
Figur 7.1a En goniometer för en exakt
vinkelmätning av knäled.
Figur 7.1b The CyberGlove. I varje handske
är 22 resistiva sensorer insydda, för att mäta
fingerledernas flexion och abduktion.
Inverse kinematics (IK) kan användas för att beräkna poserna hos övriga kroppsdelar
när endast poserna för några få kroppssegment är kända, vanligtvis huvudet och
händerna. IK-algoritmer är mycket mer komplexa än forward kinematics-beräkningar
men en hel del kunskap om hur man gör detta finns speciellt inom robot-tekniken.
Rent konkret fungerar det så att en sensor mäter t ex handens position och orientering
och skickar dessa data till IK-algoritmen. IK-algoritmen försöker sedan beräkna den
mest sannolika kombinationen av poser hos de övriga kroppssegmenten som gör att
handen hamnar i det önskade läget.
Tröghetsbaserade system
Tröghetsbaserade system, eller ofjättrade system, använder sig av accelerometrar och
gyroskop. I bl.a. missiler, flygplan och båtar har man alltsedan 50-talet använt Inertial
Navigation Systems (INS), där man använder tre ortogonala gyroskop för att mäta
orientering och tre ortogonala accelerometrar för att mäta position. Nuförtiden kan
man enkelt bygga ett tröghetsbaserat system utan rörliga delar, och med billiga
integrerade kretsar, s.k. MEMS (micro-electromechanical systems). Genom
70
miniatyriseringen, och det stora behovet inom bilindustrin på 90-talet, fick denna typ
av sensorer ett stort genomslag, och har nu blivit så pass små och billiga att de
används flitigt i konsumentprodukter t ex laptops och smart phones.
En accelerometer är i princip en massa upphängd i fjädrar i ett hölje som kan
användas för att mäta accelerationen som inte beror på tyngdkraften längs dess
känsliga axel (Figur 7.2). Det stora problemet med accelerometrar är drift. Det beror
på att det som registreras (m/s2) måste dubbelintegreras för att man ska erhålla ett
positionsvärde (m). Avvikelser och brus blir därför ackumulerande, och en helt
stillastående sensor kan ge värden som om den rörde sig.
Den senaste generationen gyroskop kallas coriolis vibratory gyroscope (CVG) och
behöver inte någon roterande massa. Att tracka med gyroskop medför ett antal
fördelar. T ex så finns ingen räckviddsbegränsning och inga problem med siktlinjer
och interferens. En annan stor fördel är extremt lite jitter. En tredje fördel är att
gyroskop är väldigt snabba. Jitter och latency i orienteringen är de kritiska
parametrarna i HMD:s och därför är det mycket lämpligt att använda gyroskop för
tracking av huvudets tilt (framåt-/bakåtlutning) och roll (sidolutning). Yaw (rotation i
horisontalplanet) är däremot benäget att drifta, eftersom man då inte får någon
inverkan från gravitationen.
Figur 7.2 En principskiss av en accelerometer
Allmänt kan problemen med drift hos tröghetssensorer minskas genom att man
använder komponenter med högre noggrannhet, algoritmer som håller driften nere,
eller genom att användaren med jämna mellanrum återvänder till startpositionen så att
felet kan nollställas. Alternativt kan man komplettera med någon annan trackingmetod
(se avsnitt Hybridsystem).
Akustiska trackingsystem
Principen bakom så kallade akustiska trackers bygger på att man mäter flykttiden för
en kort ultraljudspuls. Flykttiden (time-of-flight) mellan en sändare och mottagare är
direkt proportionell med avståndet. Detta var en av de tidigaste metoderna för
tracking, och bl.a. användes den av Ivan Sutherland när han tog fram sina tidiga
HMD-lösningar. Akustiska trackers kan göras väldigt billiga och användes därför bl a
i Mattels PowerGlove som var ett tillbehör till Nintendos TV-spel i början av 90-talet
71
(Figur 7.3). Typiska nackdelar med denna teknologi är latency, låg
uppdateringsfrekvens samt känslighet för ultraljudsbrus. Anledningen till den ibland
låga uppdateringsfrekvensen är reverberation. Beroende på akustiken i rummet så
måste man vänta 5 till 100 ms på att efterklangen dör ut innan man kan skicka ut en
ny puls vilket kan innebär uppdateringsfrekvenser så låga som 10 Hz.
Figur 7.3 The PowerGlove
Elektromagnetiska trackingsystem
Elektromagnetiska trackingteknologier har en lång historia och har till dags dato
använts mer än någon annan trackingteknologi. I början av 90-talet använde man
billiga digitala kompasser i HMD:s för konsumentbruk. Detta funkade dessvärre
mycket dåligt och geomagnetisk tracking används därför inte idag. Polhemus
Navigation Sciences har tagit fram en teknik för att tracka position och orientering,
och som ursprungligen var avsedd att sitta på stridspilothjälmar. Tekniken använde ett
växelmagnetfält i vilken en sensor som kunde känna av detta magnetfält befann sig.
På senare tid har man utvecklat liknande system som bygger på quasi-DC magnetfält.
Båda dessa varianter används nu flitigt i en mängd olika gränssnittstillämpningar. I
båda systemen genereras magnetiska fält av en källa som består av tre ortogonala
lindade spolar som aktiveras i sekvens av en kontrollenhet för att generera tre
ortogonala magnetdipolfält som påminner om jordens dipolfält. I ett AC-system så
aktiveras källan av växelström med frekvenser mellan 7 och 14 kHz. Sensorn består
av tre liknande lindade spolar som kan mäta komponenter av de svängande
magnetiska fälten genom induktion.
Både AC och DC system har en mycket begränsad räckvidd eftersom magnetfältets
styrka avtar snabbt med avståndet till sensorn. AC-system är bara känsliga för
frekvensband centrerade kring 8, 10, 12 eller 14 kHz och är därför immuna mot
interferens från lågfrekventa spänningskällor såsom elledningar och datormonitorer.
DC-system däremot kan producera fel på hela 30 mm till följd av interferens från
lågfrekventa spänningskällor. Man kan dock få ner detta fel till mer rimlig storlek
bl.a. genom användning av filter. Det har gjorts studier på hur olika metaller påverkar
72
AC-och DC-system. Man har funnit att DC-system inte påverkas alls av mässing,
aluminium och rostfritt stål men däremot av koppar, ferrit och ohärdat stål.
Ett exempel på ett elektromagnetiskt system är Flock-of-Birds, från Ascension Inc. (se
Figur 7.4).
Figur 7.4 Ett elektromagnetiskt tracking-system: Flock-of-Birds, från Ascension Inc.
Systemet kan samtidigt spåra position och orientering på upp till trettio sensorer med
en sändare. Varje sensor är kapabel att göra 20 till 144 mätningar per sekund av dess
position och orientering (6 frihetsgrader). Räckvidden för sändaren ger ett maximalt
arbetsområde på ± 2,4 meter. Position och riktning bestäms genom att överföra en
pulsat DC magnetfält som mäts samtidigt av alla sensorer i flocken. Från det uppmätta
magnetfältet, beräknar varje sensor självständigt sin position och orientering och gör
denna information tillgänglig för en värddator.
Optiska/ bildbaserade trackingsystem
De flesta optiska system använder någon form av sensor för att registrera
punktformiga markörer och kan klassificeras i outside-in och inside-out system. Det
vanligaste arrangemanget är att använda ett ouside-in system med markörer på det
trackade objektet. Sensorerna detekterar riktningen mot markörerna och en dator
triangulerar sedan fram markörernas positioner m h a vinklarna från de två närmaste
kamerorna. Det största problemet med outside-in-system är att man får kompromissa
mellan upplösning och arbetsvolym, eftersom kameror med smal FOV har bra
upplösning och vice versa. Ett alternativt arrangemang är inside-out-system i vilka
man placerar sensorn på användaren och markörer i väggar eller tak. För att få
tillräckligt bra positionsupplösning i ett inside-out-system så måste man ibland placera
fler än en sensor på användaren vilket kan blir för tungt för vissa tillämpningar. En
73
möjlig konfiguration är alltså att använda outside-in tracking för att få god
positionsupplösning och inside-out tracking för att få bra orienteringsupplösning.
Optiska system kan även klassificeras utefter huruvida de är bildbaserade eller ej.
Bildsensorer som CCD- eller CMOS-kameror kräver någon slags bildbehandling för
att man ska kunna hitta markörernas vinklar. De har fördelen att de kan hitta
positionen för flera markörer i samma bild och att de kan vara exakta även om det
finns bakgrundsbrus, iallafall så länge bildbehandlingen är tillräckligt avancerad. Icke
bildbaserade system som t ex quad cells eller lateral effect photodiode är helt analoga
sensorer som bestämmer mittpunkten av allt ljus i bilden. Dessa system kräver ingen
bildbehandling men man måste se till att det enda ljus som sensorerna ser kommer
från markörerna. Därför använder man alltid denna typ av sensorer tillsammans med
markörer som är aktiva ljuskällor. I de flesta fall är markörerna infraröda ljusdioder
och sensorn är utrustad med ett IR-filter för att blockera allt synligt ljus.
Bildbaserade system är inte begränsade till aktiva markörer utan kan även användas
med retroreflektiva och t o m passiva markörer. Många kommersiella motion capturesystem använder kameror med ljusdioder placerade runt linsen (Figur 7.5a) för att
tracka markörer i form av små bollar täckta av retroreflekterande film som innehåller
tusentals reflexer som reflekterar tillbaka ljuset i den riktning det kom (Figur 7.5b). På
så sätt registrerar kameran bollarna som väldigt ljusstarka (Figur 7.5c).
(a)
(b)
Figur 7.5. Komponenter i ett motion capture-system
(c)
Denna metod gör markörerna så pass ljusstarka att den enda bildbehandling man
behöver göra är ändra tröskelvärdet för vitt och sedan hitta mittpunkten på den
ljuscirkel som är markören. Nackdelen med metoden är att den endast fungerar i
inomhusmiljöer där man inte har för mycket bakgrundsljus.
Passiva system kräver avsevärt mer datorkraft eftersom markörerna inte är ljusare
eller mörkare än andra vita och svarta objekt i bilden. Markörerna måste istället
identifieras på basis av form och storlek. Man tror att bildbaserade system med
passiva markörer kommer att användas flitigt i framtiden eftersom utvecklingen av
allt snabbare processorer kommer att tillåta allt mer avancerad bildbehandling.
Fördelarna jämfört med ett system som använder aktiva markörer är:




I inside-out-system behöver man inte dra kablar till de aktiva markörerna på
väggar och/eller golv
Större räckvidd till lägre kostnad
Många användare kan ha samma set av markörer utan risk för konflikter
Bärbara system är sladdlösa och behöver inte använda radiokommunikation
istället
74

De kan använda vidvinkelkameror utan risk för fel pga reflektioner och
därmed behöver man inte använda så många markörer
Fördelar jämfört med bildbaserade system med retroreflektiva markörer är:
 I inside-out-system behöver användaren inte bära en ljuskälla
 Markörerna är platta istället för sfäriska
 Markörerna kan tilldelas unika koder och bildbehandlingen gör att man kan
identifiera positionen och identiteten för varje markör
 De kan fungera såväl inomhus om utomhus
Bildbaserad tracking utan markörer
Den senaste utvecklingen av sofistikerade bildbehandlingsalgoritmer medger att
tracking nu kan göras utan behov av markörer. Dessa system kan identifiera och följa
t.ex. ögon-, ansikts- eller helkroppsrörelser med hjälp av bildsensorer. I fallet med
ögon- och ansiktsrörelse kan man använda vanliga web-kameror. Microsoft Kinect är
en ny enhet som kombinerar en bildsensor för synligt ljus med en infraröd 3Dlaserscanning (se Figur 7.6). Upp till två personers helkroppsrörelser kan trackas
samtidigt. Figur 7.7 illustrerar ”Skeletal Tracking Engine”, som är en del av
Microsofts SDK för Kinect.
Figur 7.6 Microsoft Kinect sensor. Denna enhet är egentligen 3 sensorer i en: En bildsensor för synligt
ljus; en mikrofon-array för 4-kanals ljudupptagning; och en laserprojektor med intilliggande bildsensor
som arbetar i det infraröda området.
Figur 7.7 Illustration
av informationen från
”Skeletal
Tracking
Engine”. Upp till två
personers
helkroppsrörelser kan
trackas i 3D.
75
En kritisk faktor vid denna typ av avancerad bildbehandling är beräkningskapaciteten
hos systemet, eftersom denna information måste uppdateras kontinuerligt och utan
alltför stora fördröjningar.
Global positionering
Global positionering kan införskaffas med mottagare för GPS eller liknande system.
Det finns även gamla goda tekniker som radiovågsbaserad triangulering. Dock är
denna typ av positionsbestämning av låg precision och fungerar oftast inte inomhus.
Passar bra för mobila applikationer, och inom AR.
Hybridsystem
Det är numera mycket vanligt att produkter för tracking är hybridsystem som
kombinerar olika trackingmetoder, i syfte att de ska eliminera respektive metods
svagheter och begränsningar. Ett exempel är trackingsystemet till Nintendo Wii som
kombinerar tröghetssensorer med en infraröd kamera (se Figur 7.8).
Figur 7.8a
Nintendo Wii Remote. Handhållen
kontrollenhet som förutom knappar och
joystick innehåller tröghets-sensorer,
samt en IR-kamera i framkanten.
Figur 7.8b
Nintendo “Sensor bar”.
Namnet till trots, så innehåller denna
enhet endast ett par IR-lysdioder, som
fungerar som en fix referenspunkt för
Remote-enhetens kamera.
76
Ett annat exempel är det trackingsystem som används till VR-labbets Cave-system:
IS-900 Motion Tracking System, utvecklat av InterSense Inc. (www.intersense.com).
Systemet ger 6-frihetsgrader (6-DOF) för varje mätstation, och bygger på en
hybridteknik av tröghetsbaserad tracking och ultraljuds-tracking. Snabba förändringar
av position och orientering bestäms av accelerometrar/gyros i varje mätstation. Drift
korrigeras genom ett Kalmanfilter som kombinerar informationen från
tröghetssensorerna med olika mätningar från ultraljud-delen. Resultatet är full 6-DOF
data som är mycket exakt och fri från drift. Intersense hävdar flera fördelar med detta
system:






Immun mot induktiva störningar och optisk interferens.
Tröghetssensorerna eliminerar problem med akustisk "siktlinje"-blockering.
God noggrannhet över hela trackingvolymen.
Systemet är skalbart i storlek. Från små sittbrunnar till stora rum.
Kalibrering utförs endast en gång vid installationen.
Trådlös överföring från personburna mätstationer.
Figur 7.9 visar schematiskt IS-900, där två mätstationer får ultraljudsignaler från
stationära transpondrar. Tröghetssensorn i varje mätstation beräknar orientering och
position, och de akustiska komponenterna förhindrar avdrift.
Figur 7.9. IS-900 schematisk illustration.
Processorenheten har fyra ingångar för mätstationer och stöd för upp till 16x3
ultraljuds-transpondrar.
Ultraljuds-transpondrarna är normalt monterade i taket över arbetsytan som önskas
trackas. Figur 7.10 visar ett exempel på hur en array av transpondrar kan se ut. Vid
installation, måste man noggrant mäta in x-, y-, z- koordinaterna för varje
transponder. Men därefter behöver man inte utföra fler kalibreringar.
77
De akustiska mätningarna görs med enkelriktade time-of-flight (TOF) mätningar. De
akustiska pulserna från transpondrarna fångas upp av mikrofoner som är integrerade i
mätstationerna. Processorn ger i tur och ordning ett kommando till en transponder att
skicka en 40 kHz ultraljudspuls. Samtidigt startas tidtagning i var och en av
mätstationerna, och stoppas vid ankomsten av den akustiska pulsen (vilken har en
unik signatur för varje transponder).
Figur 7.10. En array av ultraljuds-transpondrar i VR-labbet på Ingvar Kamprad Design Center. Pulser
av ultraljud sänds regelbundet ut från 18 olika positioner.
Figur 7.11 visar två olika varianter av IS-900 mätstationer. Den ena används som
head-tracker, och den är en handhållen enhet med kompletterande knappar och en
mini- joystick. Varje mätstation har förutom tröghetssensorerna även 2
ultraljudsmikrofoner, placerade i vinkel 45° uppåt och framåt.
Figur 7.11a
IS-900 Head-tracker.
Mottagare (t.v.) och sensor med trådlös
sändare (t.h.).
Denna sensor är avsedd att monteras på
glasögon eller en hjälm.
78
Figur 7.11b
IS-900 Wand.
Handhållen
kontrollenhet
med
integrerad sensor och sändare.
Förutom fem knappar, finns en liten
joystick. Denna enhet kan användas för
"walk-through" navigering, eller för
objekt-manipulering.
Generella problem vid tracking
En kritisk faktor inom all typ av tracking är systemets latency, dvs tidsfördröjningen
mellan att en rörelse görs till dess att datan om rörelsen har mottagits och tolkats av
systemet. Ju mer ett trackingsystem medverkar till långa fördröjningar mellan rörelsen
och systemets feedback, desto mer försämras närvarokänslan och
prestationsförmågan. I ett experiment av Held & Durlach (1991) varierade man
tidsfördröjningar för en interaktiv uppgift och fann att vid 60 ms började
manipuleringsförmågan att avta. Vid 120 ms var den kraftigt reducerad, och vid 200
ms började det bli mycket svårt att utföra uppgiften.
Drop-outs är som namnet antyder ett temporärt bortfall av trackingdata. Det kan bero
på störningar i trådlös dataöverföring, men det kan även orsakas av inneboende brister
hos trackingsystemet. T.ex. ett optiskt system kan kräva fri sikt mellan en markör och
minst två kameror, och om sikten skyms för en av kamerorna så tappar systemet
förmågan att räkna ut markörens 3D-position. Ofta kan man kompensera kortvariga
bortfall med olika filter- och målföljnings-algoritmer.
Dessutom finns det en rad olika fel som kan uppstå vid tracking och de kan delas upp
i statiska fel och dynamiska fel.
Statiska fel:
 Spatial distortion innebär fel som uppstår till följd av ickelinjär kalibrering,
felplacering etc.
 Jitter är brus i utsignalen från trackern som gör att bilden skakar även om
trackern i själva verket är helt still
 Drift (eller creep) är variationer i trackerns utsignal som är för
små/långsamma för att observeras direkt men som kontinuerligt bygger på en
avvikelse med tiden.
Dynamiska fel:
 Latency jitter är variationer i latency
 Dynamic error är fel i noggrannheten som inte beror på latency, spatial
distortion eller drift. Dessa fel kan uppstå till följd av t ex overshoots som
genererats av prediktions-algoritmer.
79
Specifika behov för olika VR-tillämpningar
Tracking för ogenomskinliga HMD:s
Det primära behovet för att uppnå en naturlig och immersiv upplevelse med HMDs är
att tracka huvudets orientering, vilket medför att användaren kan se sig runt i den
virtuella miljön genom att vrida på huvudet. Det är oftast även vara önskvärt att tracka
position. Dock brukar det här uppstå en del praktiska problem beträffande trackerns
arbetsområde, samt eventuella maxlängder på HMD-kablage som kan begränsa
räckvidden för hur långt man kan gå iväg. I situationer där man vill kunna gå långa
avstånd i den virtuella miljön, så använder man sig oftast av olika tekniker för ”walkin-place”. T.ex. kan användaren vara upphängd i en sele och man släpar fötterna längs
ett underlag med låg friktion (se Figur 7.12a). En annan lösning är att bygga någon
form av ”treadmill”, t.ex. ett löpband, eller som i Figur 7.12b, där man går inne i en
sfär som vilar på hjul. Fördelen är att man kan gå obegränsat åt vilket håll, samt att det
är enkelt att tracka sfärens rörelser.
De flesta HMD-tillämpningar använder någon slags handtracker för selection och
manipulation. I en ogenomskinlig HMD ser användaren inte sin hand utan endast den
grafiska representationen av handen. Att denna virtuella hand inte befinner sig på
exakt samma ställe som den fysiska handen är relativt oviktigt. Det räcker att rörelser
med den verkliga handen gör att den virtuella handen följer på ett mjukt och
förutsägbart sätt. Med övning så kommer användarens eye-hand sensori-motor loop
att anpassa sig till den spatiala förskjutningen. Prestationsförmågan och kontrollen
ökar med anpassningen men fördröjningar i trackingen kan försvåra denna
anpassning. Det kan även förekomma negativa eftereffekter när användaren
återvänder till verkligheten. För att undvika dessa problem kan man försöka matcha
den virtuella handens position med den verkliga handens, så att användare kan
använda sin naturliga proprioception6 utan anpassning. På så sätt kan man få ett
väldigt naturligt och lättlärt gränssnitt om noggrannheten hos trackingsystemet är
högre än den noggrannhet med vilken den mänskliga proprioceptionen kan känna
skillnader i handens position med slutna ögon.
6
Förmågan att uppfatta kroppsställning
80
Figur 7.12a
”Walk-in-place”
för
trådbunden,
ogenomskinlig HMD. Användaren är
upphängd i en sele och man släpar
fötterna längs ett underlag med låg
friktion
Figur 7.12b
En sfärisk ”treadmill”, som vilar på hjul.
Fördelen är att man kan gå obegränsat åt
vilket håll, samt att det är enkelt att
tracka sfärens rörelser. Det krävs dock
trådlös överföring till HMDn.
Tracking för stationära displayer
Med ett VR-system för stationära displayer, t.ex. en displayvägg eller ett Cavesystem, behöver man inte tracka huvudets orientering. Däremot ger tracking av
huvudets position en möjlighet att styra VR-miljöns kameraposition, vilket gör att en
användare kan uppleva parallaxförändringar och att se runt hörn. På grund av att
displayerna är stationära måste man dock kompensera perspektivprojektionen så att
den motsvarar kamerapositionens offset från sitt ”normalläge”. I normalläget är
perspektiv-projektionen symmetrisk, och ”vanishing point” befinner sig i displayens
centrum. När kamerapositionen flyttas från detta läge måste man därför göra
perspektiv-projektionen asymmetrisk. Korrekt utfört kan denna kompensation av
perspektivet ge en stark närvarokänsla, men det fungerar bara för en enskild
81
användare. Om det är flera betraktare samtidigt, så upplevs bilden som mycket
distorderad för de som inte är bärare av huvud-trackern.
Vad gäller handtracking så gäller i praktiskt samma principer som för ogenomskinliga
HMD:s (se föregående stycke). Ett problem som är unikt för skärmbaserade VRsystem är dock att användaren ser den virtuella handen och den verkliga handen
samtidigt (se figur 8.13). Detta kan göra att användaren lättare upptäcker
fördröjningar i trackingen vilket kan försvåra manipulationen.
Figur 7.13 Handtracking i ett
Cave-system
Tracking för AR-applikationer med see-through HMD:s
Ett AR-system bygger på att man lägger bilden av det virtuella objektet över det
verkliga objektet vilket kräver mycket hög precision i trackingen. Detta skiljer sig från
system med ogenomskinliga HMD:s i vilka jitter, latency och latency jitter är kritiska,
men i vilka spatial distortion och creep knappt märks. För typiska AR-applikationer är
latency, spatial distortion och creep de mest kritiska egenskaperna i trackingsystemet.
Även egenskaperna jitter och jitter latency spelar roll eftersom de kan få virtuella
objekt att skaka eller vibrerar men de får inte hela världen att skaka som i en
ogenomskinlig HMD och därmed blir risken för simulatorsjuka lägre. Konsensus i
AR-litteraturen är att latency är den mest kritiska dimensionen.
Olika AR-applikationer ställer olika höga krav på trackingen. T ex så är det rimligen
så att ett datorspel som använder AR-teknik ställer mindre krav än en AR-applikation
där de virtuella objekten måste projiceras exakt över de verkliga objekten. Man tror
att tröskeln för upptäckt av latency är lägre i AR-system jämfört med ogenomskinliga
HMD:s eftersom även verkligheten är synlig och fungerar som referens.
Tracking för audio applikationer med hörlurar
Upplösningen i riktning för binauralt hörande är som bäst 1 grad i azimuth (vinkeln i
horisontella planet) och 15 grader elevation (vinkeln i vertikalplanet). Detta innebär
att jitter och short-term stability lägre än en grad är det som krävs för att vara säker på
att en ljudkälla verkar hoppa omkring när användarens huvud är still. Om VRsystemet även är visuellt så kan buktalarfenomenet göra att ett ljud verkar komma från
ett objekt även om det egentligen kommer från en närliggande position.
Djupperceptionen är ännu sämre i den auditiva modaliteten och därför ställer ett
82
auditivt VR-system ganska låga krav på trackingen både vad gäller position och
orientering.
Tracking för avatarapplikationer
Generering av avatarer för VR-applikationer skiljer sig från den motion capture som
görs t ex till filmer och spel så tillvida att den görs i realtid och att det inte finns några
krav på exakthet. För genomskinliga HMD:s och skärmbaserade VR-system så är
förstaperson-avatarer onödiga eftersom användaren kan se sin riktiga kropp. I system
som använder ogenomskinliga HMD:s kan användaren däremot inte se sig själva och
kan förlora en del av sin känsla av närvaro i den virtuella miljön. Ett billigt sätt att
animera en avatars kroppsdelar är att utgå från trackern som används till handen och
sedan approximera de övriga lemmarnas position och orientering med inverse
kinematics. Denna teknik är ofta tillräcklig för att skapa en trovärdig illusion så länge
användaren inte börjar studera t ex sina virtuella armar mer i detalj. Animering av
avatarer för tredje person däremot ställer högre krav på realism och mer avancerad
tracking.
Tracking tekniker för AR
Inom AR kan man naturligtvis i princip använda alla de tracking-metoder som
beskrivits tidigare, men beroende på den speciella kontext, och de speciella krav som
ställs, så beskrivs här lite av de tekniker som hittills förekommit mest inom AR.
Normalt delas tracking-teknikerna in under 3 kategorier:
 Sensor-baserad
 Kamera-/bildbaserad (”Vision-based”)
 Hybrid-baserad
Det finns åtskilliga sensorbaserade tekniker för att bestämma position och rörelse,
bland annat (jord-)magnetiska (t.ex. kompass), akustiska, tröghetssensorer
(acceleratorer), optiska och mekaniska. Det finns även sensorer som bygger på olika
typer av radiosignaler, t.ex. GPS och RFID. Alla har sina fördelar respektive
nackdelar med tanke på noggrannhet och felgenerering (Tabell 7.1).
Tabell 7.1 Jämförelse av vanliga tracking-tekniker för AR.
Teknologi
Optical:
Marker-based
Optical:
Markerless
Optical:
outside-in
Optical:
inside-out
GPS
WiFi
Accelerometer
Magnetic
Ultrasound
Inertial
Range (m)
10
Setup time
(hr)
0
Precsion
(mm)
10
Time (s)
Environment
∞
𝑖𝑛/𝑜𝑢𝑡
50
0−1
10
∞
𝑖𝑛/𝑜𝑢𝑡
10
10
10
∞
𝑖𝑛
50
0−1
10
∞
𝑖𝑛/𝑜𝑢𝑡
∞
100
1 000
1
10
1
0
10
0
1
1
0
∞
∞
1 000
∞
∞
10
𝑜𝑢𝑡
𝑖𝑛/𝑜𝑢𝑡
𝑖𝑛/𝑜𝑢𝑡
𝑖𝑛/𝑜𝑢𝑡
𝑖𝑛
𝑖𝑛/𝑜𝑢𝑡
5 000
1 000
100
1
10
1
83
Hybrid
UWB
RFID: active
RFID: passive
30
10 − 300
20 − 100
0.05 − 5
10
10
𝑤ℎ𝑒𝑛 𝑛𝑒𝑒𝑑𝑒𝑑
𝑤ℎ𝑒𝑛 𝑛𝑒𝑒𝑑𝑒𝑑
1
500
500
500
∞
∞
∞
∞
𝑖𝑛/𝑜𝑢𝑡
𝑖𝑛
𝑖𝑛/𝑜𝑢𝑡
𝑖𝑛/𝑜𝑢𝑡
Kamerabaserade tekniker använder sig enbart av videokameror för att bestämma
position och rörelse. Första steget är att identifiera och ”tracka” kännetecken
(”features”) i bilderna. Det kan vara allt ifrån enkla markörer som är utplacerade i
förväg i rummet/omgivningen, till naturliga kännetecken såsom hörn, kanter och
kontraster som sedan bearbetas med lämplig metod för bildanalys/bildbehandling för
att den virtuella bilden ska kunna placeras rätt i den verkliga bilden. Kamerabaserade
system har lågt ”jitter” och ingen ”drift” och har fördelen att de kan korrigera fel
dynamiskt.
Nackdelen är dock att de är långsamma, och snabba kamerarörelser kan leda till att
trackingen misslyckas, särskilt i de system som använder punkter och strukturer som
stöd för trackingen, och det kan ta tid för systemet att rätta till detta. Därför
kombineras ofta kamerabaserade system med t.ex. GPS och acceleratorer till hybridsystem, som kompenserar för långsamheten i kamerabaserade tekniker. De senaste
åren har det kommit realtids tracking-system som kan hantera rörelseoskärpa
(”motion-blur”). Det har visat sig att rörelseoskärpa i kamerabaserade system kan
analyseras och användas till att ersätta t.ex. ett gyroskop.
Problem med tracking
Tracking-fel i AR-system kan också orsakas av t.ex. en komplex miljö, ljusändringar,
rörelser i miljön, eller att objekt i rörelse separeras eller slås samman pga.
”occlusion”.
Ett problem som kan uppstå i AR-system är
felaktig ”occlusion”. Virtuella objekt ska
ibland gömmas bakom reella objekt, och reella
objekt kan döljas av virtuella. Virtuella objekt
brukar ibland felaktigt placeras ”överst”, dvs.
framför reella objekt, även om det reella
objektet ska vara närmare kameran. Detta är
inte trovärdigt, och ger en dålig
användarupplevelse. I seriösa applikationer är
det mycket viktigt att det är korrekt placerade,
t ex inom reparation och medicinska
applikationer. Problem uppstår oftast vid
användande av en kamera, då man inte
använder en 3D-modell av den reella miljön
Figur 7.14 ”Occlusion” i AR.
eller objektet. En lösning är att använda två
kameror som genererar ”depth-maps”. Det finns också lösningar då en kamera
används, utan en 3D-modell; t.ex. kan ”urklippsmasker” genereras baserat på rörelsen
på konturer i bilden över tiden.
Kamerabaserad tracking
För att kunna placera ett 3D-objekt korrekt i den kombinerade virtuella och reella
verkligheten som återges på displayen i en AR-applikation, krävs det att kamerans
84
position och rörelser kan detekteras. För att upplevelsen ska bli trovärdig, måste
tracking-tekniken vara robust och tåla t.ex. snabba rörelser utan att ”jitter” och ”lag”
uppstår mellan det virtuella objektet och den reella verkligheten. Detta är ju inte minst
viktigt inom medicinska applikationer eller vid reparation av viktiga objekt med hjälp
av AR. Jämför man med VR, är det mycket lättare för användaren att upptäcka fel i
AR, eftersom man har den reella verkligheten som referens. Det första steget i
tracking-proceduren är att identifiera kännetecken (”features”). En feature är en
speciell punkt i bilden som tracking-algoritmen kan ”låsa på” och följa genom flera
bildrutor. Som feature väljs ofta ljusa eller mörka punkter, kanter eller hörn, beroende
på vilken tracking-algoritm som används. Det viktiga är att varje feature representerar
en specifik punkt på det verkliga objektets yta. När en feature är identifierad och
”trackad” skapas en serie med tvådimensionella koordinater, som representerar
”featurens” position över en serie av bildrutor. Det är denna serie som bildar ett
”track”. När väl dessa ”tracks” har skapats kan de omedelbart användas för 2D”motion tracking”, och användas till att beräkna 3D-information. För att göra det
möjligt att återge de virtuella objekten exakt rätt i bilden av den reella verkligheten,
krävs det alltså att det finns eller skapas en motsvarande virtuell representation av
verkligheten, där de virtuella objekten placeras, samt att denna modell/karta följer
kamerans rörelser och position.
Det finns flera olika kamerabaserade tracking-metoder:
 Markör-baserad
 Modell-baserad
 ”Natural features”
Markörer
Markörer kan vara passiva eller aktiva. Exempel på
aktiva markörer är LEDs. Passiva markörer kan bestå
av cirklar (t.ex. utskrivna på papper) som är placerade
på kända ställen i miljön och fungerar som
referenspunkter, eller kvadratiska kort med olika
unika symboler eller mönster.
Till skillnad från cirkelmarkörerna krävs det endast ett
kvadratiskt markörkort för att kameran ska kunna
registrera positionen på markörens fyra hörn i
förhållande till varandra, och det virtuella objektet kan
därmed återges i rätt vinkel och storlek. Vilket objekt
som återges är kopplat till det unika mönstret på
kortet. Mönstret eller symbolen på kortet identifieras
genom linje- och kontrastdetektering.
Ett exempel på ett system med kvadratiska markörer
Figur 7.15 ARToolKit.
är ARToolKit, som presenterades redan år 1999, men
fortfarande är populärt i många AR-applikationer.
Andra sådana system är IGD (Institut Graphische
Datenverarbeitung), SCR (Siemens Corporate Research) och HOM (Hoffman marker
system) (se figur 7.15).
85
Figur 7.16 Markörer från olika system: ARToolKit, IGD, HOM respektive SCR
En nackdel med markör-baserade tekniker är att de inte är skalbara (t.ex. utomhus).
I figur 7.17–19 och i motsvarande videor visas exempel på tillämpningar av
markörbaserad AR.
Figur 7.17
ARf, ett Augmented Reality-virtuellt husdjur i
iPhone, framtagen av Augmented Environments
Lab; en forskningsgrupp på GVU Center vid
Georgia Institute of Technology.
Figur 7.18
En video demonstrerar ARToolKit.
Figur 7.19
En annan demonstrationsvideo av markörbaserad AR: Mini-tanks came out in sequence
from a hole in my room wall.
86
Markörer med ”natural shapes”
Det finns framtaget tekniker där man istället
för att ha olika mönster eller grafiska symboler
på markörkorten, använder figurer i form av
naturliga former (”natural shapes”). Visual
Media Lab på Ben Gurion University har i
samarbete med Mark Billinghurst på HIT La
NZ framställt några exempel med denna nya
teknik. Man använder här en typ av
”computer-vision”-teknik för ”feature
tracking” som benämns ”Blob-detection” (se Figur 7.20 En demonstration av markörer
figur 7.20 och tillhörande video). Tekniken med ”natural shapes”.
finns redan framtagen för iPhone.
Utan markörer
”The Haunted Book” är en bok där man
kompletterar bilderna i den fysiska boken med
animeringar genom AR-teknik. Man har dock
inte använt sig av markörer för framställningen
av den förstärkta verkligheten, som t ex Mark
Billinghurst m.fl. gjort i tidigare liknande
arbeten med ”Magic Books”, utan istället
använt de ”naturliga” bilderna på sidorna i
boken (se figur 7.21 och demonstrationsvideo).
Figur 7.21 Videon som visar ”The Haunted
Book”.
Modell-baserad tracking
I denna metod utgår man från en CAD-modell (eller en 2D ”template”) av den reella
miljön eller objektet. Olika bildanalysmetoder används sedan för att identifiera
”features” i bilden; hörn, kanter, linjer, former och strukturer, som jämförs med CADmodellen för att den virtuella bilden fortlöpande ska kunna positioneras korrekt i den
reella bilden, efter kamerans rörelser.
Två huvudmetoder finns; kant-baserade (”edge-based”) samt struktur-baserade
tekniker (”textured-based”). Dessa metoder går att kombinera. Kantmetoden är robust
mot ljusändringar och är drift-fri. Fel kan dock uppstå genom att ”trackern” låser mot
fel kant, vilket resulterar i ”tracking failure”. Genom att kombinera med en metod för
”point features” kan man få en mer robust metod. Vid struktur-metoden kan det
uppstå problem vid skal- och ljusförändringar. Nackdelen för samtliga modellbaserade metoder är att det måste konstrueras en modell i förväg, innan tracking kan
ske. Exempel på användningsområde för modell-baserade metoder är t ex när man ska
utföra en uppgift, exempelvis en reparation (se figur 7.22a-b samt tillhörande video). I
figur 7.22c-d och i motsvarande videor visas exempel på tillämpningar av modellbaserad AR.
87
Figur 7.22a
Reparationsoch underhålls–
instruktioner
med hjälp av
AR.
Figur 7.22b Reparationsinstruktioner för en BMW-motor,
med hjälp av AR. Ett forskningsprojekt av BMW.
Figur 7.22c Demo I av modell-baserad tracking,
framtagen av Lagadic research group vid
Irisa/INRIA.
Figur 7.22d Demo II av modell-baserad tracking,
framtagen av Lagadic research group vid
Irisa/INRIA.
”Natural features” och SLAM
Även i metoder som enbart utnyttjar ”natural features” används en modell av den
reella verkligheten för att kunna positionera den virtuella bilden, men skillnaden är att
det finns inte en färdig modell från början, utan denna skapas efter hand genom att
”tracka features” i bilden; punkter eller delar av objekt. Metoden bygger på två steg:
1. Registrering av features (”learning stage” – låg beräkningsintensitet).
2. ”Tracka” dessa features i videoflödet (”training stage” –
beräkningsintensitet).
hög
Metoder som bygger på identifikation av ”natural features” utan tidigare vetskap om
hur omgivningen ser ut, har sitt ursprung i robotvärlden där metoderna används för att
bygga upp kartor av den okända omgivningen, t.ex. använde robotfordonen Mars
Exploration Rovers som landsattes på planeten Mars år 2004 en sådan metod – SLAM
(se nedan). Frågan är till vilken nytta denna metod är inom Augmented Reality. Vad
är det som ska förstärkas när man inte vet vad som finns i omgivningen? Vilken
information kan man förvänta sig få när man i förväg inte vet vilka objekt som finns i
miljön man rör sig i? Men sådana system kan fungera bra som ett komplement i
miljöer som man bara delvis känner till, för att fylla i de ”tomrum” man eventuellt
88
har. En annan idé kan vara att anlita en expert via distans (”remote expert”) som kan
förse miljön med virtuell förstärkning.
I metoden SLAM (Simultaneous Localization and Mapping) sker konstruktion av
modeller från bildsekvenser, utan tidigare vetskap om hur miljön ser ut, eller endast
vetskap av en liten del av miljön. Man kan beskriva metodens två steg enligt följande:
 Mappning – hur ser världen ut?
 Localization – var är jag?
För att minimera felgenerering och brus (störningar) har man två separata men
samtidiga processer för lokalisering och mappning. Det utförs iterativ återkoppling
mellan processerna. För att ytterligare undvika fel som genereras av kamerarörelse/hastighet, ”feature points” och den virtuella kamerans position används bl.a. Kalman
filter.
SLAM i sin ursprungliga form är mycket data- och beräkningsintensivt. Med dagens
tablets börjar man kunna hantera det. Ett sätt att ”komma runt” detta är att överföra
bildflödet till en arbetsstation via ett trådlöst nätverk och betrakta PDA:n som en
klient, men man mister då delvis tanken om mobil AR.
PTAM
Georg Klein och David Murray på
University of Oxford har utvecklat ett
alternativ till SLAM, som benämns PTAM
– Parallel Tracking and Mapping. Metoden,
med vilken man kan utföra samtidig
”tracking” och ”mapping” i en tidigare
okänd miljö, delar upp dessa två uppgifter
att utföras parallellt på en dator försedd med
en dubbelkärnig processor. Med PTAM kan
tusentals landmärken ”trackas” i realtid med
en noggrannhet och robusthet jämförbar
med modell-baserade system.
När en karta väl är skapad, kan ett virtuellt
horisontalt plan etableras, på vilket det är
möjligt att placera in virtuella objekt (se
figur 7.23). För att användaren ska kunna
interagera i denna miljö i realtid med en
handhållen kamera, krävs det att trackingen
är snabb, noggrann och robust, samtidigt
som kartan förfinas och växer när nya
områden tillkommer. För att åstadkomma
detta har Klein valt att begränsa den okända
miljön i storlek till ”small AR Workspaces”
samt att miljön i huvudsak är statiskt. Med
”liten miljö” menas i detta sammanhang ett
skrivbord, ett normalstort rum, eller
utomhus på en begränsad yta, t ex framför
en byggnad. I dagsläget stödjer PTAMmetoden inte att man ”springer runt på
stan”.
89
Figur 7.23 Ett virtuellt horisontalt plan är
skapat, på vilket det är möjligt att placera in
virtuella objekt.
Figur 7.24 En mängd registrerade ”features” i
form av punkter.
Som nämnts ovan separeras tracking och mapping, och uppgifterna utförs i två
separata ”trådar”. Mappingen baseras på ”keyframes”, och utförs genom batch-teknik.
Nya trackingpunkter läggs till genom epipolar-sökning, och tusentals punkter i olika
storleksnivåer registreras (se figur 7.24).
Skillnaden mot monokulära SLAM-metoder för mobil AR, som ju också utför en
samtidig process med tracking och mapping, är att i SLAM-metoderna uppdateras
registreringen av kamerans position och varje landmärke samtidigt i varje enskild
bildruta. När en snabbrörlig handhållen kamera används med sådana SLAM-metoder,
är risken stor att det uppstår problem i mappingen, vilket gör att de inte anses vara
tillräckligt robusta i sammanhang med mobil AR. Genom PTAM-metoden är
trackingen inte lika hårt knuten till mapping-proceduren, och därmed mer användbar
för mobil AR, eftersom kartan inte måste uppdateras i varje bildruta. Detta är möjligt
eftersom kartan oftast ändå inte behöver ändras i varje bildruta, p.g.a. att tidvis är
kameran mer eller mindre stilla, vilket innebär att keyframes kan utnyttjas för
mappingen, och bildanalysen kan därmed utföras mer genomarbetad. I
demonstrationsfilmen som Klein satt samman visas exempel på flera av PTAMmetodens styrkor:
 En avsiktlig skakning av kameran gör att trackingen tillfälligt förloras, men
systemet återhämtar sig snabbt.
 Mappingen pågår i bakgrunden, utan att användaren märker detta vid
interaktionen.
 Den handhållna kameran fungerar både som display och kontroll/inmatningsenhet i både DarthVader-spelet och brännglas-sekvensen (Figur
7.25), och visar systemets precision samt tålighet mot snabba rörelser.
 Skalförändringar fungerar utan problem för tracking-systemet – man kan röra
kameran väldigt nära ett objekt och sedan förflytta sig långt ifrån (inom det
begränsade utrymmet) med bibehållen precision i trackingen. Rörelsen kan
göras mycket snabbt, utan att systemet förlorar trackingen p.g.a. rörelseoskärpa
(”motion blur”). I SLAM-baserade system uppstår lätt problem vid stora
skalförändringar och snabba rörelser.
Figur 7.25
Bilder från
Kleins
demonstrationsfilm
av PTAM.
Dock blir det i PTAM-metoden problem för mappningen när man skalar upp miljön,
dvs när det ursprungliga ”small workspace” blir för stort. När kartan blir för stor får
systemet problem med att lägga till nya keyframes och punkter till kartan. Det blir för
beräkningsintensivt att hålla reda på trackingpunkterna i en alltför stor karta i ett
system för mobil AR. Dock fungerar trackingen fortfarande i realtid. Klein har lyckats
skapa en karta över ett kontor i 360° och som består av 11 000 kartpunkter och 280
90
keyframes. En mer praktisk gräns för systemet är ca 6 000 punkter och 150
keyframes. En anledning till att använda många features, som i PTAM, är att det
bidrar till att reducera jitter och dessutom förbättrar systemets prestanda när några
features är dolda eller felaktiga.
I SLAM-baserade system minskar bildfrekvensen (”frame-rate”) när miljön blir för
stor, till skillnad från PTAM, där bildfrekvensen alltså inte påverkas, men hastigheten
med vilken nya delar av omgivningen kan utforskas minskar. PTAM-metoden är inte
felfri. Det förekommer tracking-fel och felmappning. Metoden klarar av tillfällig
”occlusion”, men inte när det sker stora förändringar av den kända miljön, dvs. när
miljön inte längre i huvudsak är statisk. En annan nackdel med PTAM är att kartan
endast består av ett ”punkt-moln”. Efter att det horisontala planet etablerats, där de
virtuella objekten placeras in, fungerar kartan enbart som ett verktyg för kameratrackingen. Systemet drar inga slutsatser om omgivningens geometri. Detta innebär
bl.a. att reella objekt som ligger utanför det etablerade horisontala planet inte påverkar
de virtuella objekten, t ex genom att de virtuella figurerna stoppas när de ”springer
på” dessa reella objekt eller döljs bakom dem. Detta är ett ämnesområde att forska
vidare inom. Det finns en kompletterande film med ytterligare demonstration av
PTAM i funktion i utomhusmiljöer samt i en större kontorsmiljö.
PTAM på smartphones
Processorerna i smartphones och mobiltelefoner med kamera har de senaste åren
utvecklats så att de nu klarar beräkningsintensiva uppgifter som kamerabaserad
tracking. Men det återstår en del utveckling av den övriga ingående hårdvaran som
krävs för att kamerabaserad tracking ska
fungera utan problem; bildvinkeln på
mobilkamerornas objektiv är alltför snäv för
att trackingen ska bli robust, bildfrekvensen är
låg och slutartiden lång vilket lätt leder till
rörelseoskärpa, och en ”rolling shutter” kan
orsaka skeva och snedvridna motiv. Klein har
anpassat PTAM-metoden så att mjukvaran kan
användas på en kameramobil. Eftersom den
begränsade
beräkningskapaciteten
på
smartphones blir den möjliga storleken på
kartan som skapas från den okända miljön,
mycket mindre än då PTAM körs på en PC.
Dessutom är det av samma anledning inte Figur 7.26 Kleins demonstrationsfilm av
möjligt med PTAM i en kameramobil att PTAM på en iPhone.
tracka en så stor mängd ”point fetaures” i
varje bildruta, och därmed inte heller på flera storleksnivåer. Tracking-metoden för
PTAM-systemet för mobiltelefoner kräver också att miljön som ”trackas” innehåller
mer tydliga mönster och strukturer än då det används i en PC.
Tillförlitligheten och noggrannheten når i dagsläget naturligtvis inte upp till samma
nivå som när PTAM körs på PC tillsammans med en handhållen kamera, men
demonstrationsvideon (Figur 7.26) visar att det är möjligt att använda t ex en iPhone
för kamerabaserad tracking i en okänd miljö, med syftet att kunna placera in virtuella
objekt i den reella miljön på ett trovärdigt sätt, och därmed skapa små AR-miljöer,
både inom- och utomhus.
91
Rekommenderad läsning:
Kapitel 8 ”Handbook of Virtual Environments – Design, Implementation and
Applications”.
Referenser
Held R. & Durlach N. (1991) Telepresence, time delay and adaptation. In: S.R. Ellis
(ed.) Pictorial Communication in Virtual and Real Environments. London: Taylor &
Francis.
92
8. Immersion & Presence
Immersion och Presence är två begrepp som används för att beskriva hur ett VRsystem påverkar en användare, samt vilken upplevelse det ger. Om vi vill få en
djupare insikt i hur en användare upplever en VR-miljö, så kommer vi oundvikligen
in på forskningsområden (såsom t.ex. kognitiv psykologi) där det är svårt att bevisa
absoluta sanningar. Istället framförs olika termer och teorier som ibland kan verka
som motstridiga. Men inte desto mindre kan teorierna, metodiken och resultaten från
denna forskning hjälpa oss på flera sätt. Vi kan exempelvis använda etablerade
begrepp och metoder när vi vill utvärdera ”kvaliteten” på ett VR-system. I slutändan
är det ju trots allt inte teknologin, utan vad användaren faktiskt upplever som är det
viktigaste.
Immersion
Ordet immersion blir direktöversatt till svenska ungefär: nedsänkning, omslutning,
försjunken. Det finns egentligen ingen riktig konsensus om dess definition, men
begreppet används oftast för att beskriva hur ett VR-system påverkar en användare.
Det har t.ex. varit vanligt att beskriva ett desktop-system som low-immersive, medan
ett omslutande CAVE-system beskrivs som high-immersive.
Det anses allmänt att ett VR-system bör tillgodose bl.a. följande faktorer för att uppnå
en hög nivå av immersion:
– Hög pixeltäthet och grafisk kvalitet
– Stort synfält (field-of-view)
– Stereoskopi
– Hög framerate/låga latenser
– Surround ljud
– Head tracking
Presence
Presence blir fritt översatt till svenska ungefär ”närvarokänsla”. Det finns inte heller
här någon riktig konsensus om hur presence exakt ska definieras, men de flesta är
överens om att fokus ligger på användarens upplevelse. Alla är också eniga om att
fenomenet presence är mycket komplext. Det är en upplevelse som formas genom
samspelet mellan sensorisk stimuli och olika kognitiva processer, i vilken även
uppmärksamhetsfaktorer spelar en viktig roll (Draper, Kaber & Usher, 1999).
Witmer och Singer (1998) har valt att definiera presence som ”the subjective
experience of being in one place or environment when one is physically situated in
another”. Slater (1998) använder en mer detaljerad definition av begreppet presence,
bestående av tre punkter:
1. The sense of ’being there’ in the environment depicted by the VE
2. The extent to which the VE becomes the dominant one – i.e. that participants
will tend to respond to events in the VE rather than in the real world
93
3. The extent to which participants, after the VE experience, remember it as
having visited a ‘place’ rather than just having seen images generated by a
computer
Den första punkten stämmer väl överens med Witmer och Singers (1998) definition.
De två andra har Slater (1998) kommit fram till genom otaliga observationer av
försökspersoner som upplevt virtuella miljöer. Punkt nummer två hänger ihop med the
looming response: personen vet att det inte finns någonting där men duckar ändå om
ett objekt kommer flygande mot honom. Ett annat exempel är när försökspersoner
integrerar utifrån kommande ljud i sin upplevelse av den virtuella miljön, ungefär som
sovande personer tar in fysiska händelser i sina drömmar (en bromsande bil utanför
sovrumsfönstret kanske helt plötsligt dyker upp i drömmen).
Man kan klassificera presence på olika sätt. En klassificering är fysisk presence,
social presence och co-presence. Fysisk presense är upplevelsen av att fysiskt befinna
sig på en plats medan social presence är upplevelsen av social interaktion med andra
aktörer. Co-presence kan sägas var en blandning av dessa två: det är upplevelsen av
att vara tillsammans med andra aktörer på en viss plats.
Enligt Witmer och Singer (1998) så är involvement och immersion två psykologiska
tillstånd som är nödvändiga för att en upplevelse av presence ska kunna uppstå.
Involvement kan definieras som ”a psychological state experienced as a consequence
of focusing one’s energy and attention on a coherent set of stimuli or meaningfully
related activities and events.” Immersion definierar Witmer och Singer (1998) som “a
psychological state characterized by perceiving oneself to be enveloped by, included
in, and interacting with an environment that provides a continuous stream of stimuli
and experiences.” Denna definition visar att ovanstående författare tycker att
immersion är något subjektivt som kan skilja sig mellan olika individer. Slater (1998)
har en annorlunda definition av immersion: “ Immersion is a description of a
technology, and describes the extent to which the computer displays are capable of
delivering an inclusive, extensive, surrounding, and vivid illusion of reality to the
senses of a human participant”. Med inclusive menas i vilken utsträckning som den
fysiska verkligheten stängs ute. Extensive handlar om hur många och i vilken
utsträckning olika modaliteter får input av VR-systemet. Surrounding hänför sig till
vilken utsträckning displayen är panoramisk. Vivid adresserar upplösning, kvalité och
hur intensiva stimuli som ges i olika modaliteter. Slater (1998) har föreslagit att
definitionerna av immersion skiljer sig eftersom de adresserar olika sorters
immersion: Slaters (1998) definition handlar om ’system immersion’ medan Witmer
och Singer (1998) adresserar ’immersion response’.
Som beskrivits ovan så tros presence vara ett multidimensionellt fenomen. Detta har
bl.a. styrkts genom studier byggda på faktoranalys. Schubert, Friedmann och
Regenbrecht (2001) kom fram till att konstruktet ”presence” består av tre
komponenter: spatial presence, involvement och realness. Detta stämde väl överens
med deras teori som var att två kognitiva processer är involverade i upplevelsen av
presence: byggandet av mentala modeller och uppmärksamhetsfördelning (attention
allocation). Lessiter, Freeman, Keogh och Davidoff (2001) fick liknande resultat i en
studie som också den byggde på faktoranalys. De kom fram till fyra faktorer som
tillsammans bygger upp konstruktionen presence:
 physical space,
 engagement,
94


naturalness
negative effects.
Intressant att notera är att de tre första faktorerna motsvarar de tre faktorerna som
Schubert et al. (2001) kom fram till.
Det finns flera olika sätt att mäta presence på. En övergripande indelning kan göras i:
 Subjektiv data
 Beteende-observationer
 Fysiologiska mått
Subjektiv data
Det vanligaste sättet att erhålla subjektiv data är att använda enkäter. Det finns ett
flertal olika enkäter t ex Slater-Uso-Steed (Slater, 1998), the Presence Questionnaire
(Witmer & Singer, 1998) och ITC-SOPI (Lessiter, Freeman, Keogh, & Davidoff,
2001). The Presence Questionnarire har kritiserats hårt av Slater (1998) som hävdar
att enkätfrågorna mäter testpersonens perception av VR-systemets egenskaper snarare
än presence. ITC-SOPI designades för att vara relevant oberoende medium och
innehåll. Fördelen med att använda enkäter är att de har hög face validity, dvs. de
mäter det vi är intresserade av att mäta. Dessutom är de billiga och lätta att
administrera. Den stora nackdelen med enkäter är att datan samlas in efter VRsessionen. Testpersonerna kanske inte minns upplevelsen i detalj och dessutom
påverkar deras svar mer av den senare delen av VR-sessionen. Vilken kvalité håller då
detta sätt att mäta presence? Vad gäller reliabilitet så har det visats att både the
Presence Questionnaire och ITC-SOPI är reliabla. Som redan nämnts ovan så anses
de ha hög face validity. Det är även viktigt att ett presence-instrument har hög
känslighet dvs. att det kan skilja på olika nivåer av presence. Man har visat att enkäter
är känsliga nog att upptäcka skillnader i presence vad gäller 1) navigationssätt (Usoh
et al., 1999), 2) ju fler sensory cues ju mer presence (Dinh et al., 1999) och 3) smal vs.
vid field-of-view (Arthur, 1999). Enkäter har dock kritiserats hårt av Usoh et al
(2000). De hävdar att en enkät måste klara av att skilja på verkligheten och en virtuell
miljö för att vara användbar. De lät ett antal testpersoner leta efter en låda i ett
virtuellt kontor och lät lika många testpersoner leta efter en låda i det verkliga
kontoret. Samtliga testpersoner fyllde i både the Presence Questionnaire och SlaterUsoh-Steed-enkäten efteråt. The Presence Questionnaire visade ingen signifikant
skillnad mellan de två grupperna medan Slater-Uso-Steed-enkäten visade på en något
högre medelvärde på presence för det verkliga kontoret. Författarna hävdar att enkäter
inte bör användas till ’cross-environment’-jämförelser som t ex jämförelser mellan
desktop VR och immersive VR. Den invändning man kan göra mot denna studie är att
det är oklart vad som egentligen menas med att vara närvarande i verkligheten. I
Jsselsteijn (2004) skriver: ”However, in normal, daily life we are seldom aware of our
feeling of ’being there’ in the world. It is not an experience we are used to reflect
upon.” Vårt ”gränssnitt” mot verkligheten, dvs. vår perception, är ju helt
genomskinligt och vi reflekterar förmodligen inte över en verklig upplevelse på
samma sätt som med en virtuell upplevelse.
95
Beteende-observationer
Beteende-observationer bygger på antagandet att ju mer presence en person upplever i
en virtuell miljö, desto mer kommer han att bete sig som han skulle ha gjort i
motsvarande verkliga miljö. Denna sorts mätningar är inte lika känsliga för subject
bias som enkäter är. Däremot kan det hända att man får så kallad experimenter bias,
vilket innebär att forskaren medvetet eller omedvetet gör bedömningar av datan som
stödjer hans hypoteser. En annan nackdel är att man inte kan vara säker på att ett visst
beteende uppstår till följd av presence. En person som vinglar till framför ett stup
kanske tappar balanser pga. simulatorsjuka snarare än presence. Det finns nästan
ingen forskning om reliabiliteten hos beteendemätningar. Beteendemätningar skulle
kunna vara valida om man kan leda i bevis att beteendet hos testpersonen är en direkt
följd av att denne upplever presence. Nichols, Haldane och Wilson (2000) lyckades
visa på ett samband mellan beteendemätningar och rapporterad presence. De fann
signifikant korrelation mellan variabeln startle response (reaktion på en överraskande
händelse i den virtuella miljön) och två frågor i en presence-enkät. Författarna hävdar
att dessa resultat är tillräckligt intressanta för att motivera fortsatta studier av
beteende-mätningar som presence-mått.
Fysiologiska mått
Fysiologiska mått blir allt vanligare i takt med att mätutrustning vidareutvecklas och
blir billigare. Exempelvis kan man mäta hjärtaktivitet med pulsmätningar, eller med
elektrokardiogram (EKG) genom att man placerar elektroder på huden i närheten av
hjärtat. Pulsen går upp under stress och går ner igen när personen slappnar av. Pulsen
påverkas även av intensiteten i våra känslor; den ökar med positiva känslor och
minskar med negative känslor. Vi ett oväntat stimuli så minskar pulsen vilket kallas
the orienting response7. Vid så kallad fight-or-flight response så ökar pulsen istället.
Hudkonduktans har funnits öka vid exponering för oväntade stimuli och mäts på
testpersonens fingertoppar. Wiederhold et al. (2001) jämförde puls och
hudkonduktans mot subjektiva presence-bedömningar och fann en korrelation mellan
de två fysiologiska storheterna och de subjektivt rapporterade presence-mätningarna.
Fysiologiska mätningar har flera fördelar. För det första så är de mer objektiva än
subjektiva mätningar och en del beteendemätningar. Det är viktigt att komma ihåg att
flera olika stimuli kan ligga till grund för fysiologiska data och det är därför viktigt att
man kan visa vad det är för stimuli som orsakar den fysiologiska reaktionen. Detta
problem kan man förebygga genom att se till att experimentet genomförs exakt
likadant för alla testpersoner. En annan sak som är viktig att komma ihåg är att
nivåerna på de fysiologiska signalerna skiljer sig mellan individer och att man därför
måste mäta upp ett baseline-värde som man sedan jämför uppmätta värden med. En
nackdel med hudkonduktansmätningar är att mätinstrumentet gör att testpersonen inte
kan använda båda sina händer. Vad gäller validiteten (concurrent validity) hos
fysiologiska mätningar så fann Meehan (2001) att förändring i puls korrelerade
signifikant till väletablerade subjektiva mätningar. Meehan (2001) visade även att
fysiologiska mätningar kan skilja på två virtuella miljöer: ett vanligt rum och ett rum
med en avgrund.
7
http://en.wikipedia.org/wiki/Orienting_response
96
Rekommenderad läsning:
 Kapitel 40 i ”Handbook of Virtual Environments – Design, Implementation
and Applications”.
 ”Being there – Concepts, effects and measurements of user presence in
synthetic environments” av Riva, Davide & Ijsselsteijn 2003
Reference list
Arthur, K. (2000), “Effects of Field of View on Performance with HeadMounted Displays” Ph.D. Dissertation, Department of Computer Science, University
of North Carolina at Chapel Hill, Department of Computer Science Technical Report
TR00-019.
Huong Q. Dinh, Neff Walker, Larry F. Hodges, Chang Song, Akira
Kobayashi: Evaluating the Importance of Multi-sensory Input on Memory and the
Sense of Presence in Virtual Environments. VR 1999: 222-228
J. V. Draper, D. B. Kaber, and J. M. Usher, "Speculations on the value of
telepresence," CyberPsychology and Behavior, 2 (4), 1999.
IJsselsteijn (2004). Presence in Depth. Ph.D. Thesis. Eindhoven University of
Technology.
Lessiter, J., Freeman, J. Keogh, E. & Davidoff, J. (2001) A cross-media
presence questionnaire: The ITC Sense of Presence Inventory. Presence:
Teleoperators and Virtual Environments, 10, 282- 297.
Meehan, M. (2001). Physiological reaction as an objective measure of
presence in virtual environments, Doctoral dissertation, University of North Carolina
at Chapel Hill.
T. Schubert, F. Friedman and H. Regenbrecht, The experience of presence:
Factor analytic insights., Presence: Teleoperators, and Virtual Environments, 10,
2001, 266-281.
G. Riva, F. Davide & W.A. IJsselsteijn (2003). Being There, Concepts, effects
and measurements of user presence in synthetic environments. Amsterdam: IOS Press
(2003).
Slater, M. (1998) Measuring Presence: A Response to the Witmer and Singer
Questionnaire, Presence: Teleoperators and Virtual Environments, 8(5), 560-566.
Usoh, M., K. Arthur, M. Whitton, R. Bastos, A. Steed, M. Slater and F.
Brooks. "Walking > walking-in-place > flying in virtual environments". Proc. of
SIGGRAPH '99, Computer Graphics Proceedings, Annual Conference Series. 1999 p
359-364.
Brenda K. WIEDERHOLD, Dong P.JANG, Mayumi KANEDA, Irene
CABRAL, Yair LURIE, Todd MAY, In Y. KIM, Mark D. WIEDERHOLD, Sun I.
KIM, An Investigation into Physiological Responses in Virtual Environments:AN
Objective Measurement of Presence, Towards Cyber Psycholigy : Mind, Cognitions
and Society in the Internet Age, p. 176-182, 2001,6,
Witmer, B. G. & Singer, M. J., (1998). Measuring presence in virtual
environments: A presence questionnaire. Presence: Teleoperators and Virtual
Environments, 7(3), pp. 225 – 240.
97