Download Report

INF1500 - Introduksjon til design, bruk, interaksjon
Evaluering
27. oktober 2015
Institutt for Informatikk, Universitetet i Oslo
[email protected]
INF1500 – Evaluering
1
27.10.15
To spørsmål/kommentarer fra dere
«Er dere bevisst på copyright når dere retter obligene våre? Dere bruker vel ikke ideene
våre til egen vinning?»
«Forklar oblig 3 LENGE FØR fristen slik at vi forstår hva vi skal gjøre og slipper å spørre
så mye»
INF1500 – Evaluering
2
27.10.15
Ukene fremover
•
I dag er temaet evaluering (del 1)
•
Vi går gjennom DECIDE-rammeverket neste uke (del 2)
•
Forberedelse til neste pensumforelesning: les utdraget om «DECIDE»
Viktige aktiviteter som gjenstår
•
Tirsdag 10. november kommer Morten Tollefsen for å snakke om universell utforming
•
Tirsdag 17. november foreleser jeg om tangible interaction
•
Mandag 23. november kommer Tone Bratteteig for å snakke om INF1510 og det blir sosial avslutning
•
Tirsdag 24. november blir det repetisjonsforelesning
•
Mandag 30. november blir det prøveeksamen – deles ut på morgenen og gjennomgås på ettermiddagen
•
En gang mellom 7-9. desember blir det en siste gjennomgang/plenumstime
INF1500 – Evaluering
3
27.10.15
Evaluering
"Everything that can be counted does not necessarily count; everything that counts cannot
necessarily be counted”
(A. Einstein)
"True genius resides in the capacity for evaluation of uncertain, hazardous, and conflicting
information"
(W. Churchill)
”The only man who behaves sensibly is my tailor; he takes my measurements anew every
time he sees me, while all the rest go on with their old measurements and
expect me to fit them”
(G. B. Shaw)
INF1500 – Evaluering
4
27.10.15
Nøkkelbegreper fra dagens forelesning
•
Evaluering  s. 7
•
Metrikk  s. 26
•
Kvantitative studier  s. 7
•
Kontrollert variabel  s. 27
•
Kvalitative studier  s. 7
•
Presisjon og generaliserbarhet  s. 27
•
Opportunistisk evaluering  s. 15
•
Between-subject testing  s. 30
•
Brukbarhetstesting  s. 21
•
Within-subject testing  s. 30
•
Formativ testing  s. 23
•
Feltstudier  s. 31
•
Summativ testing  s. 23
•
Etnografi  s. 33
•
Effektivitet, flittighet og tilfredshet  s. 24
•
Analytisk evaluering  s. 36
•
Lærbarhet og memorerbarhet  s. 24
•
Heuristikk  s. 36
•
Hypotese  s. 26
•
Kognitiv gjennomgang  s. 37
•
Uavhengig variabel  s. 26
•
Ekspertevaluering  s. 39
•
Avhengig variabel  s. 26
INF1500 – Evaluering
5
27.10.15
Oversikt over dagens forelesning
•
Hva er evaluering?
•
Hvorfor evaluere?
•
Tre tilnærminger til evaluering
• Brukbarhetstesting
• Feltstudier
• Analytisk evaluering
•
Metoder, teknikker og paradigmer
•
Eksempler på tilnærminger
•
Eksempler fra virkeligheten
•
Obligatorisk oppgave 3
INF1500 – Evaluering
Obligatorisk oppgave 1
Behovsanalyse 
kravspesifikasjon
Evaluering 
analyse
Obligatorisk oppgave 3
Design 
prototype
Obligatorisk oppgave 2
6
27.10.15
Evaluering
•
Evaluering - etymologi:
évaluation, évaluer "å finne verdien av"
•
•
Eksempler på generelle typer evalueringsstudier:
•
Kvantitativt  numeriske studier, statistikk
•
Kvalitativt  studier av mening, tekst, samtale
•
Case study  lavt antall, men høyt detaljerte beskrivelser
•
Etnografi  studier i naturlige omgivelser
Software testing er ikke det samme som HCI-evaluering
INF1500 – Evaluering
7
27.10.15
Evaluering
•
Krever en artefakt: en simulering, en prototype, et ferdig produkt
•
På samme måte med low-fi/hi-fi prototyper finnes det ulike grader av «ekthet»
i evalueringen vi gjør
•
Ulike typer evalueringstilnærminger vil gi ulike typer svar
 hva ønsker vi egentlig å finne ut av?
•
F.eks. vil man tidlig benytte seg mye av heuristikk, men senere ekte brukere
•
Man må ofte eksperimentere med ulike metoder for å finne metoden som gir
best gyldighet i resultatene
INF1500 – Evaluering
8
27.10.15
Evaluering
•
Evaluering er en sentral del av brukersentrert design og generell HCI
•
Inngår på forskjellige måter i de ulike modellene, men er viktig i alle
•
Mange av teknikkene som benyttes under kravinnsamling kan også brukes
under evaluering
• Å jobbe med begrensinger er en sentral utfordring for evaluatorer
•
Tre tilnærminger:
•
Brukbarhetstesting
•
Feltstudier
•
Analytisk evaluering
INF1500 – Evaluering
9
27.10.15
Hva, hvordan, hvorfor og når?
•
Hvorfor: bør vi evaluere?
•
Hva: kan vi evaluere?
•
Hvor: kan vi evaluere?
•
Når: kan vi evaluere?
INF1500 – Evaluering
10
27.10.15
Hva, hvordan, hvorfor og når?
•
Hvorfor: for å undersøke om brukerne kan benytte løsningen
•
•
•
Hva: konseptuelle modeller, tidlige prototyper, endelige prototyper
•
•
Alt som kan gi brukeren en idé om endelig løsning kan evalueres
Hvor: i laboratorium eller «naturlige omgivelser»
•
•
For å kontrollere at designet vårt på riktig vei – møter vi brukernes behov?
Identifiserer bruksproblemer, frustrasjonsmomenter og forbedringspotensialer
Avgjøres av en rekke faktorer, f.eks. modenhet, tilgang, deltagere, formål etc.
Når: tidlig, sent, når som helst, så ofte som mulig
•
INF1500 – Evaluering
Kan gjøres som en gjennomgående aktivitet eller hovedsakelig tilknyttet milepæler
11
27.10.15
Hvorfor evaluere?
•
Avgjøre hvor brukbar en løsning er for ulike brukere og brukergrupper
•
Identifisere gode og dårlige egenskaper for å drive videre design
•
Sammenlikne designalternativer og hjelpe oss med å ta beslutninger
•
Observere effekten spesifikken interaksjoner og grensesnitt har på brukeren
•
Husk:
•
Evaluering er en prosess, ikke en hendelse
•
Gode designideer stammer ofte fra evaluering av eksisterende løsninger
•
"Making things better" starter alltid med evaluering
INF1500 – Evaluering
12
27.10.15
Tre tilnærminger til evaluering
•
•
•
Brukbarhetstesting
•
Brukere gjør definerte oppgaver i kontrollerte omgivelser
•
Observasjoner, målinger og feil blir rapportert
Feltstudier
•
Brukere utfører oppgaver i "naturlige" omgivelser
•
Observasjoner og beskrivelser blir rapportert
Analytisk evaluering
•
Brukere holdes utenfor evaluering og kan gjøres hvor som helst
•
Problemer og tilbakemeldinger blir rapportert
INF1500 – Evaluering
13
27.10.15
Metoder og teknikker
•
Brukbarhetstesting
•
•
•
•
Feltstudier
•
•
•
•
Observasjon
Spørre brukere
Testing
Observasjon
Spørre brukere
Spørre eksperter
Analytisk evaluering
•
•
INF1500 – Evaluering
Spørre eksperter (HCI eller domene)
Modellere
14
27.10.15
Kombinasjon
•
Kombinerte tilnærminger (s.442 i 3. utgave)
•
Opportunistisk evaluering  vi benytter «anledning» til å velge tilnærming
Feltstudie for å evaluere utkast til designideer og få tidlig feedback
Gjøre designendringer
Brukbarhetsteste for å sjekke spesifikke designegenskaper
Feltstudie for å se hvordan designet fungerer i naturlige omgivelser
Gjøre endelige designjusteringer
INF1500 – Evaluering
15
27.10.15
Evalueringsmetoder og teknikker
•
Flere tilnærminger kan brukes samtidig, og ulike metoder og teknikker kan
brukes i flere av tilnærmingene:
Metode/teknikk
Kontrollerte
omgivelser
Naturlige
omgivelser
Uten brukere
Observasjon
Spørre brukere
Spørre eksperter
Sett kryss i riktige ruter
Testing
Modellering
INF1500 – Evaluering
16
27.10.15
Evalueringsmetoder og teknikker
•
Flere tilnærminger kan brukes samtidig, og ulike metoder og teknikker kan
brukes i flere av tilnærmingene:
Kontrollerte
omgivelser
Naturlige
omgivelser
Observasjon
X
X
Spørre brukere
X
X
Metode/teknikk
X
Spørre eksperter
Testing
X
X
X
Modellering
INF1500 – Evaluering
Uten brukere
17
27.10.15
Evalueringsmetoder og teknikker
•
Eksempler på teknikker som brukes:
Metode/teknikk
Observasjon
Spørre brukere
Spørre eksperter
Testing
Modellering
INF1500 – Evaluering
Kontrollerte
omgivelser
Naturlige
omgivelser
Uten brukere
Video og interaksjonslogg
Etnografiske teknikker:
skygging, flue-på-veggen
-
Pre- og posttestingsspørsmål,
strukturerte intervjuer
Intervjuer og diskusjoner
-
-
Heuristisk evaluering,
diskusjoner
Heuristisk evaluering
Testing av typiske oppgaver
(brukbarhetstesting)
-
-
-
-
HTA, GOMS og annen teori
18
27.10.15
Evalueringsparadigmer
Evalueringsparadigme:
”Quick and dirty”
Brukbarhetstesting
Feltstudier
Analytisk evaluering
Hvilken rolle har
brukeren i evalueringen
Naturlig oppførsel
Å gjennomføre
oppgaver
Naturlig oppførsel
Ingen
Hvem styrer
evalueringen
Evaluatoren har
minimalt med kontroll
Evaluatoren har
sterk kontroll
Forholdet mellom
evaluatoren og deltagerne
Eksperter
Hvor foregår
evalueringen
Naturlig omgivelser
eller laboratorium
Laboratorium
Naturlig omgivelser
Naturlig omgivelser
eller laboratorium
Når gjennomfører man
evalueringen
Når som helst
Når ferdig prototype
er klar
Tidlig
Med prototype
Hvilken type data samles
inn under evalueringen
Kvalitativ; uformell
diskusjon
Kvantitativ; statistisk
Kvalitativ, skisser
Liste over problemer
Hvordan blir dataen
tilført designprosessen
Skisser og sitater
Rapport på
prestasjoner
Beskrivelse på workshop,
rapport og skisser
Rapport
Hvilken filosofi eller teori
ligger bak evalueringen
Brukersentrert design
Vitenskapelig/eksper
imentell
Etnografisk
Praktisk heuristikk,
annen teori
(Tabellen er hentet fra førsteugaven av læreboken)
INF1500 – Evaluering
19
27.10.15
Evaluering – begreper fra boka
•
Analytisk evaluering
•
Kontrollerte eksperimenter
•
Feltstudier
•
Formativ evaluering
•
Heuristisk evaluering
•
Prediktiv evaluering
•
Summative evaluering
•
Brukerstudier
•
Brukbarhetsstudier
•
Brukbarhetstesting
•
Brukertesting
INF1500 – Evaluering
20
27.10.15
Brukbarhetstesting
•
Eksempel på evaluering i kontrollerte omgivelser
•
Evaluering av en løsning isolert sett
•
Som regel bes brukeren om å utføre en spesifikk oppgave
•
Observerer og måler som ofteste med følgende metrikker:
•
•
•
•
•
•
Tid
Fullføringsrate
Antall feil
Antall forsøk
Tilfredshet
Men viktigst av alt: du får observert noen som bruker løsningen
INF1500 – Evaluering
21
27.10.15
INF1500 – Evaluering
22
27.10.15
Formativ og summativ testing
Formativ
Summativ
•
Utføres i en tidlig fase
•
Utføres i en senere fase
•
Typisk low-fi prototyper
•
Formell prototype er klar
•
Fokus på hvordan
grensesnittet oppfattes
(fremfor oppgaveløsing)
•
•
•
Billig, raskt og kan utføres
på flere alternativer
•
Validering
•
Høy-nivåbeslutninger er
allerede tatt
Grensnittet eller
funksjonalitet måles opp
mot andre tilsvarende
løsninger (benchmarking)
•
F.eks. evaluering av
brukbarheten ved et
designvalg
F.eks.: klarer brukeren å
løse en oppgave på 30
sekunder?
•
Brukes mer sjeldent
Lettere å være kritisk
Dette er pensum i INF2260, så dere behøver kun å kjenne til disse begrepene i dette kurset.
INF1500 – Evaluering
23
27.10.15
Hva ønsker vi å finne ut av?
•
•
Tre standard ISO-definerte dimensjoner på brukbarhet:
•
Effektivitet  Hvor godt vi klarer å løse oppgaver (effectiveness)
•
Flittighet  Hvor raskt vi klarer å løse oppgaver (efficiency)
•
Tilfredshet  Hvor tilfreds vi er med å løse oppgaver (satisfaction)
I tillegg legger man gjerne på:
•
Lærbarhet: Hvor lett kan vi lære oss å løse oppgaver (learnability)
•
Memorerbaret: Hvor mye som huskes hvis vi etter stund skal løse oppgaver (memorability)
INF1500 – Evaluering
24
27.10.15
Eksperimentell evaluering (1)
•
I eksperimentell testing tester vi en hypotese for å generere ny kunnskap
•
Vi studerer forholdet mellom to eller flere faktorer – også kalt variabler
•
Brukbarhetstesting er anvendt eksperimentering
•
Relevante begreper:
•
•
Hypotese
•
Avhengige, uavhengige og kontrollerte variabler
•
Presisjon og generaliserbarhet
Eksempel på atferdsforskning
Type
Formål
Beskrivelse
Deskriptiv
Beskriver forhold
x skjer
Relasjonell
Ser sammenhenger
x er relatert til y
Eksperimentell
Forklarer årsaker
x er ansvarlig for y
INF1500 – Evaluering
25
27.10.15
Eksperimentell evaluering (2)
Hypotese
•
Et forsøk på en forklaring  en utestet antagelse om virkeligheten
•
Må være etterprøvbar for å være gyldig
Uavhengig variabel (IV)
•
Hva er du manipulerer?  som regel en del av grensesnittet eller interaksjonen
•
Eksempler: ulike måter å representere en løsning på (slik dere gjorde i oblig 2)
•
Faktorer vi ønsker å studere, eller mulig ”årsak” til endring i en avhengig variabel
•
Uavhengig av deltagers atferd
•
Forhold og tilstander som forskere normal kan kontrollere
Avhengig variabel (DV)
•
Hva er det du skal måle?  avhenger av ditt oppsett og de faktorene du manipulerer
•
Eksempler: nøyaktighet, emosjonell, feilantall etc.
•
Avhengig av deltagers atferd (eller endring i IV)
•
Vi bruker metrikker for å måle utfallet gjennom denne variabelen
INF1500 – Evaluering
26
Metrikk: et målbart
og kvantifiserbart
forhold vi kan bruke
til sammenlikning
Eksempler:
Tid  sekunder
Vekt  gram
Prestasjon  # feil
27.10.15
Eksperimentell evaluering (3)
Kontrollerte variabler (CV)
•
Hvilke forhold holder vi bevisst like mellom rundene i eksperimentene?
•
Faktorer som kontrolleres gjennom eksperimentet for å unngå IVs effekt på DV
Presisjon
•
Beskrives som intern validitet  hvis vi gjorde dette igjen, vil jeg få det samme resultatene?
•
Fokus på konsistens, fjerne alle forstyrrende faktorer, dokumentasjon etc.
Generaliserbarhet
•
Beskrives som ekstern validitet  er det vi måler noe vi finner igjen i den virkelige verden?
•
Det er ikke slik at «iboende funn» (intrinsic validity) automatisk gjør oss i stand til å generalisere
INF1500 – Evaluering
27
27.10.15
Eksperimentell evaluering: eksempel
Oppgave: vi ønsker å studere hvorvidt ulike mengden med gjødsel påvirker en plantes vekst
•
Hypotese: det er ingen forskjell i mengden gjødsel sin påvirkning på plantens vekst
•
Uavhengig variabel: mengde gjødsel
•
Avhengig variabler: høyde, vekt, bær
•
Kontrollerte variabler: potta, vann, temperatur, sollys
•
Vi bruker ni like planter og tre forskjellige mengder gjødsel
•
Plante 1-3 utsettes for mengde 1, plante 4-6 utsette for mengde 2, og plante 7-9 utsettes for mengde 3
•
Måler avhengige variabler for å si noe om den uavhengige variabelen har en påvirkning
•
Bruker dette for å bekrefte eller avkrefte hypotesen
INF1500 – Evaluering
28
27.10.15
Eksperimentell evaluering: oblig 3
Bakgrunn: i oblig 2 har jeg laget to prototyper for musikkopplevelser  én app og én smartklokke
Oppgave: formålet er å se om det er noen forskjell på prototype 1 og 2
•
Hypotese: det er ingen forskjell i prestasjon ved bruk av prototype 1 og prototype 2
•
Uavhengig variabel: prototypene
•
Avhengig variabler: tid og antall feil
•
Kontrollerte variabler: musikkvalg, setting, humør
•
Vi bruker seks brukere
•
Alle brukere tester begge prototypene
•
Måler tid og feil for å si noe om smartklokken skaper en lik, bedre eller dårligere prestasjon enn appen
INF1500 – Evaluering
29
27.10.15
Ting vi må passe på (i oblig 3)
•
Skal alle deltagerne teste alle tilstandene?  Skal alle seks deltagerne teste begge prototypene?
•
…eller skal vi dele det opp i to, dvs. at gruppe 1 og 2 (på tre personer) tester tre tilstander hver
•
Det kan oppstå læringseffekter: vi kjenner systemet etter én tilstand, humør, ivrighet
•
Det optimale er om vi har tilfeldig tildeling av deltager til tilstand  ingen måte å påvirke dette på
•
Between-subject: vi deler inn i grupper som tester hver sin tilstand (like mange grupper som tilstander)
•
Within-subject: alle detalgere tester alle tilstander
INF1500 – Evaluering
30
27.10.15
Feltstudier i naturlige omgivelser
•
Evaluering av en prototype i brukssituasjonens naturlige omgivelser
•
Foretas ofte i en senere fase når:
•
•
•
•
Prototypen er mer sofistikert og utviklet
Ikke bare horisontale, men også vertikale funksjoner
Prototypen allerede er evaluert i kontrollerte omgivelser
Fordeler:
•
•
•
•
Representative omgivelser (beliggenhet og kontekst)
Bruker oppfører seg mer naturlig
Mer realistisk (støy, andre personer, dekningsproblemer etc.)
Kan utvides til langtidsstudier
•
Men hvilke ulemper?
INF1500 – Evaluering
31
27.10.15
INF1500 – Evaluering
32
27.10.15
Etnografi
•
Eksempel på evaluering i naturlige omgivelser
•
En kvalitativ forskningsmetode som stammer fra sosialvitenskapen
•
Brukes mye for å forstå brukere og brukskontekst
•
Typiske observasjonsteknikker inkluderer skygging og flue-på-veggen
•
Kan også bruke intervjuteknikker, for eksempel in-situ intervjuer med designer
•
Ulik grad av deltagelse: fra passiv til aktiv (deltagende) observasjon
INF1500 – Evaluering
33
27.10.15
INF1500 – Evaluering
34
27.10.15
INF1500 – Evaluering
35
27.10.15
Analytisk evaluering
•
Analytisk: teori, modeller, retningslinjer (eksperter)
•
Empirisk: observasjoner, spørreundersøkelser, litteratur (brukere)
•
Finnes flere metoder som kan benyttes for analytisk evaluering:
•
Gjennomganger
•
•
•
•
Heuristisk evaluering
•
•
•
INF1500 – Evaluering
Finnes flere ulike typer, f.eks. kognitiv eller pluralistisk gjennomgang
Inkluderer domeneeksperter
Gjøres ofte i grupper med HCI-eksperter og domeneeksperter
Gjennomgang etter retningslinjer
Nielsen mente man kun trengte 3-5 brukere for å finne 80 %
Brukes mye i næringslivet og industrien
36
Heuristikk: bygger på
(nedfelte) erfaringer
og prinsipper.
«tommerfingerregel»vurdering
27.10.15
Kognitiv gjennomgang
•
Kalles cognitive walkthrough på engelsk
•
Designet evalueres av eksperter (ofte i kognitiv psykologi)
•
Formålet er å undersøke hvor godt designet støtter brukeren i oppgaveløsning
•
Ekspertene følges gjennom designet steg for steg for å identifisere potensielle problemer
(ved å f.eks. bruke psykologiske prinsipper)
•
Bruker ofte skjemaer til å guide analysen
•
For hvert steg:
• Hvilken påvirkning vil interaksjonen ha?
• Hvilke kognitive prosesser kreves fra brukeren?
• Hvilke læringsproblemer kan oppstå?
•
Fokus i analysen på mål og kunnskap  leder designet til de riktige målene?
INF1500 – Evaluering
37
27.10.15
INF1500 – Evaluering
38
27.10.15
Ekspertevaluering
•
Eksempel på analytisk evaluering
•
En eller flere eksperter evaluerer en løsning og påpeker problemer og svakheter
•
Ekspertene setter seg inn i brukers rolle
•
Kan være både HCI-eksperter og domeneeksperter
INF1500 – Evaluering
39
27.10.15
http://psipunk.com/wp-content/uploads/2009/11/nasas-sprlunar-rover-01.jpg
Eksempler
http://venturebeat.files.wordpress.com/2012/10/ipad-4-gen.jpg
http://www.fonearena.com/blog/wpcontent/uploads/2009/01/india-mobile.jpg?9d7bd4
http://www.blogcdn.com/www.engadget.com/media/2006/11/mi
t_indoor_uav.jpg
•
MIT: innendørstesting med UAV
•
HISP: mobiltelefoner i India
•
Apple: iPadens oppstandelse
•
JPL & NASA: simulering i 3D-programmer og kunstige omgivelser
INF1500 – Evaluering
40
27.10.15
INF1500 – Evaluering
41
27.10.15
Hvilken type evaluering er egnet?
•
DNT prototyper en løsning for elektroniske kompass for turgåere
•
Studentgruppe som lager iPhone-app for oversikt over dagens rett i kantina
•
NASA-ansatte lager et nytt dusjsystem som skal utplasseres på ISS i verdensrommet
•
Mozilla ønsker å teste ut sin siste versjon av nettleseren Firefox
•
IT-selskap utvikler en ny touchskjerm for eldre mennesker som lider av demens
•
Medisinske forskere som har fremstilt medisiner som skal løse fremtidens kreftgåter
•
Undervisningsledelsen som jobber med å kartlegge digital eksamen
•
DnB vil ha tilbakemelding på hvordan deres eksisterende «mobilbank» fungerer
INF1500 – Evaluering
42
27.10.15
Obligatorisk oppgave 3
•
Obligatorisk oppgave 3 handler om å planlegge og gjennomføre en evaluering av designforslagene
dere har laget i obligatorisk oppgave 2
•
Dere skal sette opp en evalueringsplan ved hjelp av DECIDE-rammeverket (gjennomgås neste uke)
•
Dere velger selv omfanget på evalueringen, men den skal altså gjennomføres
•
Obligen er allerede lagt, og dere bør begynne på den med en gang!
•
Begynn å tenke på:
•
•
Hvilke oppgaver vil du be deltagerne om å utføre?
•
Hvilke metrikker du vil bruke under evalueringen?
•
Hvordan du har tenkt å måle brukernes prestasjoner når de utfører oppgaver?
•
Skal prototypene evalueres opp mot hverandre eller evalueres isolert?
•
Hvilke egenskaper innehar deltagere du inkluderer i evalueringen?
Formålet er å få trening i planlegging og gjennomføring av en evaluering  omfanget på evalueringen er ikke så viktig!
INF1500 – Evaluering
43
27.10.15