INF1500 - Introduksjon til design, bruk, interaksjon Evaluering 27. oktober 2015 Institutt for Informatikk, Universitetet i Oslo [email protected] INF1500 – Evaluering 1 27.10.15 To spørsmål/kommentarer fra dere «Er dere bevisst på copyright når dere retter obligene våre? Dere bruker vel ikke ideene våre til egen vinning?» «Forklar oblig 3 LENGE FØR fristen slik at vi forstår hva vi skal gjøre og slipper å spørre så mye» INF1500 – Evaluering 2 27.10.15 Ukene fremover • I dag er temaet evaluering (del 1) • Vi går gjennom DECIDE-rammeverket neste uke (del 2) • Forberedelse til neste pensumforelesning: les utdraget om «DECIDE» Viktige aktiviteter som gjenstår • Tirsdag 10. november kommer Morten Tollefsen for å snakke om universell utforming • Tirsdag 17. november foreleser jeg om tangible interaction • Mandag 23. november kommer Tone Bratteteig for å snakke om INF1510 og det blir sosial avslutning • Tirsdag 24. november blir det repetisjonsforelesning • Mandag 30. november blir det prøveeksamen – deles ut på morgenen og gjennomgås på ettermiddagen • En gang mellom 7-9. desember blir det en siste gjennomgang/plenumstime INF1500 – Evaluering 3 27.10.15 Evaluering "Everything that can be counted does not necessarily count; everything that counts cannot necessarily be counted” (A. Einstein) "True genius resides in the capacity for evaluation of uncertain, hazardous, and conflicting information" (W. Churchill) ”The only man who behaves sensibly is my tailor; he takes my measurements anew every time he sees me, while all the rest go on with their old measurements and expect me to fit them” (G. B. Shaw) INF1500 – Evaluering 4 27.10.15 Nøkkelbegreper fra dagens forelesning • Evaluering s. 7 • Metrikk s. 26 • Kvantitative studier s. 7 • Kontrollert variabel s. 27 • Kvalitative studier s. 7 • Presisjon og generaliserbarhet s. 27 • Opportunistisk evaluering s. 15 • Between-subject testing s. 30 • Brukbarhetstesting s. 21 • Within-subject testing s. 30 • Formativ testing s. 23 • Feltstudier s. 31 • Summativ testing s. 23 • Etnografi s. 33 • Effektivitet, flittighet og tilfredshet s. 24 • Analytisk evaluering s. 36 • Lærbarhet og memorerbarhet s. 24 • Heuristikk s. 36 • Hypotese s. 26 • Kognitiv gjennomgang s. 37 • Uavhengig variabel s. 26 • Ekspertevaluering s. 39 • Avhengig variabel s. 26 INF1500 – Evaluering 5 27.10.15 Oversikt over dagens forelesning • Hva er evaluering? • Hvorfor evaluere? • Tre tilnærminger til evaluering • Brukbarhetstesting • Feltstudier • Analytisk evaluering • Metoder, teknikker og paradigmer • Eksempler på tilnærminger • Eksempler fra virkeligheten • Obligatorisk oppgave 3 INF1500 – Evaluering Obligatorisk oppgave 1 Behovsanalyse kravspesifikasjon Evaluering analyse Obligatorisk oppgave 3 Design prototype Obligatorisk oppgave 2 6 27.10.15 Evaluering • Evaluering - etymologi: évaluation, évaluer "å finne verdien av" • • Eksempler på generelle typer evalueringsstudier: • Kvantitativt numeriske studier, statistikk • Kvalitativt studier av mening, tekst, samtale • Case study lavt antall, men høyt detaljerte beskrivelser • Etnografi studier i naturlige omgivelser Software testing er ikke det samme som HCI-evaluering INF1500 – Evaluering 7 27.10.15 Evaluering • Krever en artefakt: en simulering, en prototype, et ferdig produkt • På samme måte med low-fi/hi-fi prototyper finnes det ulike grader av «ekthet» i evalueringen vi gjør • Ulike typer evalueringstilnærminger vil gi ulike typer svar hva ønsker vi egentlig å finne ut av? • F.eks. vil man tidlig benytte seg mye av heuristikk, men senere ekte brukere • Man må ofte eksperimentere med ulike metoder for å finne metoden som gir best gyldighet i resultatene INF1500 – Evaluering 8 27.10.15 Evaluering • Evaluering er en sentral del av brukersentrert design og generell HCI • Inngår på forskjellige måter i de ulike modellene, men er viktig i alle • Mange av teknikkene som benyttes under kravinnsamling kan også brukes under evaluering • Å jobbe med begrensinger er en sentral utfordring for evaluatorer • Tre tilnærminger: • Brukbarhetstesting • Feltstudier • Analytisk evaluering INF1500 – Evaluering 9 27.10.15 Hva, hvordan, hvorfor og når? • Hvorfor: bør vi evaluere? • Hva: kan vi evaluere? • Hvor: kan vi evaluere? • Når: kan vi evaluere? INF1500 – Evaluering 10 27.10.15 Hva, hvordan, hvorfor og når? • Hvorfor: for å undersøke om brukerne kan benytte løsningen • • • Hva: konseptuelle modeller, tidlige prototyper, endelige prototyper • • Alt som kan gi brukeren en idé om endelig løsning kan evalueres Hvor: i laboratorium eller «naturlige omgivelser» • • For å kontrollere at designet vårt på riktig vei – møter vi brukernes behov? Identifiserer bruksproblemer, frustrasjonsmomenter og forbedringspotensialer Avgjøres av en rekke faktorer, f.eks. modenhet, tilgang, deltagere, formål etc. Når: tidlig, sent, når som helst, så ofte som mulig • INF1500 – Evaluering Kan gjøres som en gjennomgående aktivitet eller hovedsakelig tilknyttet milepæler 11 27.10.15 Hvorfor evaluere? • Avgjøre hvor brukbar en løsning er for ulike brukere og brukergrupper • Identifisere gode og dårlige egenskaper for å drive videre design • Sammenlikne designalternativer og hjelpe oss med å ta beslutninger • Observere effekten spesifikken interaksjoner og grensesnitt har på brukeren • Husk: • Evaluering er en prosess, ikke en hendelse • Gode designideer stammer ofte fra evaluering av eksisterende løsninger • "Making things better" starter alltid med evaluering INF1500 – Evaluering 12 27.10.15 Tre tilnærminger til evaluering • • • Brukbarhetstesting • Brukere gjør definerte oppgaver i kontrollerte omgivelser • Observasjoner, målinger og feil blir rapportert Feltstudier • Brukere utfører oppgaver i "naturlige" omgivelser • Observasjoner og beskrivelser blir rapportert Analytisk evaluering • Brukere holdes utenfor evaluering og kan gjøres hvor som helst • Problemer og tilbakemeldinger blir rapportert INF1500 – Evaluering 13 27.10.15 Metoder og teknikker • Brukbarhetstesting • • • • Feltstudier • • • • Observasjon Spørre brukere Testing Observasjon Spørre brukere Spørre eksperter Analytisk evaluering • • INF1500 – Evaluering Spørre eksperter (HCI eller domene) Modellere 14 27.10.15 Kombinasjon • Kombinerte tilnærminger (s.442 i 3. utgave) • Opportunistisk evaluering vi benytter «anledning» til å velge tilnærming Feltstudie for å evaluere utkast til designideer og få tidlig feedback Gjøre designendringer Brukbarhetsteste for å sjekke spesifikke designegenskaper Feltstudie for å se hvordan designet fungerer i naturlige omgivelser Gjøre endelige designjusteringer INF1500 – Evaluering 15 27.10.15 Evalueringsmetoder og teknikker • Flere tilnærminger kan brukes samtidig, og ulike metoder og teknikker kan brukes i flere av tilnærmingene: Metode/teknikk Kontrollerte omgivelser Naturlige omgivelser Uten brukere Observasjon Spørre brukere Spørre eksperter Sett kryss i riktige ruter Testing Modellering INF1500 – Evaluering 16 27.10.15 Evalueringsmetoder og teknikker • Flere tilnærminger kan brukes samtidig, og ulike metoder og teknikker kan brukes i flere av tilnærmingene: Kontrollerte omgivelser Naturlige omgivelser Observasjon X X Spørre brukere X X Metode/teknikk X Spørre eksperter Testing X X X Modellering INF1500 – Evaluering Uten brukere 17 27.10.15 Evalueringsmetoder og teknikker • Eksempler på teknikker som brukes: Metode/teknikk Observasjon Spørre brukere Spørre eksperter Testing Modellering INF1500 – Evaluering Kontrollerte omgivelser Naturlige omgivelser Uten brukere Video og interaksjonslogg Etnografiske teknikker: skygging, flue-på-veggen - Pre- og posttestingsspørsmål, strukturerte intervjuer Intervjuer og diskusjoner - - Heuristisk evaluering, diskusjoner Heuristisk evaluering Testing av typiske oppgaver (brukbarhetstesting) - - - - HTA, GOMS og annen teori 18 27.10.15 Evalueringsparadigmer Evalueringsparadigme: ”Quick and dirty” Brukbarhetstesting Feltstudier Analytisk evaluering Hvilken rolle har brukeren i evalueringen Naturlig oppførsel Å gjennomføre oppgaver Naturlig oppførsel Ingen Hvem styrer evalueringen Evaluatoren har minimalt med kontroll Evaluatoren har sterk kontroll Forholdet mellom evaluatoren og deltagerne Eksperter Hvor foregår evalueringen Naturlig omgivelser eller laboratorium Laboratorium Naturlig omgivelser Naturlig omgivelser eller laboratorium Når gjennomfører man evalueringen Når som helst Når ferdig prototype er klar Tidlig Med prototype Hvilken type data samles inn under evalueringen Kvalitativ; uformell diskusjon Kvantitativ; statistisk Kvalitativ, skisser Liste over problemer Hvordan blir dataen tilført designprosessen Skisser og sitater Rapport på prestasjoner Beskrivelse på workshop, rapport og skisser Rapport Hvilken filosofi eller teori ligger bak evalueringen Brukersentrert design Vitenskapelig/eksper imentell Etnografisk Praktisk heuristikk, annen teori (Tabellen er hentet fra førsteugaven av læreboken) INF1500 – Evaluering 19 27.10.15 Evaluering – begreper fra boka • Analytisk evaluering • Kontrollerte eksperimenter • Feltstudier • Formativ evaluering • Heuristisk evaluering • Prediktiv evaluering • Summative evaluering • Brukerstudier • Brukbarhetsstudier • Brukbarhetstesting • Brukertesting INF1500 – Evaluering 20 27.10.15 Brukbarhetstesting • Eksempel på evaluering i kontrollerte omgivelser • Evaluering av en løsning isolert sett • Som regel bes brukeren om å utføre en spesifikk oppgave • Observerer og måler som ofteste med følgende metrikker: • • • • • • Tid Fullføringsrate Antall feil Antall forsøk Tilfredshet Men viktigst av alt: du får observert noen som bruker løsningen INF1500 – Evaluering 21 27.10.15 INF1500 – Evaluering 22 27.10.15 Formativ og summativ testing Formativ Summativ • Utføres i en tidlig fase • Utføres i en senere fase • Typisk low-fi prototyper • Formell prototype er klar • Fokus på hvordan grensesnittet oppfattes (fremfor oppgaveløsing) • • • Billig, raskt og kan utføres på flere alternativer • Validering • Høy-nivåbeslutninger er allerede tatt Grensnittet eller funksjonalitet måles opp mot andre tilsvarende løsninger (benchmarking) • F.eks. evaluering av brukbarheten ved et designvalg F.eks.: klarer brukeren å løse en oppgave på 30 sekunder? • Brukes mer sjeldent Lettere å være kritisk Dette er pensum i INF2260, så dere behøver kun å kjenne til disse begrepene i dette kurset. INF1500 – Evaluering 23 27.10.15 Hva ønsker vi å finne ut av? • • Tre standard ISO-definerte dimensjoner på brukbarhet: • Effektivitet Hvor godt vi klarer å løse oppgaver (effectiveness) • Flittighet Hvor raskt vi klarer å løse oppgaver (efficiency) • Tilfredshet Hvor tilfreds vi er med å løse oppgaver (satisfaction) I tillegg legger man gjerne på: • Lærbarhet: Hvor lett kan vi lære oss å løse oppgaver (learnability) • Memorerbaret: Hvor mye som huskes hvis vi etter stund skal løse oppgaver (memorability) INF1500 – Evaluering 24 27.10.15 Eksperimentell evaluering (1) • I eksperimentell testing tester vi en hypotese for å generere ny kunnskap • Vi studerer forholdet mellom to eller flere faktorer – også kalt variabler • Brukbarhetstesting er anvendt eksperimentering • Relevante begreper: • • Hypotese • Avhengige, uavhengige og kontrollerte variabler • Presisjon og generaliserbarhet Eksempel på atferdsforskning Type Formål Beskrivelse Deskriptiv Beskriver forhold x skjer Relasjonell Ser sammenhenger x er relatert til y Eksperimentell Forklarer årsaker x er ansvarlig for y INF1500 – Evaluering 25 27.10.15 Eksperimentell evaluering (2) Hypotese • Et forsøk på en forklaring en utestet antagelse om virkeligheten • Må være etterprøvbar for å være gyldig Uavhengig variabel (IV) • Hva er du manipulerer? som regel en del av grensesnittet eller interaksjonen • Eksempler: ulike måter å representere en løsning på (slik dere gjorde i oblig 2) • Faktorer vi ønsker å studere, eller mulig ”årsak” til endring i en avhengig variabel • Uavhengig av deltagers atferd • Forhold og tilstander som forskere normal kan kontrollere Avhengig variabel (DV) • Hva er det du skal måle? avhenger av ditt oppsett og de faktorene du manipulerer • Eksempler: nøyaktighet, emosjonell, feilantall etc. • Avhengig av deltagers atferd (eller endring i IV) • Vi bruker metrikker for å måle utfallet gjennom denne variabelen INF1500 – Evaluering 26 Metrikk: et målbart og kvantifiserbart forhold vi kan bruke til sammenlikning Eksempler: Tid sekunder Vekt gram Prestasjon # feil 27.10.15 Eksperimentell evaluering (3) Kontrollerte variabler (CV) • Hvilke forhold holder vi bevisst like mellom rundene i eksperimentene? • Faktorer som kontrolleres gjennom eksperimentet for å unngå IVs effekt på DV Presisjon • Beskrives som intern validitet hvis vi gjorde dette igjen, vil jeg få det samme resultatene? • Fokus på konsistens, fjerne alle forstyrrende faktorer, dokumentasjon etc. Generaliserbarhet • Beskrives som ekstern validitet er det vi måler noe vi finner igjen i den virkelige verden? • Det er ikke slik at «iboende funn» (intrinsic validity) automatisk gjør oss i stand til å generalisere INF1500 – Evaluering 27 27.10.15 Eksperimentell evaluering: eksempel Oppgave: vi ønsker å studere hvorvidt ulike mengden med gjødsel påvirker en plantes vekst • Hypotese: det er ingen forskjell i mengden gjødsel sin påvirkning på plantens vekst • Uavhengig variabel: mengde gjødsel • Avhengig variabler: høyde, vekt, bær • Kontrollerte variabler: potta, vann, temperatur, sollys • Vi bruker ni like planter og tre forskjellige mengder gjødsel • Plante 1-3 utsettes for mengde 1, plante 4-6 utsette for mengde 2, og plante 7-9 utsettes for mengde 3 • Måler avhengige variabler for å si noe om den uavhengige variabelen har en påvirkning • Bruker dette for å bekrefte eller avkrefte hypotesen INF1500 – Evaluering 28 27.10.15 Eksperimentell evaluering: oblig 3 Bakgrunn: i oblig 2 har jeg laget to prototyper for musikkopplevelser én app og én smartklokke Oppgave: formålet er å se om det er noen forskjell på prototype 1 og 2 • Hypotese: det er ingen forskjell i prestasjon ved bruk av prototype 1 og prototype 2 • Uavhengig variabel: prototypene • Avhengig variabler: tid og antall feil • Kontrollerte variabler: musikkvalg, setting, humør • Vi bruker seks brukere • Alle brukere tester begge prototypene • Måler tid og feil for å si noe om smartklokken skaper en lik, bedre eller dårligere prestasjon enn appen INF1500 – Evaluering 29 27.10.15 Ting vi må passe på (i oblig 3) • Skal alle deltagerne teste alle tilstandene? Skal alle seks deltagerne teste begge prototypene? • …eller skal vi dele det opp i to, dvs. at gruppe 1 og 2 (på tre personer) tester tre tilstander hver • Det kan oppstå læringseffekter: vi kjenner systemet etter én tilstand, humør, ivrighet • Det optimale er om vi har tilfeldig tildeling av deltager til tilstand ingen måte å påvirke dette på • Between-subject: vi deler inn i grupper som tester hver sin tilstand (like mange grupper som tilstander) • Within-subject: alle detalgere tester alle tilstander INF1500 – Evaluering 30 27.10.15 Feltstudier i naturlige omgivelser • Evaluering av en prototype i brukssituasjonens naturlige omgivelser • Foretas ofte i en senere fase når: • • • • Prototypen er mer sofistikert og utviklet Ikke bare horisontale, men også vertikale funksjoner Prototypen allerede er evaluert i kontrollerte omgivelser Fordeler: • • • • Representative omgivelser (beliggenhet og kontekst) Bruker oppfører seg mer naturlig Mer realistisk (støy, andre personer, dekningsproblemer etc.) Kan utvides til langtidsstudier • Men hvilke ulemper? INF1500 – Evaluering 31 27.10.15 INF1500 – Evaluering 32 27.10.15 Etnografi • Eksempel på evaluering i naturlige omgivelser • En kvalitativ forskningsmetode som stammer fra sosialvitenskapen • Brukes mye for å forstå brukere og brukskontekst • Typiske observasjonsteknikker inkluderer skygging og flue-på-veggen • Kan også bruke intervjuteknikker, for eksempel in-situ intervjuer med designer • Ulik grad av deltagelse: fra passiv til aktiv (deltagende) observasjon INF1500 – Evaluering 33 27.10.15 INF1500 – Evaluering 34 27.10.15 INF1500 – Evaluering 35 27.10.15 Analytisk evaluering • Analytisk: teori, modeller, retningslinjer (eksperter) • Empirisk: observasjoner, spørreundersøkelser, litteratur (brukere) • Finnes flere metoder som kan benyttes for analytisk evaluering: • Gjennomganger • • • • Heuristisk evaluering • • • INF1500 – Evaluering Finnes flere ulike typer, f.eks. kognitiv eller pluralistisk gjennomgang Inkluderer domeneeksperter Gjøres ofte i grupper med HCI-eksperter og domeneeksperter Gjennomgang etter retningslinjer Nielsen mente man kun trengte 3-5 brukere for å finne 80 % Brukes mye i næringslivet og industrien 36 Heuristikk: bygger på (nedfelte) erfaringer og prinsipper. «tommerfingerregel»vurdering 27.10.15 Kognitiv gjennomgang • Kalles cognitive walkthrough på engelsk • Designet evalueres av eksperter (ofte i kognitiv psykologi) • Formålet er å undersøke hvor godt designet støtter brukeren i oppgaveløsning • Ekspertene følges gjennom designet steg for steg for å identifisere potensielle problemer (ved å f.eks. bruke psykologiske prinsipper) • Bruker ofte skjemaer til å guide analysen • For hvert steg: • Hvilken påvirkning vil interaksjonen ha? • Hvilke kognitive prosesser kreves fra brukeren? • Hvilke læringsproblemer kan oppstå? • Fokus i analysen på mål og kunnskap leder designet til de riktige målene? INF1500 – Evaluering 37 27.10.15 INF1500 – Evaluering 38 27.10.15 Ekspertevaluering • Eksempel på analytisk evaluering • En eller flere eksperter evaluerer en løsning og påpeker problemer og svakheter • Ekspertene setter seg inn i brukers rolle • Kan være både HCI-eksperter og domeneeksperter INF1500 – Evaluering 39 27.10.15 http://psipunk.com/wp-content/uploads/2009/11/nasas-sprlunar-rover-01.jpg Eksempler http://venturebeat.files.wordpress.com/2012/10/ipad-4-gen.jpg http://www.fonearena.com/blog/wpcontent/uploads/2009/01/india-mobile.jpg?9d7bd4 http://www.blogcdn.com/www.engadget.com/media/2006/11/mi t_indoor_uav.jpg • MIT: innendørstesting med UAV • HISP: mobiltelefoner i India • Apple: iPadens oppstandelse • JPL & NASA: simulering i 3D-programmer og kunstige omgivelser INF1500 – Evaluering 40 27.10.15 INF1500 – Evaluering 41 27.10.15 Hvilken type evaluering er egnet? • DNT prototyper en løsning for elektroniske kompass for turgåere • Studentgruppe som lager iPhone-app for oversikt over dagens rett i kantina • NASA-ansatte lager et nytt dusjsystem som skal utplasseres på ISS i verdensrommet • Mozilla ønsker å teste ut sin siste versjon av nettleseren Firefox • IT-selskap utvikler en ny touchskjerm for eldre mennesker som lider av demens • Medisinske forskere som har fremstilt medisiner som skal løse fremtidens kreftgåter • Undervisningsledelsen som jobber med å kartlegge digital eksamen • DnB vil ha tilbakemelding på hvordan deres eksisterende «mobilbank» fungerer INF1500 – Evaluering 42 27.10.15 Obligatorisk oppgave 3 • Obligatorisk oppgave 3 handler om å planlegge og gjennomføre en evaluering av designforslagene dere har laget i obligatorisk oppgave 2 • Dere skal sette opp en evalueringsplan ved hjelp av DECIDE-rammeverket (gjennomgås neste uke) • Dere velger selv omfanget på evalueringen, men den skal altså gjennomføres • Obligen er allerede lagt, og dere bør begynne på den med en gang! • Begynn å tenke på: • • Hvilke oppgaver vil du be deltagerne om å utføre? • Hvilke metrikker du vil bruke under evalueringen? • Hvordan du har tenkt å måle brukernes prestasjoner når de utfører oppgaver? • Skal prototypene evalueres opp mot hverandre eller evalueres isolert? • Hvilke egenskaper innehar deltagere du inkluderer i evalueringen? Formålet er å få trening i planlegging og gjennomføring av en evaluering omfanget på evalueringen er ikke så viktig! INF1500 – Evaluering 43 27.10.15
© Copyright 2024