Sykehuspartner - Regionalt Driftssenter

Tjenesteovervåkning på 1-2-3
Regionalt Driftssenter, Sykehuspartner
Proaktiv døgnbemannet overvåking hos Sykehuspartner
Regionalt Driftssenter hos Sykehuspartner HF bistår til å sikre
stabile leveranser av IKT-tjenester i Helse Sør-Øst.
1. Om Sykehuspartner
2. Regionalt Driftssenter
3. Hvordan vi bygger og drifter overvåking og måling
4. Nytteverdi og muligheter
5. Oppsummering
03.03.2015
2
Om Sykehuspartner
03.03.2015
3
-Hvem er vi?
Sykehuspartner er et
helseforetak i Helse Sør-Øst
Visste du at…
… 44.450 mennesker er på
jobb i Helse Sør-Øst i løpet
av ett døgn.
Vårt samfunnsoppdrag
Vi skal understøtte pasientbehandling
på en trygg og effektiv måte
Litt om oss
Felles tjenesteleverandør av
ikke-medisinske støttetjenester
til helseforetakene i Helse SørØst
Over 1300 ansatte fordelt på
hovedkontor i Drammen og
avdelingskontorer i Oslo, Grimstad,
Fredrikstad, Porsgrunn, Innlandet og
ulike helseforetak
Vi leverer samordnede
løsninger innen IKT, HR,
brukerservice og
innkjøp/logistikk
Våre kunder er helseforetakene i Helse Sør-Øst
Sykehuspartner IKT er Nordens
største felles tjenesteleverandør
innen helse
Nordens største tjenesteleverandør innen
IKT med 80.000 brukere
Drifter og forvalter 3.500 applikasjoner
fordelt på 50.000 arbeidsstasjoner
Ansvarlig for drift og forvaltning,
tjenesteutvikling, teknisk arkitektur og
informasjonssikkerhet
Vårt beredskaps- og overvåkingssenter
følger med på kritiske systemer og
avdekker feil før de blir kritiske hendelser
Visste du at…
13.100 pasienter behandles i løpet av
ett døgn i Helse Sør-Øst
Regionalt Driftssenter
03.03.2015
9
Bortfall av IKT har store konsekvenser for
pasientbehandlingen
Vi må være forberedt på det utenkelige
Det handler ikke om noe skjer, men når og hvordan vi har forberedt oss.
Ekstremvær Dagmar, julen 2011
AHUS datagulv brøt sammen, juni 2012
Mobilnettet nede, juni 2011
22. juli 2011
Viktige begreper å kjenne til
Overvåking
Tjenestetre
Repeterte observasjoner av en
konfigurasjonsenhet, IT-tjeneste eller en
prosess for å avdekke brutte
terskelverdier, fange opp events og sørge
for at status er kjent.
Beskriver relaterte konfigurasjonsenheter
(servere, databaser, integrasjoner, lagring,
applikasjoner, med mer) som leverer en ITtjeneste eller en merkbar del av en ITtjeneste.
Event
Måling av tjenestekvalitet
En automatisk varslet hendelse som har
betydning for håndtering av en
konfigurasjonsenhet eller en IT-tjeneste.
Betegnelsen kan også tolkes som en
alarm eller varsel fra en IT-tjeneste,
konfigurasjonsenhet eller et
overvåkningsverktøy. Ofte medfører en
event at det registreres en incident som
må håndteres.
Datagrunnlaget fra overvåkingen benyttes til
å måle og fremvise informasjon om
tjenestekvaliteten som for eksempel
tilgjengelighet, kapasitet, ytelse, med mer.
Regionalt Driftssenter - visjon og formål
Regionalt Driftssenter
- en forutsetning for sikker og stabil drift
Overvåke IT-tjenester og
infrastruktur, måle
tjenestekvalitet, og varsle
ved kritiske hendelser
Bistå til at
færre feil oppstår,
yte god feilhåndtering,
og måle og informere
om tjenestekvalitet
Hvordan vi bygger og utvikler
03.03.2015
15
Livssyklus for overvåking og måling
Bygging av overvåking, måling og rutiner skjer i samarbeid med ansvarlige (prosjekter,
tjenesteansvarlige, fagansvarlige).
I driftsfasen overvåkes og måles IT-tjenestene for å unngå feil og bedre håndtere oppståtte feil.
Forbedring og avstemming skjer fortløpende for å sikre riktig kvalitet basert på de ansvarliges behov.
Bygge
Drifte
Utfase
Måle
Fase ut
måling og
overvåking
Administrere og koordinere
Bygge
måling
Rådgi, tilby
og bestille
Motta
tjenestetre
og initiere
bygging
Bygge
overvåking
Bygge
rutiner
Overlevere
og sette i
produksjon
Overvåke
Arbeidsflyt for å bygge overvåking, måling og
rutiner og resulterende leveranser
Arbeidsflyt
Avklare
behov og
initiere
bygging
Informere
og bestille
Bygge
overvåking,
måling og
rutiner
Sette i
produksjon
Resultat
1-lags overvåking
IT-tjeneste
IT-tjeneste i henhold til
tjenestekatalogen som
Sykehuspartner leverer
til HFene.
2-lags overvåking
4-lags overvåking
IT-tjeneste
IT-tjeneste
Applikasjon
Applikasjoner, moduler,
med mer.
Programvare
Filsystem, prosesser,
databaser, med mer.
Filsystem
Infrastruktur
Servere (CPU, RAM,
HD), datarom, nettverk
og andre enheter.
Server
Servere
Prosess
Databaser
Servere
Bygget, tilpasset og testet overvåking i
henhold til bestillers behov.
Bygget måling som fremskaffer relevant
beslutninginfo om tjenestekvalitet.
Sikret at rutiner og arbeidsflyt
tilfredsstiller behov.
Tre varianter tilbys for overvåking & måling
avhengig av tjenestens kritikalitet
Bygge overvåking & måling og rutiner
Basis overvåking
med enkel måling
Full overvåking
med sentral måling
Full overvåking
med lokal måling
• Overvåking med knytning
mellom servere og tjeneste
• Rutine for håndtering av
alarmer
• Gir enkel oversikt på
tjenestetilgjengelighet
• Målested: Datasenteret
• Overvåking med knytning
mellom infrastruktur, systemer,
applikasjoner og tjenester
• Rutine for håndtering av alarmer
• Måler systemmessig
tilgjengelighet og responstider
• Simulerer brukeraktiviteter
• Målested: Datasenteret
• Overvåking med knytning mellom
infrastruktur, systemer,
applikasjoner og tjenester
• Rutine for håndtering av alarmer
• Måler brukeropplevd
tilgjengelighet og responstider
• Simulerer brukeraktiviteter
• Muliggjør detaljerte analyser for
å identifisere forbedringstiltak
• Målested: Utvalgte lokasjoner
Tjenestens
kritikalitet
Meget kritisk
Anbefalt
Kritisk
Mindre kritisk
Anbefalt
Anbefalt
Tjenesteovervåking fanger opp eventer fra
tjenesteinfrastruktur, måling og meldingsflyt
Overvåke tjenesteinfrastrukturen
Overvåker komponenter i IT-tjenesten slik at eventer
(alarmer og varsler) fanges opp, vurderes og løses som
incident basert på definerte terskelverdier og fagområde.
Nytte: Unngå brukeropplevde feil, oppdage feil og gi
raskere feilretting.
IT-tjeneste
Applikasjoner
Komponenter
Måle og overvåke tjenestekvaliteten
Overvåker tjenestekvalitet (oppetid, responstid) slik at
brudd på definert tjenestekvalitet genererer eventer som
håndteres. Gir også status og trend på tjenestekvaliteten.
Nytte: Oppdage brukeropplevde feil og gi raskere
feilretting. Status, trend og grunnlag for forbedring i
tjenestekvalitet (oppetid og ytelse).
Helseforetak
Regional Integrasjonsplattform
NHN
Labsvar
Labsvar
Applikasjonskvittering
Kanonisk
modell
Logging
MTM
Partner
oppslag
Mapping
til mottager
Kryptering
Signering
Pakking
ebXML
Korrelering
OK!
Labsystem
Mapping
til mottager
Partner
oppslag
Logging
MTM
Kanonisk
modell
Dekrypter
Sjekk
signatur
Applikasjonskvittering
Overvåke meldingsflyten
Overvåker utvalgte punkter langs meldingsflyten slik at avvik
genererer eventer (alarmer og varsler) som fanges opp,
vurderes og løses som incident basert på definerte
terskelverdier og fagområde.
Nytte: Oppdage feil og gi raskere feilretting
Overvåking utføres på lagene i IT-tjenestestrukturen
for å unngå feil og bistå til god feilhåndtering
- Lagdelt overvåkingsstruktur for en IT-tjeneste -
Tjenestekvalitetsmåling
(transaksjoner, ytelse, tilgjengelighet, …)
Tjeneste
(tjeneste i tjenestekatalogen)
Applikasjonsovervåking
(integrasjoner, log filer, køer, ...)
Systemovervåking
(databaser, filsystem, prosesser, …)
Fungerer IT-tjenesten slik at
ansatte får utført arbeidet sitt?
Hvilken IT-tjeneste påvirkes
og hva er konsekvensen?
Er informasjonen tilgjengelig?
Fungerer systemet og delene i
programvaren?
Infrastruktur
(servere, arbeidsflate, komponenter,
tekniske tjenester, …)
Nettverk
(rutere, svitsjer, samband, …)
Datarom
(strøm, kjøling)
Virker de fysiske komponentene?
Har de god nok kapasitet og
ytelse?
HP Business Service Manager samler events fra
underliggende overvåkingsløsninger
HP Business
Service Manager
Events
HP Network Node
Manager i (NNMi)
• Nettverkskomponenter
• Samband
• Lastbalanserere
• Med mer…
Microsoft System
Center Operation
Manager (SCOM)
• Windows servere
• Windows
applikasjoner
• MSSQL databaser
• Citrix
• Med mer…
HP Operation
Manager for
Windows (OMW)
• Linux servere og apps
• UNIX servere og apps
• Databaser (DBWatch)
• VMware
• Maskinvare
• Lagring
• Med mer…
HP Sitescope
• Agentløs
monitorering (NT,
Windows 2000,
Novell, etc.)
• Applikasjonsovervåking
• Med mer…
HP Business
Process Monitor
(BPM)
• Brukersimulert
overvåking
• Ytelsesovervåkning
• Tilgjengelighetsoverv
åking
• Med mer…
Måling av tjenestekvalitet gir informasjon om
tjenesten fungerer med riktig tjenestekvalitet
Helseforetak / lokasjon Datasenter
Type måling
Oppetidsmåling
Overvåker og måler om IT-tjenesten er tilgjengelig i
datasenteret og viser oppetid.
Datasentermåling
Inkluderer oppetidsmåling.
Overvåker og viser oppetid og respons til ITtjenesten i datasenteret gjennom å emulere
brukeraktiviteter.
Brukermåling
Inkluderer oppetidsmåling og datasentermåling.
Overvåker og viser brukeropplevd oppetid og
respons til IT-tjenesten, sett fra både datasenteret
og fra utvalgte lokasjoner, gjennom å emulere
brukeraktiviteter.
MålePC (probe for innsamling av måledata)
Målepunkt i IT-tjenesten
IT-tjeneste med kritikalitetsnivå
som bestemt av helseforetaket
Måling av tjenestekvalitet utfyller og kvalitetssikrer
overvåkingen, og gir informasjon til ansvarlige
Gruppert status på Events
Viser tilgjengelighet i måleperioden
Tilgjengelighet og ytelse
Tjenestekvalitet
Drilldown til -> Application Health – for samme tidsvindu som viser de tre separate transaksjonene
Overvåking av integrasjonstjeneste betyr at
meldingskøen overvåkes, men bare som inn/ut
sjekkpunkt og ikke ende-til-ende
IT-tjeneste A sender meldinger til IT-tjeneste B via kø 1,
og mottar kvitteringer via kø 2.
Overvåking av tjenesteinfrastruktur til en
integrasjonstjeneste betyr at
meldingskøen overvåkes, slik at eventer
genereres hvis en melding som kommer
inn ikke sendes videre.
Denne overvåkingen har ingen
informasjon om meldingen kommer helt
frem, eller stanser før køen.
Overvåking av oppstart og mottak av
melding kan overvåkes hvis IT-tjenesten
støtter slik mulighet.
Nytteverdi og muligheter
03.03.2015
25
Prosessene Event, Interaction og Incident bistår
sammen til å oppdage og korrigere feil, slik at
tjenestenivå og produksjonsevne gjenopprettes
Verdikjeden: Oppdage, korrigere og analysere feil
Brukere
Henvendelse når
bruker opplever avvik
Interaction
Management
Avvik oppstår
IT-tjenester
Event når overvåking
oppdager avvik
Event
Management
Gjenopprettet
avtalt tjenestenivå
Incident
Incident
Incident
Management
Brukere
Incident løst
Gjenopprettet
produksjonsevne
IT-tjenester
• Henvendelser fra brukere, og eventer fra komponenter i IT-tjenester, medfører at
incidenter opprettes ved avvik.
• Incidentene løses slik at tjenestenivå og produksjonsnivå blir gjenopprettet for
brukere og IT-tjenester.
• Overvåking og måling bistår dermed til at avvik oppdages raskere og nøyaktig slik
at brukeropplevde feil varer kortere eller unngås.
Hvordan overvåking og måling kan bistå til at
brukeropplevde feil unngås, samt raskere feilretting
Verdikjeden: Oppdage, korrigere og analysere feil
Henvendelse når
bruker opplever avvik
Brukere
Interaction
Management
Avvik oppstår
IT-tjenester
Event når overvåking
oppdager avvik
Uten
overvåking og Feil oppstår
måling
Event
Management
Gjenopprettet
avtalt tjenestenivå
Incident
Incident
Incident
Management
Bruker melder feil Feilretting starter
Brukere
Incident løst
Gjenopprettet
produksjonsevne
IT-tjenester
Feil løst
Brukere varsles
Med basis
overvåking og Feil oppstår
oppetidsmåling
Feil oppdages
Bruker melder feil
Feil løst
• Faktabasert måling av varighet på nedetid
Brukere varsles
Feilretting starter
Med full
overvåking og Feil oppstår
brukermåling
Bruker melder feil
Feil oppdages Brukere varsles
Feilretting starter
Feil løst
• Detaljert oversikt over feilsituasjon som grunnlag for forbedringsanalyser
• Faktabasert måling av varighet på nedetid og ytelse
Takk for
oppmerksomheten!