Duplikaattien havaitseminen ja poisto DataFlux välinein

Duplikaattien havaitseminen ja
poisto DataFlux välinein
SUGIF Technical Club 15.9.2011
Jarno Lindqvist
SAS Institute Oy
Copyright © 2010 SAS Institute Inc. All rights reserved.
Miten tiedonlaatu ja MDM liittyvät SASiin?
Source: TDWI Best Practice Report, Q4 20092
Copyright © 2010, SAS Institute Inc. All rights reserved.
Miksi DataFlux, eikös meillä jo ole NODUP?
SASin NODUP ja NODUPKEY (esim. PROC SORT) toimivat hyvin kun
poistetaan identtisiä ilmentymiä
Se toimii hyvin myös silloin kun halutaan säilyttää jollakin kriteerillä ensisijainen
ilmentymä (tässä suurin Score) kun järjestelemme aineiston kriteerin mukaisesti
Silloin vain ensimmäiseksi järjestelty arvo jää talteen ja muut
poistetaan
Copyright © 2010, SAS Institute Inc. All rights reserved.
3
Entä kun ilmentymät eivät olekaan identtisiä?
Perinteiset metodit kuten NODUP eivät tunnista ilmentymiä samaan
henkilöön liittyviksi, koska päälekkäisiä avaimia ei ole
-> Tarvitaan joustavampia metodeja, joilla ilmentymät pystytään
luokittelemaan samaan klusteriin kuuluviksi
Copyright © 2010, SAS Institute Inc. All rights reserved.
4
Mikä DataFlux?
DataFlux on perustettu 1997 Pohjois-Carolinassa
SASin tytäryhtiö vuodesta 2000
Yli 2400 asiakasta globaalisti
DataFlux tarjoaa ratkaisuja tiedonlaadun, data-integraation
ja perustietojen hallinnan (MDM) alueille
DataFlux Data Management Studio & Server
qMDM Master Data Management
5
5
Copyright © 2010, SAS Institute Inc. All rights reserved.
Tiedonlaadun kehittämisen vaiheet
Metadatan analysointi
Ymmärrys siitä, mitä dataa on käytettävissä
Datan profilointi
Käsitys datan nykytilanteesta; eheydestä ja rakenteesta
Datan laatu
Korjaustoimenpiteet datan standardisoimiseksi
Datan integrointi
Datan yhdistely, muokkaus ja keskittäminen
Monitorointi
Tavoitellun laatutason ylläpito jatkuvan seurannan avulla
Rikastaminen
Datan täydentäminen ulkoisista lähteistä (esim. paikkatiedon avulla)
Parhaan ilmentymän valinta
Duplikaattien poisto ja ilmentymien yhdistäminen
6
Copyright © 2010, SAS Institute Inc. All rights reserved.
Mitä on parhaan ilmentymän tunnistus ja
valinta?
Ilmentymien tunnistaminen eri tietolähteissä sijaitsevasta datasta
Sumean logiikan menetelmien hyödyntäminen klustereiden
muodostamisessa match-koodien vertailun avulla
Valintasääntöjen luominen, joiden mukaiset ilmentymät
nostetaan klusterin muiden ilmentymien ohitse
Parhaan ilmentymän valitseminen usean ilmentymän klusterista
Jatkotoimet, eli poistuvien ilmentymien merkintä ja mahdollinen
parhaan ilmentymän täydentäminen poistuvien ilmentymien
tiedoilla
7
Copyright © 2010, SAS Institute Inc. All rights reserved.
DataFlux käyttää match-koodien vertaillessaan
näennäisesti päällekkäistä dataa keskenään
Järjestelmä
Järjestelmä
Järjestelmä
A
B
C
Field
Järjestelmä
A
Loan
Järjestelmä
B
Current Acc
Järjestelmä
Mortgage C
Nimi
Name
Aku
Ankka
Robert
Smith
A.Bob
Ankka
Smith
Aku
Rankka
Rob
Smith
Osoite
Address
Paratiisitie
14 Church 13
Street
Paratiisit.
13 St.
14 Church
Kaupunki
City
Match-koodi
Ankkalinna
Swindon
GHWS$$EWT$
Paratiisikatu
13
Fourteen Church
Street
Ankkalinna
Value
25000
Swindon
GHWS$$EWT$
2452.45
Ankkalinnoitus
Swansea
GHWS$$WWT$
94000
8
Copyright © 2010, SAS Institute Inc. All rights reserved.
Match-koodien luonti Data Management Studiossa
9
Copyright © 2010, SAS Institute Inc. All rights reserved.
Saman talouden asukkaiden klusterointi matchkoodituksen avulla
Etunimi
Sukunimi
Katuosoite
Puhelin
MC1
MC2
MC3
Klusteri
(Sukunimi (Katuosoite (Sukunimi ID
ja
ja puhelin) ja puhelin)
katuosoite)
Tupu
Ankka
Paratiisitie 13
832-8239 $SV
#V8
%A8
1
Hupu
Ankka
Paratiisitie 13
832-8239 $SV
#V8
%S8
1
Lupu
Ankka
Paratiisitie 13
616-1504 $SV
#V6
%S6
1
Mikki
Hiiri
Julle Ankan polku 6
688-2826 $GH
#H3
%G6
2
Mortti
Hiiri
Julle Ankan polku 6
688-2857 $GH
#H6
%R6
2
Vertti
Hiiri
Julle Ankan polku 6
688-2851 $GH
#H1
%B6
2
10
Copyright © 2010, SAS Institute Inc. All rights reserved.
Duplikaattien poistaminen
Valintasäännöt tässä
Muita valintasääntöesimerkkejä
Contact = useimmin toistuva ilmentymä
ID = suurin arvo (viimeksi päivitetty?)
Pisin ilmentymä
Viimeksi päivitetty ilmentymä
Ulkoisesta lähteestä validoitu arvo
Tietyn patternin omaava arvo (99999)
11
Copyright © 2010, SAS Institute Inc. All rights reserved.
Luodaan “Paras ilmentymä”
Täydennetään parasta ilmentymää valintasääntöjen
mukaan
Valintasäännöt tässä
When Phone is Not Null, Select Phone
When State is Shortest Value, Select City and State
12
Copyright © 2010, SAS Institute Inc. All rights reserved.
Match-koodit, standardointi, klusterointi ja parhaan
ilmentymän valinta Data Management Studiossa
Vaihe 1: Lähdedatan määrittely
Vaihe 2: Match-koodien luonti nimille
Vaihe 3: Match-koodien luonti muille kentille
Vaihe 4: Standardoidaan työpuhelinnumerot yleiseen muotoon
Vaihe 5: Klusteroidaan ilmentymät vertaamalla match-koodeja
Vaihe 6: Parhaan ilmentymän valinta klustereittain
Vaihe 7: Avataan ilmentymien vertailuikkuna tarkastelua varten
13
Copyright © 2010, SAS Institute Inc. All rights reserved.
Copyright © 2010 SAS Institute Inc. All rights reserved.