Slik lager vi korpus

Slik lager vi korpus
Om det planlagte dialektkorpuset i LIA
Kristin Hagen og Joel Priestley,
Tekstlaboratoriet
LIA-seminar på Hurdalsjøen 26. oktober 2015
Kort om det planlagte korpuset
• Korpus etter mønster fra Nordisk dialektkorpus
– Nytt søkegrensesnitt: Nye Glossa
• Velegnet til all dialektforskning – og språkforskning
• Korpuset vil bli fritt tilgjengelig for forskning
• Korpuset vil inneholde
– Lydfiler med talemålsopptak fra NTNU, UiB, UiO og UiT med
tilhørende transkripsjonsfiler – talemålsnære og ortografiske
– Metadata om opptakene og informantene
• Nedlasting:
– Lydfiler med informanter født før 1925 kan lastes ned til
forskningsformål
– Alle transkripsjoner kan lastes ned til forskningsformål
Hvem jobber på LIA?
• http://tekstlab.uio.no/LIA/prosjekt.html
Kort om arbeidsflyt i LIA 1
• NTNU, UiB, UiO og UiT sender gamle opptak på
spolebånd og kassetter til Nasjonalbiblioteket i Mo i Rana
• NB digitaliserer opptakene og sender dem til UiO (og
beholder flere kopier selv for lagring).
• Ved UiO registrerer Live opptakene, hører på dem,
avgjør hvilke opptak som egner seg til transkripsjon og
fordeler dem til transkripsjon ved NTNU, UiB, UiO og UiT
• Metadata blir foreløpig bare lagret i den formen de
kommer. Mer om det senere …
• Vi bruker Box til utveksling av filer
Kort om arbeidsflyt i LIA 2
• Opptakene blir transkribert talemålsnært ved de fire
universitetene
• Transkripsjonene blir korrekturlest
• De talemålsnære transkripsjonene blir translitterert
halvautomatisk til nynorsk ortografi og rettes manuelt
• De ortografiske transkripsjonene blir korrekturlest
• Foreløpig har UiO – og spesielt Anneke - stått for translittereringen.
• Tor Erik skal lese korrektur.
•  Må starte med translitterering og korrekturlesing i større skala
snart!
Kort om arbeidsflyt i LIA 3
• Filene skal tagges av en statistisk ordklassetagger
• Status: Joel lager opplegg for å lage treningskorpus for
den statistiske taggeren (Treningskorpus = korpus med
korrekte ordklassetagger)
• Når treningskorpuset er stort nok, skal Joel lage taggeren
og begynne å tagge transkripsjonsfilene
• Til slutt: alt skal inn i nye Glossa!
Men hvordan lager
Tekstlaboratoriet korpus?
• Dette skal inn i korpuset (Nye Glossa):
–
–
–
–
–
Metadata
Lydfiler
Talemålsnær transkripsjon
Ortografisk transkripsjon
Tagger
Metadata Lydfiler Transkripsjon1 Transkripsjon2 Tagger Glossa
• Ulike data følger filene om informantene. De fleste har variabler som
– Kjønn
– Alder – Fødselsår – Aldersgruppe
– Bosted
• Informantdataene legges i en mysql-database (eller en annen type
database som Anders muligens bruker i Nye Glossa)
Metadata Lydfiler Transkripsjon1 Transkripsjon2 Tagger Glossa
• Lydfilene (wav) konverteres til et mer komprimert format
og legges på lydserveren vår
Metadata Lydfiler Transkripsjon1 Transkripsjon2 Tagger Glossa
• For norsk: Talemålsnær transkripsjon som i
hovedsak følger Papazian og Helleland: Norsk
talemål
– Unntak: Bare norske tegn, f.eks:
• L for tjukk l
• å for /o/, o for /u/ og u for /ū/
• sj for /ş/, kj for /ç/
• Se transkripsjonsveiledningen på hjemmesiden
http://tekstlab.uio.no/LIA/transkripsjon.html
Metadata Lydfiler Transkripsjon1 Transkripsjon2 Tagger Glossa
• Alle prosjekttranskripsjonene transkriberes i Elan
Metadata Lydfiler Transkripsjon1 Transkripsjon2 Tagger Glossa
Elan i transkripsjonsmodus
12
Metadata Lydfiler Transkripsjon1 Transkripsjon2 Tagger Glossa
Elan-fil som tekst
13
Metadata Lydfiler Transkripsjon1 Transkripsjon2 Tagger Glossa
•
Alle talemålsnære transkripsjoner skal
translittereres til standard nynorsk (2012) vha av
en halvautomatisk translitterator utviklet ved
Tekstlaboratoriet
• (Mer om translitteratoren i morgen)
• Egen veiledning for translitterering på
hjemmesiden
http://tekstlab.uio.no/LIA/transkripsjon.html
15
Metadata Lydfiler Transkripsjon1 Transkripsjon2 Tagger Glossa
Talemålsnær og ortografisk transkripsjon i hvert sitt lag annotasjonsmodus
16
Metadata Lydfiler Transkripsjon1 Transkripsjon2 Tagger Glossa
17
Metadata Lydfiler Transkripsjon1 Transkripsjon2 Tagger Glossa
18
Metadata Lydfiler Transkripsjon1 Transkripsjon2 Tagger Glossa
• En ny talemålstagger for nynorsk skal
utvikles i LIA
– Statistisk tagger (TreeTagger?)
– Trent på manuelt rettet output fra Oslo-Bergentaggeren for dialektmateriale fra LIA
– NoTa-taggeren for bokmål hadde 96,9 % korrekthet
målt ved 10-fold cross validation. Håper å lage en
som er like god!
Metadata Lydfiler Transkripsjon1 Transkripsjon2 Tagger Glossa
Tagget og oversatt fil fra Nordisk dialektkorpus
20
Metadata Lydfiler Transkripsjon1 Transkripsjon2 Tagger Glossa
Tagget og oversatt fil fra Nordisk dialektkorpus
<Sync time="458.64"/>
og_["og" konj] han_["han" pron_mask_ent_pers_hum_3_nom] e_["e"
interj_fyll] og_["og" konj] han_["han" pron_mask_ent_pers_hum_3_nom]
E3_["E3" subst_prop] #_["#" pause] han_["han"
pron_mask_ent_pers_hum_3_akk] var_["være" verb_pret] sånn_["sånn"
sånn] materialforvalter_["materialforvalter" subst_appell_mask_ub_fl]
der_["der" prep] og_["og" konj] #_["#" pause] han_["han"
pron_mask_ent_pers_hum_3_nom] sa_["si" verb_pret] det_["det"
det_dem_nøyt_ent] han_["han" pron_mask_ent_pers_hum_3_akk]
hadde_["ha" verb_pret] ført_["føre" verb_perf-part] det_["det"
pron_nøyt_ent_pers_3]
<Event desc="uklart" type="pronounce" extent="previous"/>
inn_["inn" prep] i_["i" prep] #_["#" pause] i_["i" prep] journalen_["journal"
subst_appell_mask_be_ent] ##_["##" pause] datoen_["dato"
subst_appell_mask_be_ent] da_["da" adv] når_["når" sbu] den_["den"
det_dem_mask_ent] første_["første" adj_be_ent_pos] Senjen_["Senjen"
subst_appell_mask_be_ent] #_["#" pause] forliste_["forlise"
subst_appell_mask_fem_ub_ent]
<Sync time="472.452"/>
21
Metadata Lydfiler Transkripsjon1 Transkripsjon2 Tagger Glossa
Sluttresultatet er en fil som er satt sammen av
originaltranskripsjonen og den oversatte, taggede
transkripsjonen. Her: eksempel fra Nordisk
dialektkorpus.
og_[”å” "og" konj] han_[”hann” "han"
pron_mask_ent_pers_hum_3_nom] e_[”ee” "e" interj_fyll] og_[”å”
"og" konj] han_[”hann” "han" pron_mask_ent_pers_hum_3_nom]
E3_[”E3” "E3" subst_prop] #_[”#” "#" pause] han_[”hann” "han"
pron_mask_ent_pers_hum_3_akk] var_[”va” "være" verb_pret]
sånn_[”sånn” "sånn" sånn] materialforvalter_[” matrialførrvalltar”
"materialforvalter" subst_appell_mask_ub_fl] der_[”dær” "der" prep]
Metadata Lydfiler Transkripsjon1 Transkripsjon2 Tagger Glossa
• Transkripsjon med morfologiske tagger legges
inn i en CQP-database (IMS Corpus Workbench
fra Universitetet i Stuttgart).
sub update{
my $self=shift;
my $att=shift;
my $val=shift;
$att=~tr/A-Z/a-z/;
$att=trim(56,$att);
$val=trim(57,$val);
if($blast){print STDERR "\$blast: $blast, \$att: $att, \$val:
$val\n";$blast = 0;}
if( $self->{$att} ){ return; }
push(@{$self->{ATTLIST}}, $att);
$self->{$att}=$val;
}
sub write{
my $self=shift;
my $name=$self->{_NODE};
my @children=$self->{CHILDREN};
my $head = "<".$name;
foreach my $key (@{$self->{ATTLIST}}){
my $value=$self->{$key};
#
print STDERR "in: ",$name," key-",$key," value",$value,"\n";
$head.=" ".$key."=\"".$value."\"";
}
Metadata Lydfiler Transkripsjon1 Transkripsjon2 Tagger Glossa
24
Metadata Lydfiler Transkripsjon1 Transkripsjon2 Tagger Glossa
• Nye Glossa utvikles ved Tekstlaboratoriet
• Anders sjefsutvikler