Slik lager vi korpus Om det planlagte dialektkorpuset i LIA Kristin Hagen og Joel Priestley, Tekstlaboratoriet LIA-seminar på Hurdalsjøen 26. oktober 2015 Kort om det planlagte korpuset • Korpus etter mønster fra Nordisk dialektkorpus – Nytt søkegrensesnitt: Nye Glossa • Velegnet til all dialektforskning – og språkforskning • Korpuset vil bli fritt tilgjengelig for forskning • Korpuset vil inneholde – Lydfiler med talemålsopptak fra NTNU, UiB, UiO og UiT med tilhørende transkripsjonsfiler – talemålsnære og ortografiske – Metadata om opptakene og informantene • Nedlasting: – Lydfiler med informanter født før 1925 kan lastes ned til forskningsformål – Alle transkripsjoner kan lastes ned til forskningsformål Hvem jobber på LIA? • http://tekstlab.uio.no/LIA/prosjekt.html Kort om arbeidsflyt i LIA 1 • NTNU, UiB, UiO og UiT sender gamle opptak på spolebånd og kassetter til Nasjonalbiblioteket i Mo i Rana • NB digitaliserer opptakene og sender dem til UiO (og beholder flere kopier selv for lagring). • Ved UiO registrerer Live opptakene, hører på dem, avgjør hvilke opptak som egner seg til transkripsjon og fordeler dem til transkripsjon ved NTNU, UiB, UiO og UiT • Metadata blir foreløpig bare lagret i den formen de kommer. Mer om det senere … • Vi bruker Box til utveksling av filer Kort om arbeidsflyt i LIA 2 • Opptakene blir transkribert talemålsnært ved de fire universitetene • Transkripsjonene blir korrekturlest • De talemålsnære transkripsjonene blir translitterert halvautomatisk til nynorsk ortografi og rettes manuelt • De ortografiske transkripsjonene blir korrekturlest • Foreløpig har UiO – og spesielt Anneke - stått for translittereringen. • Tor Erik skal lese korrektur. • Må starte med translitterering og korrekturlesing i større skala snart! Kort om arbeidsflyt i LIA 3 • Filene skal tagges av en statistisk ordklassetagger • Status: Joel lager opplegg for å lage treningskorpus for den statistiske taggeren (Treningskorpus = korpus med korrekte ordklassetagger) • Når treningskorpuset er stort nok, skal Joel lage taggeren og begynne å tagge transkripsjonsfilene • Til slutt: alt skal inn i nye Glossa! Men hvordan lager Tekstlaboratoriet korpus? • Dette skal inn i korpuset (Nye Glossa): – – – – – Metadata Lydfiler Talemålsnær transkripsjon Ortografisk transkripsjon Tagger Metadata Lydfiler Transkripsjon1 Transkripsjon2 Tagger Glossa • Ulike data følger filene om informantene. De fleste har variabler som – Kjønn – Alder – Fødselsår – Aldersgruppe – Bosted • Informantdataene legges i en mysql-database (eller en annen type database som Anders muligens bruker i Nye Glossa) Metadata Lydfiler Transkripsjon1 Transkripsjon2 Tagger Glossa • Lydfilene (wav) konverteres til et mer komprimert format og legges på lydserveren vår Metadata Lydfiler Transkripsjon1 Transkripsjon2 Tagger Glossa • For norsk: Talemålsnær transkripsjon som i hovedsak følger Papazian og Helleland: Norsk talemål – Unntak: Bare norske tegn, f.eks: • L for tjukk l • å for /o/, o for /u/ og u for /ū/ • sj for /ş/, kj for /ç/ • Se transkripsjonsveiledningen på hjemmesiden http://tekstlab.uio.no/LIA/transkripsjon.html Metadata Lydfiler Transkripsjon1 Transkripsjon2 Tagger Glossa • Alle prosjekttranskripsjonene transkriberes i Elan Metadata Lydfiler Transkripsjon1 Transkripsjon2 Tagger Glossa Elan i transkripsjonsmodus 12 Metadata Lydfiler Transkripsjon1 Transkripsjon2 Tagger Glossa Elan-fil som tekst 13 Metadata Lydfiler Transkripsjon1 Transkripsjon2 Tagger Glossa • Alle talemålsnære transkripsjoner skal translittereres til standard nynorsk (2012) vha av en halvautomatisk translitterator utviklet ved Tekstlaboratoriet • (Mer om translitteratoren i morgen) • Egen veiledning for translitterering på hjemmesiden http://tekstlab.uio.no/LIA/transkripsjon.html 15 Metadata Lydfiler Transkripsjon1 Transkripsjon2 Tagger Glossa Talemålsnær og ortografisk transkripsjon i hvert sitt lag annotasjonsmodus 16 Metadata Lydfiler Transkripsjon1 Transkripsjon2 Tagger Glossa 17 Metadata Lydfiler Transkripsjon1 Transkripsjon2 Tagger Glossa 18 Metadata Lydfiler Transkripsjon1 Transkripsjon2 Tagger Glossa • En ny talemålstagger for nynorsk skal utvikles i LIA – Statistisk tagger (TreeTagger?) – Trent på manuelt rettet output fra Oslo-Bergentaggeren for dialektmateriale fra LIA – NoTa-taggeren for bokmål hadde 96,9 % korrekthet målt ved 10-fold cross validation. Håper å lage en som er like god! Metadata Lydfiler Transkripsjon1 Transkripsjon2 Tagger Glossa Tagget og oversatt fil fra Nordisk dialektkorpus 20 Metadata Lydfiler Transkripsjon1 Transkripsjon2 Tagger Glossa Tagget og oversatt fil fra Nordisk dialektkorpus <Sync time="458.64"/> og_["og" konj] han_["han" pron_mask_ent_pers_hum_3_nom] e_["e" interj_fyll] og_["og" konj] han_["han" pron_mask_ent_pers_hum_3_nom] E3_["E3" subst_prop] #_["#" pause] han_["han" pron_mask_ent_pers_hum_3_akk] var_["være" verb_pret] sånn_["sånn" sånn] materialforvalter_["materialforvalter" subst_appell_mask_ub_fl] der_["der" prep] og_["og" konj] #_["#" pause] han_["han" pron_mask_ent_pers_hum_3_nom] sa_["si" verb_pret] det_["det" det_dem_nøyt_ent] han_["han" pron_mask_ent_pers_hum_3_akk] hadde_["ha" verb_pret] ført_["føre" verb_perf-part] det_["det" pron_nøyt_ent_pers_3] <Event desc="uklart" type="pronounce" extent="previous"/> inn_["inn" prep] i_["i" prep] #_["#" pause] i_["i" prep] journalen_["journal" subst_appell_mask_be_ent] ##_["##" pause] datoen_["dato" subst_appell_mask_be_ent] da_["da" adv] når_["når" sbu] den_["den" det_dem_mask_ent] første_["første" adj_be_ent_pos] Senjen_["Senjen" subst_appell_mask_be_ent] #_["#" pause] forliste_["forlise" subst_appell_mask_fem_ub_ent] <Sync time="472.452"/> 21 Metadata Lydfiler Transkripsjon1 Transkripsjon2 Tagger Glossa Sluttresultatet er en fil som er satt sammen av originaltranskripsjonen og den oversatte, taggede transkripsjonen. Her: eksempel fra Nordisk dialektkorpus. og_[”å” "og" konj] han_[”hann” "han" pron_mask_ent_pers_hum_3_nom] e_[”ee” "e" interj_fyll] og_[”å” "og" konj] han_[”hann” "han" pron_mask_ent_pers_hum_3_nom] E3_[”E3” "E3" subst_prop] #_[”#” "#" pause] han_[”hann” "han" pron_mask_ent_pers_hum_3_akk] var_[”va” "være" verb_pret] sånn_[”sånn” "sånn" sånn] materialforvalter_[” matrialførrvalltar” "materialforvalter" subst_appell_mask_ub_fl] der_[”dær” "der" prep] Metadata Lydfiler Transkripsjon1 Transkripsjon2 Tagger Glossa • Transkripsjon med morfologiske tagger legges inn i en CQP-database (IMS Corpus Workbench fra Universitetet i Stuttgart). sub update{ my $self=shift; my $att=shift; my $val=shift; $att=~tr/A-Z/a-z/; $att=trim(56,$att); $val=trim(57,$val); if($blast){print STDERR "\$blast: $blast, \$att: $att, \$val: $val\n";$blast = 0;} if( $self->{$att} ){ return; } push(@{$self->{ATTLIST}}, $att); $self->{$att}=$val; } sub write{ my $self=shift; my $name=$self->{_NODE}; my @children=$self->{CHILDREN}; my $head = "<".$name; foreach my $key (@{$self->{ATTLIST}}){ my $value=$self->{$key}; # print STDERR "in: ",$name," key-",$key," value",$value,"\n"; $head.=" ".$key."=\"".$value."\""; } Metadata Lydfiler Transkripsjon1 Transkripsjon2 Tagger Glossa 24 Metadata Lydfiler Transkripsjon1 Transkripsjon2 Tagger Glossa • Nye Glossa utvikles ved Tekstlaboratoriet • Anders sjefsutvikler
© Copyright 2024