Differentialligninger og reaktionshastigheder

Evaluering af dansk ordliste
med henblik på anvendelse i talesyntese
NoTa, 6-10-2010
Peter Juel Henrichsen, [email protected]
- FORTROLIGT MATERIALE -
Indhold
1. Introduktion
2. Filpakkens indhold
3. Databasens omfang og formater
4. Ortografiske former (felt 1)
5. Ordklasseinformation (felt 2)
6. Ordsammensætning (felt 4)
7. Lydskrivning (felt 12)
8. Øvrige datafelter
9. Samlet vurdering og anbefalinger
10. Appendikser
•
Appendiks 1. PoS-definition og PoS-distribution i FOL
•
Appendiks 2. Alternative fonetiske former
•
Appendiks 3. Foninventar i FOL-lydskrift
1. Introduktion
Denne rapport beskriver den danske fuldformsordliste dan030224NST.pron, samt de medfølgende
dokumentations- og analysefiler i pakken Udtaleleksikon.zip (modtaget fra NoTa 6-9-2010).
Beskrivelsen følges op med en samlet vurdering af materialets egnethed som leksikalsk database for
en dansk syntesestemme bygget på unit-selection-princippet, samt en liste over anbefalede
revisioner. Formålet med rapporten er at forbedre beslutningsgrundlaget for NoTa's
talesynteseansvarlige mhp. indkøb af leksikalske ressourcer.
For nemheds skyld bruger vi betegnelse FOL for fuldformsordlisten dan030224NST.pron.
Rapportens indledende afsnit analyserer de forskellige relevante aspekter af FOL: den leksikalske
dækning, informationstypernes relevans, annotationens kvalitet, samt den medfølgende
dokumentation.
Rapportens sidste afsnit, "Samlet vurdering og anbefalinger", kan læses uafhængigt af
resten. Den slutter med en liste over anbefalede aktiviteter, med skønnet tidsforbrug.
2. Filpakkens indhold
Herunder er vist de enkelte filer i filpakken /Udtaleleksikon.zip (hentet fra ). Filnavne er i fed font.
Datering er i kursiv ("-dato" betyder: ingen datering). Filer der ingen relevans har for FOL, er
udeladt. De mest relevante filer bliver omtalt nærmere i det følgende.
Leksikon/dan030224NST.pron/
/dan030224NST.pron
[FOL (Fuldformsordlisten)]
/inspect_lex.pl
[script: tjekker FOL's format]
/dan030224NST.pron_inspect.OUT
[fejlrapport1 fra /inspect_lex.pl]
Transkriptionskonventioner/DA_trans_conv/
/DA_SAMPA_transkonv..doc
[Transkriptionsregler, 24-7-2001]
Transkriptionskonventioner/DA_trans_conv/1.Phonetic_Tables/da/
/danish_nuance2ibm.doc
[Fontabel for IBM/Nuance, -dato]
/danish_sampa2ibm.old.doc
[Fontabel for TTS/PS, -dato]
/PhonTable_danish_ipa_sampa_ibm_v1.1.doc
[Fontabel for NST-IBM, 5-10-2010]
/PhonTable_danish_ipa_sampa_ibm_v1.2.doc
[Fontabel for NST-IBM, 5-10-2010]
/PhonTable_danish_ipa_sampa_ibm_v1.3.doc
[Fontabel for NST-IBM, 5-10-2010]
Transkriptionskonventioner/DA_trans_conv/1.Phonetic_Tables/Theory/
/new_phoneme_sets_SVDANO_v1.1.doc
[Fontabel for NST, 22-5-2001]
/new_phoneme_sets_SVDANO_v1.2.doc
[Fontabel for NST, 12-11-2001]
/cp5.doc
[Notat ang. symbolkonflikt, -dato]
Det bemærkes at FOL er lydskrevet i overensstemmelse med manualen Transskriptionskonventioner
(filen /DA_SAMPA_transkonv..doc). Ingen af de øvrige fontabeller har direkte relevans for FOL.
Analysen af FOL bygger på dokumentationen i filpakken Udtaleleksikon.zip, samt de noter som kunne
downloades fra http://www.spraakbanken.uib.no/ressurser/nokkeltall_dansk.page
1 Logfilen rummer 5016 advarsler ("WARNING") og 144 fejlmeddelelser ("ERROR").
3. Databasens omfang og formater
FOL har 237.877 indgange. Hver indgang svarer til én leksikalsk fuldform (former som 'spørge' og
'spurgt', 'barn' og 'børn', 'lille' og 'mindre' og 'mindst' er dermed ikke associeret i FOL, skønt de
tilhører samme lemma).
En indgang i FOL svarer til én linje i filen /dan030224NST.pron og består af et antal
semikolon-adskilte datafelter. Et eksempel:
jeg;PN;;jeg;;LEX;DAN;;;0;;"jAj;1;STD;DAN;;;;;;;;;;;;;;28;ref.dic;;;;;;;;;;;;;;;;;;jeg;;[1,2,3,4,5,];9795
Eksemplet har 51 datafelter (langt de fleste tomme). De fleste FOL-indgange er af denne type med
51 felter, og de få indgange som afviger, er efter alt at dømme fejlformatterede2.
Feltbredde
Antal indgange
Kommentar
51
237.869
-
48
4
Leksemerne "chik", "debut­album",
"elektrochok", "kernekraftværker"
(formatfejl?)
4
4
Eksempel: ";;[1,2,3,4,5,];49518"
(formatfejl?)
Tabel 1. Datafeltbredde i FOLs leksikalske indgange
FOLs indgange er alfabetiseret efter ortografisk form:
spørg;VB;;spørg
spørge;VB;;spørge
spørgebisætning;NN;;spørge+bisætning
spørgejørgen;NN;;spørgejørgen
spørgekasse;NN;;spørge+kasse
spørgelyst;NN;;spørge+lyst
spørgelysten;JJ;;spørge+lysten
spørgelysten;NN;;spørge+lysten
spørgelystne;JJ;;spørge+lystne
spørgemelding;NN;;spørge+melding
spørgen;NN;;spørgen
spørgende;JJ;;spørgende
spørgende;VB;;spørgende
spørger;VB;;spørger
Eksempler på FOL-indgange (første fire datafelter)
Derfor vil de forskellige bøjningsformer i et lemma kunne forekomme langt fra hinanden. Fx er
verbet at spørge repræsenteret i FOL ved bøjningsformerne 'spurgt', 'spurgte', 'spørg', 'spørge',
'spørgende', 'spørger', 'spørges', hvoraf den første forekommer i lin. 200.804, den sidste i lin.
201.104. Dvs. lemmaet som helhed spænder over 300 linjer. Da der kun gives rudimentære PoSoplysninger (kun hovedordklasse, i dette tilfælde VB), er der ingen mulighed for automatisk at samle
et lemmas former.
Langt de fleste af de 51 datafelter er uudnyttede i FOL, dvs. altid tomme eller med
2Disse (formentlige) fejl er ikke opdaget eller kommenteret af scriptet /inspect_lex.pl, hvorfor dette scripts
anvendelighed som fejlkontrol betvivles.
information uden lingvistisk relevans. Den medfølgende dokumentation giver ingen specifikation af
datafelterne. Der er dog ikke tvivl om at felt 1, 2, 4 og 12 rummer de mest centrale (og i praksis
eneste anvendelige) leksikalske oplysninger.
Felt
Datatype
Eksempler
felt 1
ortografi (ordform)
'jeg', 'spørge', 'spørgelysten'
felt 2
hovedordklasse
'VB', 'NN', 'JJ'
felt 4
orddeling (for komposita)
'spørge'+'lysten', 'hockey'+'land'+'s'+'holdet'
felt 12
fonetisk/fonologisk form
Tabel 2. FOLs centrale datafelter
'"sb9:$6$%l2$sd@n'
Datatyperne ortografi, hovedordklasse, orddeling og fonetisk/fonologisk form gennemgås herunder.
4. Ortografiske former (felt 1)
Som nævnt har FOL ialt 237.877 indgange. Fordeling på ordklasser:
52%
24%
12%
9%
2%
ad 100%
appellativer (fællesnavne)
proprier (egennavne)
adjektiver
verber
adverbier
numeralier, konjunktioner, præpositioner, pronominer etc.
(Der er lidt usikkerhed om tallene p.g.a. inkonsekvent PoS-annotation; mere i næste afsnit)
De to centrale spørgsmål i evalueringen angår recall (findes de almindeligste danske ord i
FOL?) og precision (forekommer FOLs ordformer i det almindelige danske ordforråd?). Af disse to
spørgsmål er recall det vigtigste og bliver undersøgt først.
Recall. Vi anvender Berl99 som referencetekst - dvs. alle artikler publiceret i Berlingske Tidende og
Weekendavisen i hele året 1999. Aviskorpora er særligt egnede som referencekorpus idet de
indeholder næsten enhver genre (fagsprog, skønlitteratur, debat, reportage, reklame, poesi, etc).
Et praktisk mål for FOLs recall fås ved at måle den andel af Berl99s løbende ord der er
repræsenteret i FOL (svarende til den del af den daglige avis som synteseapplikationen vil kunne
genkende). Som tommelfingerregel bør en leksikalsk database til syntesebrug have en recall på min.
95% og helst 97%, i et korpus af Berl99-typen.
Berl99 rummer 27,1 mio. løbende ord, hvoraf de 25,4 mio genkendes i FOL3. Genkendelsen er
på 93.7%, eller 15 ud af 16 løbende ord. Dette tal er lovlig lavt, idet hver anden sætning i Berl99
dermed rummer mindst ét ord som ikke findes i FOL.
Precision. Næsten en fjerdedel af FOL er proprier. hvoraf kun en mindre relevant for en almen
synteseapplikation. Det drejer sig om firmanavne, organisationsnavne, usædvanlige forkortelser,
etc., sandsynligvis et resultat af ordbasens tidligere kommercielle anvendelser. Eksempler:
E.J._Badekabiner_A/S "e:?_"j6D_¤"ba:D$@$ka$%bi:$n6_"a:?$%Es
E.M._Fiberglas_A/S "e:?_"Em_¤"fi:?$b6$%glas_"a:?$%Es
E.O._Jonsson_A/S "e:?_"o:?_¤"jo:n$%s6n_"a:?$%Es
E.P.N._El­Installatør "e:_"pe:_"En_¤"El$@n$sda$la$%t26?
Der er også en mængde appellativer med meget specifik anvendelse. Hovedparten af disse specielle
termer vil være dødvægt i databasen til en syntesemaskine.
FOL rummer 237.873 egentlig ordformer, hvoraf de 162.967 forekommer i Berl99. Det giver
en acceptabel, dog forholdsvis lav precision på 68.5% (en virkning af det lidt tendentiøse ordstof).
Ortografisk kvalitet. I målingerne af recall+precision er der ikke taget hensyn til forskelle på
store/små bogstaver. En stikprøvekontrol viser at FOL har en høj andel af ikke-proprier der alligevel
er indekseret med stort begyndelsesbogstav (de er sandsynligvis høstet i løbende tekst og har derfor
'arvet' de sætningsinitiale versaler). Dette kan have praktisk betydning for ordklasse-disambiguering
i synteseapplikationen, men er ikke et stort problem sammenlignet med de øvrige.
Konklusion. FOLs recall er forholdsvis lav. Det anbefales at supplere op med hyppigt
forekommende ordformer til en recall på mindst 95%, helst højere. Hvad angår precision, er FOL
acceptabel, selv om man evt. kunne reducere dens dødvægt ved at redigere 5-10% af ordstoffet ud.
FOLs ortografiske kvalitet er generelt god, men majuskel/minuskel-alternationerne bør revideres.
3 De nøjagtige tal er: Løb.ord=27.111.738, med-i-FOL=25.418.853 (93.7%), ikke-i-FOL=1.692.885 (6,24%). Alle
tegn i uppercase er sænket til lowercase inden analyse, dvs. reelt er recall formentlig lidt lavere end 93.7%.
5. Ordklasseinformation (felt 2)
De anvendte ordklasser er ikke defineret i materialet, men de fleste af dem kan gættes.
PoS-symbol
Antal indgange
Ordklasse (gættet)
NN
122532
appellativer
PM
57174
proprier
JJ
28387
adjektiver
VB
22548
verber
AB
4627
adverbier (?)
RG
491
numeralier
IN
245
interjektioner
PN
112
?
PP
111
pronominer
KN
64
konjunktioner
DT
14
determinativer (?)
MM
1
?
N
1
?
Tabel 3. PoS-definition (resumé), se også Appendiks 1
Som det fremgår, er visse ordklassesymboler svære at afkode (markeret med '?' i tabellen) mens
andre kan gættes med rimelig sikkerhed, bl.a. de store, åbne ordklasser: appellativer (fællesnavne),
proprier (egennavne), verber, adjektiver, præpositioner og numeralier.
Blandt disse kategorier er især numeralierne og proprierne (fx vejnavne) konsistente, mens der
er mange fejl og inkonsekvenser i de øvrige.
Generelt er PoS-informationen ret inkonsekvent, både hvad angår udvalget af kategorier og
ordformernes distribution over ordklasser. En del ordformer er tilsyneladende blevet PoSklassificeret automatisk uden manuel verifikation.
En mere principiel indvending angår arten og detaljeringsgraden af PoS-data. I FOL findes kun
information om hovedordklasse, ikke bøjning. Dette er et handicap for syntesemaskinens
ordgenkendelse og kan betyde fejludtalte ord, især omkring homografer. Fx udtales 'lyst' på tre
forskellige måder afhængigt af bøjning: "det blev lyst efter solopgang", "der blev lyst med en
lygte", "jeg har lyst til en is". Andre hyppigt forekommende homografer er "så", "sig", "kom",
"ved", "os", "lig". Generelt er de fleste korte, hyppige ordformer homografer i dansk.
Konklusion: FOL's PoS-data er af svingende kvalitet og bør revideres før anvendelse i talesyntese.
(1) PoS-definitionen bør renoveres, så ukendte og umotiverede kategorier forsvinder.
(2) FOL bør revideres mhp. konsistens i PoS-annotation
(3) Det anbefales at udvide PoS-definitionen med morfologiske detaljer (køn, tal, tid, bestemthed,
grad, ...) af hensyn til præcisionen i den syntetiske udtale. Dette er dog ikke strengt nødvendigt for
udvikling af syntesen, oplyser Christina Tånnander (TPB).
6. Ordsammensætning (felt 4)
Felt 4 viser indgangsformens sammensætning (kun for sammensatte ord). En stikprøvekontrol viser
ret hyppige eksempler på inkonsekvens i orddeling:
'spurvehøg' > 'spurve'+'høg' (delt),
men 'spurvefugl' > 'spurvefugl' (udelt)
'sprøjtegift' > 'sprøjte'+'gift' (delt),
men 'sprøjtehus' > 'sprøjtehus' (udelt)
'dobbeltværelse' > 'dobbel+t+værelse' (3-delt), men 'dobbeltværelser' > 'dobbelt+værelser' (2-delt)
etc.
Overordnet set virker informationen om orddeling dog tilstrækkelig konsekvent til at have værdi i
syntesesammenhæng.
Konklusion: Det anbefales at styrke konsekvensen i FOLs orddelingsdata med automatiske eller
halvautomatiske metoder.
7. Lydskrivning (felt 12)
Lydskrivningerne er den vigtigste information i FOL, set fra et syntesesynspunkt. En dårlig fonetisk
database vil slå direkte igennem som uforståelig eller unaturlig tale i den endelige syntese. Det er
derfor vigtigt at undersøge FOLs kvalitet og konsekvens på dette punkt. Dokumentet
"Transskriptionskonventioner" (herefter: TKon) er velskrevet og giver præcis information om
fondefinitioner, udtalestil, afgørelse af tvivlsspørgsmål, fonetisk bredde og dækning,
stavelsesbestemmelse, trykplacering etc. TKon henviser til Nudansk Ordbog som fonetisk autoritet i
tvivlsspørgsmål. Takket være TKons akkuratesse og mange eksempler (særlig ved notorisk svære
transskriptioner, som fx "læreren", "hundrede") er det forholdsvis enkelt at evaluere den faktiske
lydskrift i FOL.
Her ses det samlede foninventar anvendt i FOL - se detaljerne i appendiks 3
Vokaler
Konsonanter
Øvrige
[@][A][a][E][e][i][O][o][Q][u][y][6][2][9]
[b][d][D][f][g][h][j][k][l][m][n][N][p][R][s][s'][t][v][w]
[_][:][?]["][%][¤][$]
Der er god overensstemmelse mellem definition og brug af symboler: Hvert symbol der er defineret
i TKon findes i praktisk brug i FOL, og de symboler der forekommer i FOL, er alle defineret i
TKon - med en enkelt undtagelse (ulovligt symbol [r] har to forekomster i FOL).
En stikprøvekontrol bekræfter at FOL-lydskrifterne, overordnet set, i høj grad følger
anvisningerne i TKon. Der er dog en række mindre afvigelser (lydskrivningerne er skrevet lavet af
flere forskellige transskriptører).
En mere grundlæggende kommentar angår foninventaret, som på to punkter forekommer for fattigt.
For det første understøttes ingen af de hyppigste engelske særfoner, fx ustemt TH ('thorn'),
stemt TH ('then'), fortunge-R ('right'), mørkt L ('girl', 'well'), stemt S ('zebra'). De mange engelske
fremmedord i FOL er derfor lydskrevet rent-dansk, hvad der vil virke utidssvarende i talesyntese.
For det andet mangler der nuancer i de r-farvede vokaler. Foninventaret kan ikke gøre rede for
lydforskellen på "hære" og "herre", "være" og "værre". Desuden mangler vokalen i "vred", hvad der
skaber tvivl for transskriptørerne i valget mellem de to næstbedste løsninger, nemlig vokalerne i
"ked" [e], og "med" [E]. Derfor ses en del eksempler på tilfældige forskelle:
"vrede" ["vRE:D$@], men "vreden" ["vRe:D$@n]
Det anbefales at indlemme de manglende foner i foninventaret, efterfulgt af en almen revision af
FOL. Fonetisk konsekvens fremhæves af TPB som særligt vigtigt for syntesen.
En sidste kommentar angår transskriptionsstilen. Hvis databasen skal understøtte naturlig
udtale, bør de allerhyppigste ord indgå i FOL i både distinkt udtale (som nu) og i dagligsprogets
mere reducerede version. Eksempler: pronominerne "mig", "dig", "sig" forekommer i FOL kun med
diftongeret vokal, skønt denne udtale er uhyre sjælden (og kun forekommer i trykstærk stilling). For
"der" findes kun de diftongerede udtaler, ikke den langt hyppigere [dA]. For "at" findes kun [ad],
ikke den hyppigere [a].
Konklusion. De fonetiske data i FOL er overvejende af god kvalitet. På grund af lydskrivningens
afgørende rolle i syntesesystemet anbefales dog følgende fonetisk/fonologiske revisioner.
(1) FOL tjekkes for inkonsekvenser i transskriptionerne. Dette fremhæves af TPB som vigtigt.
(2) der tilføjes et mindre antal foner (engelske konsonanter, r-farvede vokaler) til foninventaret
(3) der følges op med leksikalsk revision af FOL
(4) for særligt frekvente ordformer suppleres med de mest hyppige udtaler
8. Øvrige datafelter
De øvrige felter kan ikke bestemmes med sikkerhed. Mange er altid tomme (fx felt 5, 9, 24 og 25),
hvad der giver indtryk af FOL som en (ikke særlig gennemtænkt) afbildning af en mere komplet
oprindelig database. Selv de instantierede felter synes ubrugelige i praksis, da de dels er
udokumenterede, dels vanskelige at gennemskue funktionelt. Nogle er formentlig forældede
henvisninger til leksikalsk kilde, ansvarlige lingvist, etc. Eksempler ses i tabellen.
Felt
Instantieringer (Værdi:Antal)
felt 6
'LEX':237868, tom:9
felt 7
'DAN':237857, 'ENG':2, tom:18
felt 8
'GARB':450, tom:237427
felt 10
'0':236881, 'ACR':247, 'ABBR':740, tom:9
felt 13
'0':495 , '1':237372, '2':1, tom:9
felt 14
'STD':237873, tom:4
felt 15
'DAN':228984, 'ENG':2, 'FOR':4229, tom:4662
felt 18
'STD':13710, tom:224167
felt 19
'DAN':13655, 'dan.DNK':59, 'FOR':31, tom:224132
felt 23
'DAN':818, 'ENG':1, 'dan.DNK':7, 'FOR':312, tom: 236739
Tabel 4. FOLs øvrige datafelter
eksempler
Selv i de tilfælde hvor man kan gætte ret sikkert på funktionen, er der ret udbredt inkonsekvens. Et
eksempel er felt 20, der rummer alternative lydskrivninger for en ordform - principielt en meget
værdifuld information, men i praksis udfyldt så tilfældigt at værdien er ringe (en komplet liste over
alternative fonetiske former ses i appendiks 2). Felt 11 (udfyldt i 1060 indgange) rummer nyttig
information om ekpansion af forkortelser, fx. 'aktieselskab', 'irish_republican_army' og
'Sojuz_Sovjetskikh_Sotsialistitjeskikh_Respublik, sv. til indgangene 'A/S', 'IRA' og 'SSSR'.
Felt 30 rummer, ifølge dokumentationen, henvisning til FOLs ordkilder (ikke nærmere omtalt).
Kilde
Antal indgange
Beskrivelse
ref.dic
112 999
Frekvensbaseret referenceordliste (100k)
spd_da
16 547
Fra SpeechDat-materialet
tel_da
22 978
Fra indspilningsskript for telefoni
off_da
4 106
Fra indspilningsmanuskript for diktering
nml_da
29 418
Navneleksikon
inso_da
40 125
Grundformer fra INSO-materialet
stn_da
9 125
Gadenavn fra Krak-materialet
Istn_da
2 211
Efternavn
kons_da 109
Diverse
Tabel 5. FOLs felt 30, med referencer til ordkilder
Konklusion: givet den nuværende dokumentation er felterne 1, 2, 4 og 12 af stor praktisk værdi.
Derudover er felt 11 og 20 (evt. nogle få andre) af en vis værdi. Øvrige felter er af ringe værdi.
9. Samlet vurdering og anbefalinger
Overordnet set er FOL en sprogteknologisk orddatabase af middel til god kvalitet. Dens type er ret
simpel (fuldformsliste frem for lemmatisk ordbog), men ikke desto mindre tilstrækkelig til
syntesebrug iflg. udviklerne hos TPB, hvor man har erfaring med databaser af netop den type. På en
del punkter trænger FOL til en revision for at nå state-of-the-art, men grundlæggende skønnes
databasen at være adækvat til formålet.
Leksikalsk dækning. FOLs recall er forholdsvis lav. Det anbefales at supplere med nye ordformer
til en recall på mindst 95%, helst højere. Hvad angår precision, er FOL acceptabel, selv om man evt.
kunne reducere dens dødvægt ved at redigere 5-10% af ordstoffet ud. FOLs ortografiske kvalitet er
generelt god, men majuskel/minuskel-alternationer bør revideres.
Datatyper: Kun datatyperne ortografi, hovedordklasse, ordsammensætning og lydskrift har en
anvendelig kvalitet i FOL. Øvrige datatyper er for sparsomme og/eller inkonsekvente.
Ordklassedata: FOL's PoS-data er af svingende kvalitet og bør revideres.
(1) PoS-definitionen bør renoveres, så ukendte og umotiverede kategorier forsvinder.
(2) FOL bør revideres mhp. konsistens i PoS-annotation
(3) Det anbefales at udvide PoS-definitionen med morfologiske detaljer (køn, tal, tid, bestemthed,
grad, ...) af hensyn til præcisionen i den syntetiske udtale. Dette er dog ikke strengt nødvendigt for
udvikling af syntesen, oplyser Christina Tånnander (TPB).
Orddelingsdata: Det anbefales at forbedre konsekvensen i FOLs orddelingsdata med automatiske
eller halvautomatiske metoder.
Lydskrivning. De fonetiske data i FOL er overvejende af god kvalitet. På grund af lydskrivningens
afgørende rolle i syntesesystemet anbefales følgende fonetisk/fonologiske revisioner.
(1) FOL tjekkes for inkonsekvenser i transskriptionerne. Dette fremhæves af TPB som vigtigt.
(2) der tilføjes et mindre antal foner (engelske konsonanter, r-farvede vokaler) til foninventaret
(3) der følges op med leksikalsk revision af FOL
(4) for særligt frekvente ordformer suppleres med de mest hyppige udtaler
Anbefalede revisioner før brug i syntese
{A}
{B}
{C}
{D}
=
=
=
=
nødvendig før FOL anvendes i talesyntese
uklogt at undlade
relevant, men mindre nødvendigt
tilrådelig med henblik på fremtidig vedligehold/udvikling af FOL
[...]
= skønnet tidsforbrug (timer)
1. Manuelle revisioner af FOLs formatfejl
1. Indgange med "WARNING"/"ERROR" (/inspect_lex.pl) kontrolleres
Indgange med anomal feltformat redigeres ud
{A}[5]
2. Leksikalsk supplement
1. Der tilføjes ca. 20.000 nye indgange til dækning af alm. nudansk ordforråd
{B}[20]
3. Fonetisk revision
1. FOL gennemrevideres på baggrund af nuværende fontabel
2. Fontabellen korrigeres/udvides
3. FOL nyrevideres mht. den korrigerede fontabel
{A}[40]
{B}[5]
{B}[20]
4. Ordklasseannotation
1. Der udarbejdes en revideret PoS-definition
2. På baggrund af PoS-tabellen renses FOL for inkonsekvens
3. Der tilføjes detaljeret bøjningsinformation
4. Orddelingsdata revideres
{A}[5]
{B}[20]
{C}[30]
{C}[10]
5. Dokumentation
1. Der udarbejdes en revideret teknisk manual over FOL
{A}[20]
oOo
Appendiks 1. PoS-definition og PoS-distribution i FOL
PoS-symbol
Antal Kategori
(gættet)
Eksempler
(typiske)
Eksempler
(problematiske)
mangler
1570
?
?
elegantier, palæstinensisk,
spasser, tranceagtige
AB
4627
adverbier (?)
abnormt, adeligt
da, fx
DT
14
determinativer den, hendes
(?)
grundlagt, norsk
IN
245
interjektioner
adr, att
JJ
28387 adjektiver (?)
KN
64
konjunktioner at, da, dersom,
gadn, granat, graven
MM
1
?
?
makrelsalat
N
1
?
?
prospektets
NN
12253 appellativer
2
ATP-bidrag, abbedisse,
betonbygning
A/S, UFOER, Zebraen,
Kommune [med stort]
PM
1
?
?
Kistens
PM|group|COM
3418
firmaer
3-Stjernet_A/S,
A/S_Arovit_Petfood
DOS, DR
PM|group|ORG
853
organisationer Adoptionssamrådet,
(?)
Hjemmeværnet
Alcatraz
PM|person|FIR
1916
udenlandske
navne (?)
Christiana, Yoko
Dat, Yen
PM|person|FIR| 2606
FEM
pigenavne
Addi, Addie, Aferdita, Aggi
-
PM|person|FIR| 2321
MAS
drengenavne
Abdallah, Adem, Adnan,
Adolf
-
PM|person|FIR| 18
MAS­FEM
'androgyne'
personnavne
Angel, Bernice, Sidney
Åse
Gudfader, O, brillant
artig, arktisk, arvelig, fundne AV, Bottniska, Grove, LP
PM|person|SUR
13595 efternavne
Aa, Begic, Bragt
A_Rogvi, Beethoven
PM|place|CIT
3273
bynavne
Aabenraa, Florens, Beijing
Aalborgs,
PM|place|CIT|
FIC
1
?
?
Yllerup
PM|place|COU
415
landenavne
Vietnam, Abessinien
Bogø_By, Ma
PM|place|GEO
17535 stednavne
Aasiaat, Fausing_Engbakker Aalborg_Nordre, Acorerne
PM|place|STR
10490 vejnavne
A._Andersens_Vej,
Ahrenkildes_Allé
-
PM||UNS
732
?
?
APL, Europe, Fadervor,
Løgtvedgård
PN
112
?
?
Deres, Trade, all, alting
PP
111
pronominer
ad, ved, blandt, kontra, inkl.
across, angående, forruden, os
RG
491
numeralier
otte, XIV, seks-syv
seks_hundrede, trois
Otte [med stort]
VB
22548 verber
find, finde, finder, fundet,
fundne
Kip, Møv, Brummer
[m/stort], arr, garnvinde
Appendiks 2. Alternative fonetiske former
FOL rummer alternative lydskrivninger for flg. 1370 indgange, alfabetisk ordnet:
Aachmann, Aam_International_A/S, Abas, Abazi, Abbas, ABB_Operation_Group_JV, A-B-C_Coating_A/S, Abdalla, Abdallah,
Abdelmajid, Abdifatah, Abdillahi, Abdinasir, Abdisalan, Abdul, Abdul-Ghani, Abdulkadir, Abdullah, Abdulqadir, Abed, Abed, Abida,
Abid, Abir, Abu, Abu_Dhabi, Abukar, Achen, Achilles, AC_Hydraulic_A/S, Acikel, Ackermann, Addis_Ababa, Adelaide_Plejehjem,
Adele, Aden, ADP_Dealer_Services, Adriansen, Adsbøl, Adserballe, Aero-Chef_A/S, Afrim, Afshan, Ager, Agerlin, Agim, Agna,
Agneta, Ahlmann, Ahrends, Ahrendsen, Ahrendt, Ahrendtsen, Ahrenfeldt, Air_96_A/S, Ala, Al-Ali, Al-Asadi, Alberta, Aleuterne, AlHulo, Ali, Alise, Al-Khafaji, Al-Khatib, Almin, Al-Tamimi, Amani, Ambu_International_A/S, Amel, Amila, Amin, Amine, Amino,
Amman, Amos, Amy, Anam, Andsager, Andsbjerg, Angelo, angstneurose, angstneuroser, Annelie, Anthonisen, Anthonsen, Antonisen,
Apw_Power_Supplies_A/S, Arnold_Busck_International, Aron, Assad, AVK_International_A/S, Awad, Ayaan, Ayad, Ayat, Ayoub,
Ayub, Azad, Azadeh, Azam, Azerbajdjan, Aziz, Azizi,
Baden, Bagenkop, Bahn, Bahne, Bahrain, Balsby, Balschmidt, Balslev, Balsløv, Baltsen, Barakji, Bardakci, Bargmann, Barington,
Barnes, Barrett, Barry, Bashir, Baumann, Bayoumi, Baysal, Beatrice, Beckmann, Beermann, Beganovic, Begtrup, Begtrup_Vig,
Behrend, Behrendsen, Behrendt, Behrenthz, Behrmann, Beich, Bektas, Bendsen, Berendt, Berendtsen, Bermann, Bernard, Bernard,
Berthou, Beth, Bevtoft, Bührmann, Bhutan, Bidstrup, Biermann, Biilmann, Bilge, Bjolderup, Bjørkmann, Black, Blankager,
Bohmann, Bollmann, Borchmann, Bormann, Bornemann, Bothmann, Boysen, Brahmaputra, Brando, Brandt, Bredsdorff,
Brüel_International_A/S, Bresemann, Breuner, Breuning, Brügmann, Brinckmann, Brinkmann, Brochmann, Brockmann, Brokmann,
Brommann, Brygmann, Buchard, Buchmann, Buemann, Burgwald, Buster, Busuladzic,
Canbaz, Canberra, Cantor, cappuccino, Carli_Gry_International_A/S, Carlsen_Europa_ApS, Cecile, Centraleuropa,
Centraleuropas, centraleuropæerne, centraleuropæiske, centraleuropæisk, Chaaban, Chaib, Chaima, Chan, Chastine, Chehade,
Christence, Christof, Cicek, Cifci, Ciftci, Cift, CIH_Royal_Hotel_A/S, CIH_Scandinavia_Hotel_A/S, Claude, Claudine, Cleemann,
Cliff, CMC_International_A/S, Colding, Commerou,
dalen, Darville, Debel, Degner, Deichmann, De_Lasson, Depenau, Dich, Dieckmann, Diekelmann, Diekmann, Diers, Dietrich,
Dinex_A/S, Dittmann, Dohlmann, Dohm, Dohn, dolken, Dolores, DONG_Naturgas_A/S, double-kampe, Dreymann, Duman,
Eckmann, Eddy, Edelmann, Edemann, Edwards, egens, Eichen, Eichler, Eichner, Eigild, Eire, Eis, Eisenreich, Ejerslev,
Ejerslev_Vang, El-Ahmad, El-Ali, El-Hassan, El-Hussein, El-Khatib, Elny, El-Sayed, El-Youssef, Emly, Enny, Enselmann, Erdmann,
ergoterapeut, ergoterapeuter, Esmat, Esry, Ethly, Etly, Etty, euforien, eufori, euforiserende, euforiske, euforisk, Eugen, eugenikken,
eukalyptus, eunukkerne, euro, Euro-Alarm_A/S, euro-atlantiske, eurobarometer, eurobonus, eurocenter, Eurochef, Eurodan-Huse,
Eurodan-Huse_Vest_A/S, euroen, Euroens, eurokrater, eurokraterne, euro-lande, eurolandene, Europa, europabevægelse,
europabevægelsen, europa-debat, europa-domstolen, Europadomstolen, europahær, europajolle, europa-kommissionen,
Europakommissionen, Europa-kommissionens, europakort, europakortet, europa-linien, europamester, europamesteren,
europamesterskab, europamesterskaber, europamesterskaberne, europamesterskabet, europamestre, europamestrene,
europamestrenes, europaminister, europa-ordfører, europaparlamentariker, Europaparlamentet, europa-parlamentet,
Europaparlamentets, europa-parlamentets, europaparlamentets, Europaplads, europa-politik, europapolitik, europa-politikken,
europapolitikken, Europarådet, Europarådets, europarejse, europarekord, Europas, europaskolen, Europaskolen, Europaturné, europaudvalg, europaudvalg, europa-udvalget, europaudvalget, europaudvalgets, Europaudvalgets, europæer, europæere, europæeren,
europæeres, europæerne, europæernes, europæisering, europæisk, europæiske, Europæiske_Rejseforsikring_A/S, europæiskes,
Europæiskes, Europols, euroregion, euroregionen, euroskeptikere, euroskeptiske, eurostat, eurostats, eurotunnel, eurozonen,
Fadi, fagkombination, familieterapeut, farmaceuter, farmaceuterne, farmaceut, farmaceuthøjskolen, Farmaceuthøjskolen,
farmaceutpiger, farvekombinationer, farvekombination, Farzaneh, Fata, Fatema, Fatemeh, Faten, Fathi, Fatiha, Fatih, Fatima, Fatime,
Fatme, Fatmeh, Fatmire, Fatmir, Fatos, Fatou, Fatuma, Fauzia, Fawzia, Fayez, Fazal, Feder, Ferhat, feudale, feudal, feudalt,
filmkombination, Findalen, Firas, Fischmann, Følle, fælles-europæiske, fælleseuropæiske, fælles-europæisk, fælleseuropæisk, Floor,
Fogh-Andersen, Fogh, Foghsgaard, Foghsgaards, Fog-Petersen, Fohlmann, Folmann, force, forsynets, forvisningen, Fouad,
Francesca, Francesco, Franklin, Franzmann, Freddy, Freddys, Fredy, Fugmann, Fuhrmann, Funding, fyrrene, fysioterapeuten,
fysioterapeuter, fysioterapeuterne, fysioterapeut,
Gabor, Gabrielle, Gabs, Gaby, Gatzwiller, Gazmend, Geleff, gendyrkning, Gerken, Gerly, Germann, Germansen, Gertie, Gerti,
Gerty, Gervin, Gettermann, Ghada, Ghali, Ghassan, Ghazala, Ghazal, Ghazanfar, Ghazi, Gholam, Gholamreza, Ghoneim, Ghulam,
Giesela, Gilbert, Gil, Gillian, Ginnie, Gisselmann, Gissemann, Gjettermann, Gökhan, Gøkhan, Gladys, Gülcan, Glenny, Gülhan,
Gokhan, Goldberg, Gold, Goldmann, Goltermann, GPV_International_A/S, Grant, Graumann, Gronemann, Groos, Groot, Grosmann,
Grossmann, Gudumholm, Gudum_Kær, Gudumlund, Guy,
Habiba, Habibe, Habib, Haci, Hadi, Hadil, Hafida, Hafiza, Hafize, Hagbard, Hagbart, Hagman, Ha, Hahnemann, Hajra, Hakima,
Hakim, Hala, Halid, Halima, Halime, Halim, Halimo, Halina, Halit, Halla, Halle, Hallein, Halls_Allé, Hamad, HamburgMannheimer, Hamed, Hamida, Hamide, Hamid, Hamidreza, Hamit, Hanaa, Hanadi, Hanane, Hanan, Handan, Hanifa, Hanife, Hanifi,
Hanim, Hanin, Hanny, Hans-Jürgen, Hanson, Hanus, Hardi_International_A/S, Hardy, Hardys, Harley, Harly, Hasan, Hasemann,
Hashem, hashhandler, Hashim, Hasiba, Hasib, Hasim, Hasna, Hasnija, Hasret, Hata, Hatem, Hatidza, Hatun, Haugsted_International,
Haumann, Hausmann, Hava, Havemann, Havva, Hawa, Hawo, Hayat, Hayati, Hayrettin, Hazal, Hazem, Hazim, Heba, Hechmann,
Heckmann, Heddy, Hedemann, Hediye, Hedy, Heidmann, Heimann, Heinemann, Heinrich, Heintzelmann, Heisel, Heissel, Heitmann,
Hellemann, Hellmann, Helmar, Helnan_International_A/S, Henry, Herrmann, Hetty, Høhrmann, Hiba, Hibo, Hidayet, Hilal,
Hildeborg, Hillmann, Høltzermann, Hofmann, Hohlmann, Hollmann, Holtermann, Holtmann, Holtzmann, Holzmann, Homann,
Hommelgaard, Hommel, Horstmann, Houda, Houmann, Houria, Hørmann, Hüttmann, Huma, Humble, Hunt, Huseyin, Husnija,
Hussain, Hussmann, Huusmann, Hvims, Hygom, Hygum,
IBM_Danmark_A/S, Ibs-Dac_A/S, ICL_Danmark_A/S, I-data_international_a-s, Idris, Idriz, Ifeta,
IFS_Applications_Danmark_A/S, Ihsan, Ijaz, Ikea_International_A/S, Ilan, Ilhami, Ilhan, Ilia, Ilias, Illemann, Illetas, Imad, Imdat,
Imer, Imperial_Hotel, Inaam, indoeuropæiske, Ingram_Micro_A/S, International_Claire_Group_A/S, Iqbal, Ira, Iraj, Iram, Irem, Iren,
Irfan, Irving, Irwing, Isaac, Ismahan, Ismail, Israa, IT_Factory_A/S, ITID_A/S, IT_Support_A/S,
Jade, Jafar, JAI_A/S, Jalal, Jalil, Jamal, Jamila, Jamil, Jamile, Jamilla, Janich, Janik, Janine, Jannet, Janny, Janusz, Jaqueline,
Jason, Jawad, Jeanie, Jeanne, Jelle, Jelsgaard, Jelva, Jenan, Jenkins, Jensy, Jerome, Jerslev_J, Jerzy, Jessica, Jessy, Jetmir, Jihad,
Jihan, JKE_Design_A/S, JK_Service_A/S, J.M._Huber_Denmark_ApS, Joacim, Jochumsen, Joel, Johannessen, Johannson,
Johannsson, Johanson, Johnna, Johnsson, Johny, Jonny, Joo, Jorton_A/S, Jos, Jovan, J.P._Salmon_A/S, Jørgine, juleballet, Julian,
Kaadtmann, Kacar, Kammann, Karup_J, Kauffmann, Kaufmann, Kaymak, KE-Burgmann_A/S, Kellmann, Kemal, Khaled,
Khalid, Kühn, Kielgast, Kigali, kilobyte, Kimer, Kimie, Kim_Johansen_International, Kiribati, Kirkemann, Kjeldmann, Kjellmann,
Kjøller, K.K._Electronic_A/S, Kleemann, Klegod, Klippinge, Klockmann, kombinationen, kombinationer, kombinationerne,
kombination, kombinationsaftalen, kombinationsbehandlingen, kombinationsbehandling, kombinationsevne, kombinationslås,
kombinationsmuligheder, kombinationsmulighed, kombinationssikker, kombinationsspil, kombinationsspiller, kombinationsstilling,
kommerciel, kommercielle, kommercielt, Konstmann, Kranker, Kreutzmann, Krøger, Krøier, kriseterapeutisk, Kristjansen,
kærlighedspanter, Kuhlmann, kulilten, Kurtzmann,
Ladan, Lahn, Lahrmann, Lale, Lara, Larsine, Laumann, Læborg, Læbro, LCI_Intermate_A/S, LCI_Intermedium_A/S,
LEGO_System_A/S, Leismann, Leonhardsen, Lessmann, leukæmi, Levin, Levin, Linköping, Løjt, Øls, Ølst, Ølstrup, Lunden,
Luttermann,
Mabel, mafiakontrollerede, Magalluf, Maimann, Makalu, Malabo, Manal, Marckmann, Marius_Pedersen_A/S, Marry, Martens,
Maryanna, Maryanne, Maryann, Mattis, Maurice, Mb, McDonald's_Administration, Mechlenburg, megabytes, Melbye,
Mellemeuropa, mellemeuropæiske, Merkel_Freuderberg, Messmann, Methmann, Michaelsen, Michell, Michelsen, Michelsens,
Micro, Micro_Matic_A/S, Micro_Matic_Instrument_A/S, Mikail, Mikhail, milimeter, milimeters, miljøneutrale, miljøneutralitet,
Miller, Mladen, mønthandlerne, Monroe, Moos, Mostafa, MTV_Produktion_A/S, musikterapeut, Mustafa, Mustapha, Muusmann,
Nadarajah, Nadeem, Nagy, Nahed, Naheed, Nahid, Naila, Najia, Nancy, Narin, Narmin, Naser, Nassar, Nasser, Naumann, Nawaz,
Nazia, Nazir, Naz, NB_Rotation_A/S, Nebahat, Neimann, Nejmann, Nelly, Nesimi, Neubauer, neurale, neuralt, neurofysiologi,
neurokirurgi, neurokirurgiske, neurokirurgisk, neurologer, neurologi, neurologiske, neurologisk, neurolog, neuroner,
neuropsykiatrisk, neuropsykolog, neurose, neuroser, neurotikere, neurotiske, neurotisk, neutrale, neutraliserede, neutralisere,
neutraliserer, neutraliseres, neutraliseret, neutralisering, neutraliteten, neutralitet, neutralitetspolitik, neutral, neutralt, New, Nickolas,
Niels-Peder, Niemann, Noel, Nomanni, Noor, Nordeuropa, Nordeuropas, nordeuropæere, nordeuropæerne, nordeuropæiske,
nordeuropæisk, Nordvesteuropa, Nottelmann, Nowicki, nutidseuropæere, Nykøbing_F, Nykøbing_Sj, Nykøbing_S,
Odense_Congress_Center_A/S, også, Oguz, OK, Okutan, Oltmann, Omar, Oppermann, Orfeus, Ortmann, Osmani, Osmanovic,
Ostermann, Ovcina, Ove_Wrist_&_Co_Ltd._A/S, Ozcan, Ozcelik,
Pabijan, PA_Consulting_Group_A/S, Palani, Palma_de_Mallorca, Pamperin, pansrede, Pantmann, Paranova_Pack_A/S,
partikombinationer, Pasic, Patrzalek, Paulsen, PBN_Medicals_Denmark_A/S, Pedersen_&_Nielsen, Pehlivan, Peitersen,
Peter_Hansen_International, Peterson, Peugeot, Peugeots, Pfeffer, Pfeiffer, Phan, Pilemann, Pinarbasi, Plagborg,
Plaza_Hotel_Group_A/S, pneumatik, PPU_Maconomy_A/S, Preetzmann, Pretzmann, Probst, Pro_Display_A/S, pro-europæiske,
ProTeleVision_Technologies_A/S, provencalske, psykoterapeuten, psykoterapeuter, psykoterapeutiske, psykoterapeutisk,
psykoterapeut, Puerto_Vallarta, Pugh,
Qasem, Qazi, Q-Star, Quach,
Raaco_International_A/S, Radisson_SAS_Falconer, Radisson_SAS_Limfjord_Hotel, Radisson_SAS, Ragnarsson, Rahimi,
Rahmani, Raija, Raili, Raimo, Rainer, Rajaratnam, Ramadani, Ramadan, Randy, Rathmann, Rau, rawlplugs, RBM_Group_A/S,
Reeckmann, Reese, Reich, Rentokil_Initial_A/S, reolmetre, Rex, røgning, Rhiger, Rickey, Rickie, Rick, Riemann, Robby, Roberta,
Roberto, Robertson, Roberts, Rockwool_International_A/S, Rodney, Rodrigo, Rohmann, Rohrmann, Rona, Ronny, Ron, Rosario,
Rosemary, Rose_Poultry_A/S, Roya, Roy, Rozalia, Roza, Rubi, Ruddy, Rudkjøbing, Ruhlmann, Runsten,
Saad, Sachmann, Sadaf, Safa, Sajjad, Samantha, Sammy, Sandavág, Sandoy, Sankt_Peder, Saugmann,
SCA_Hygiene_Products_A/S, Scandic_Hotel_A/S, Scandinavian_Airlines_Data, Scanvaegt_International_A/S,
Sca_Packaging_Containerboard, SCA_Packaging_Denmark_A/S, SCA_PACKAGING, Schantz, Schanz, Schaumann, Schaumburg,
Scheffmann, Schemel, Scherfig, Schertiger, Scheuer, Schiønnemann, Schledermann, Schleimann, Schlesinger, Schlichter,
Schlichting, Schlichtkrull, Schliemann, Schlie, Schmalz, Schmelling, Schmeltz, Schnedler, Schneidereit, Schnejder, Schnell,
Schnipper, Schnohr, Schnor, Schnuchel, Schollert, Scholz, Schrøder, Schroeder, Schütze, Schubert, Schuldt, Schulz, Schumann,
Schurmann, Schwalbe, Schwaner, Schwarz, Schwencke, Schwerdtfeger, Scott, scrapbogen, SEAS_Distribution_A.m.b.A., Seehagen,
Seemann, Seligmann, Selmann, Shahab, Shane, Shanna, Shannie, Shannon, Shan, Sharon, Shaun, Shawn, Sheena, Sheikh, Shirley,
Sibel, Sidelmann, Siegfred, Sielemann, Sierra_Nevada, Sigmund, Sigvard, Sillemann, SIS_International_A/S, Skindbjerg,
skoleballet, skæren, Snekkebjerg, Sohnemann, Soll, Sonn, SP2_Prepress_A/S, Speiermann, Sportsmann_Gruppen_A/S, SproutMatador_A/S, Stahlhut, Stahlschmidt, Stahl, Statoil_Detail_A/S, Stück, Stecher, Stegelmann, Stegmann, Steiner, Steinlein,
Steinmeier, Steinmetz, Steinmüller, Stein, Østermarie, Øster_Melholt, Østeuropa, østeuropa, østeuropas, Østeuropas, østeuropæere,
østeuropæerne, østeuropæernes, østeuropæisk, østeuropæiske, Stilbjerg, Stimorol_Central_&_Eastern, stjålet, Stockmann, Stoltz,
Struckmann, Studsgaard, subjekter, Sulsbrück, sultans, Sydeuropa, sydeuropæere, sydeuropæerne, sydeuropæiske, sydeuropæisk,
Sydøsteuropa, Szabo,
Tackmann, Taklamakan, talkombinationer, Tødsø, Teddy, Tegner, terapeuten, terapeuterne, terapeuter, terapeutiske, terapeutisk,
terapeut, terrorismen, terrorisme, terroristerne, terrorister, terrorist, terror, Testmann, Theilmann, Thelma, Thielemann, Thillemann,
Thonny, Thony, Tiffany, Tilly, Time/System_International_A/S, Timmermann, Tümmler, Torry, Tøpholm_&_Westermann_ApS,
Trab, Tranbjerg_J, transeuropæiske, Trevira_Neckelmann_A/S, Troels-Smith, Troels, Tulip_International_P/S, Tytex_A/S,
udgiftsneutral, Uhlmann, Ullits_Stationsby, Ullits, Ullmann, Ulvhøj, Ulvkær, Ulvmose, Ulvshale, Ulvslyst, Ulvsund,
Unibank_A/S, Unibolt_A/S, Unikredit, Unilever_Danmark_A/S, Unimerco_A/S, Uponor_A/S,
Vaduz, Valeur, Vally, Valsemøllen_af_1899_A/S, Vandet, Varny, Vergmann, Verny, Vestermarie, Vester_Smidstrup,
Vester_Vidstrup, Vesteuropas, Vesteuropa, vesteuropæere, vesteuropæerne, vesteuropæiske, vesteuropæisk, Viby_J,
Viking_Holding_A/S, Villys, Villy, Vincent, Vinny, Vira, Viskinge, Vivild_Huse, Vivild_Mark, Vivild, Vänern, Vodder, Vogel,
Volgograd, Volkmann, værdsat,
Wachmann, Wally, Walz, Wang, Ward, Wassmann, Weidemann, Weigel, Wendy, Wessmann, Wiedemann, Wieland, Wiemann,
Willadsen, Willemann, Willis_I/S, Wilmann, Winckelmann, Winkelmann, Wismann, Wiuff, WM-Data_Consulting_A/S, Woetmann,
Wong, Wortmann, W.S._Shamban_Europa_A/S,
Yamagata, Yaren, Yasemin, Yding_Lykke, Yding_Rode, Yding, York_International_A/S,
Zimmermann, Zoffmann, zoneterapeuter, zoneterapeut, zoo.
Appendiks 3. Foninventar i FOL-lydskrift
Vokaler
Symbol
Antal
Eksempel,
indgangsord
Eksempel,
lydskrift
Findes i
Forskrift
@
A
a
E
e
i
O
o
Q
u
y
6
2
9
162499
70265
79858
73233
93559
84243
25461
45360
21616
37024
17497
148606
22921
6936
"mile" (schwa)
"takke"
"mat"
"mæt"
"vene"
"mit"
"ost"
"foto"
"vor"
"guld"
"nyt"
"råt"
"synder"
"sønner"
"mi:$l@
"s9$n6
+
+
+
+
+
+
+
+
+
+
+
+
+
+
Eksempel,
indgangsord
Eksempel,
lydskrift
Findes i
Forskrift
"bil"
"dag"
"mad"
"fin"
"gul"
"hos"
"ja"
"kast"
"land"
"min"
"nord"
"eng"
"pæl"
"rose"
"se"
"bi:?l
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
"sjæl"
"tid"
"vase"
"sav"
"s'E:?l
"tA$g@
"mad
"mEd
"ve:$n@
"mid
"Osd
"fo$to
"vQ
"gul
"nyd
"R6d
"s2$n6
Konsonanter
Symbol
b
d
D
f
g
h
j
k
l
m
n
N
p
r
R
Antal
71965
115013
60025
43674
88066
28391
36570
37442
122997
63041
149872
32732
23131
2
74330
s [undt. s'] 185002
s'
11554
t
45733
v
42868
w
23410
"da:?
"maD
"fi:?n
"gu:?l
"hOs
"ja
"kasd
"lan?
"mi:?n
"no6?
"EN?
"pE:?l
­
"Ro:$s@
"se:?
"tiD?
"va:$s@
"saw?
+
+
+
+
Suprasegmentale og andre symboler i FOL-lydskrift
Symbol
Antal
Specifikation
Eksempel
Findes i
forskrift
_
15266
ordgrænse
"hal?_"s2:?
+
:
159565
vokalforlængelse
"mi:$l@
+
?
160643
stød
"hal?
+
"
253105
hovedtryk
"s2$n6
+
%
160802
bitryk
"s2:$%ko:?
+
¤
11703
sætningstryk
"i_¤"al?d
+
$
600542
stavelsesgrænse
"s2$n6
+