Filozofická fakulta Univerzity Karlovy v Praze – Ú stav germánský ch studií Bokmål og nynorsk sammen i tospråklige ordbøker DIPLOMOVÁ PRÁ CE Pavel Vondřička, Praha 2002 Vedoucí: PhDr. Jarka Vrbová Prohlašuji, že jsem diplomovou práci vypracoval samostatně a že jsem uvedl veškeré prameny v seznamu použité literatury. Pavel Vondřička, Praha 2002 Rád bych poděkoval PhDr. Jarce Vrbové, Cand. Phil. Thoru Henrikovi Svevadovi, Doc. RNDr. Vladimíru Petkevičovi, CSc., a Marii Vachkové, Ph.D. za cennou pomoc při vzniku této práce. Dále děkuji prof. Dagu Gundersenovi, prof. Janu T. Faarlundovi, Solfrid Helen V. Vestli, Zdeňkovi Žabokrtskému, Elišce Bokové, prof. Willy Martinovi a Ise Maks za další užitečné informace. Jeg vil få takke PhDr. Jarka Vrbová, Cand. Phil. Thor Henrik Svevad, Doc. RNDr. Vladimír Petkevič, CSc., og Marie Vachková, Ph.D. for at de hjalp meg med dette arbeidet. Samtidig vil jeg også få takke prof. Dag Gundersen, prof. Jan T. Faarlund, Solfrid Helen V. Vestli, Zdeněk Žabokrtský, Eliška Boková, prof. Willy Martin og Isa Maks for andre nyttige opplysninger. Bokmål og nynorsk sammen i tospråklige ordbøker Innhold 1. Innledning.........................................................................................................................................2 2. Tospråklige ordbøker i Norge..........................................................................................................4 2.1. Norskengelsk ordbok av Einar Haugen...................................................................................5 2.2. Norsktysk ordbok av Tom Hustad...........................................................................................6 2.3. Hvordan problematikken løses i ordbøkene av E. Haugen og T. Hustad.................................6 2.3.1. Morfologi..........................................................................................................................6 2.3.2. Valens................................................................................................................................8 2.3.3. Semantikk..........................................................................................................................8 2.3.4. Fraseologi........................................................................................................................17 2.3.5. Form................................................................................................................................19 2.4. Oppsummering........................................................................................................................22 3. Leksikografiske muligheter og krav i dag......................................................................................26 3.1. Utgangspunkter.......................................................................................................................27 3.1.1. Mål..................................................................................................................................27 3.1.2. Måten å beskrive data på.................................................................................................29 3.2. Krav til en tospråklig leksikalsk database...............................................................................30 3.2.1. Allmenn struktur.............................................................................................................30 3.2.2. Leksikalsk database for ett språk....................................................................................33 3.2.2.1 Form.........................................................................................................................33 3.2.2.2 Morfologi og syntaks................................................................................................33 3.2.2.3 Stilistikk og pragmatikk...........................................................................................34 3.2.2.4 Semantikk.................................................................................................................35 3.2.3. Forbindelser mellom språkdatabasene............................................................................37 3.2.4. Et eksempel: verbet «å gi»..............................................................................................37 4. Bokmål og nynorsk i én leksikalsk database..................................................................................46 4.1. Krav til databasen...................................................................................................................46 4.1.1. Form................................................................................................................................46 4.1.2. Opplysninger og markering.............................................................................................50 4.2. Løsninger på konkrete problemer...........................................................................................51 4.2.1. Morfologi........................................................................................................................51 4.2.2. Valens..............................................................................................................................53 4.2.3. Semantikk........................................................................................................................53 4.2.4. Fraseologi........................................................................................................................54 4.2.5. Form................................................................................................................................55 5. Avslutning......................................................................................................................................59 6. Resumé...........................................................................................................................................61 Litteratur.............................................................................................................................................65 1 Bokmål og nynorsk sammen i tospråklige ordbøker 1. Innledning Språksituasjonen i Norge er et emne som kompliserer livet til alle som har noe med norsk å gjøre, fra de norske skoleelevene til utlendinger som arbeider med norsk språk. I Norge er emnet knyttet til politikk, og i historien har det flere ganger vekket sterke følelser hos allmennheten. Samnorsken er en idé som ikke lenger har offentlig støtte. Bokmål og nynorsk er to uavhengige språknormer som ikke skal blandes sammen. Utlendinger har derimot andre problemer, uansett om de oversetter eller prøver å lære seg norsk. Det er ikke nok å kjenne bare bokmål eller nynorsk. Det er ofte dessverre heller ikke nok å kjenne begge deler. I bøkene og avisene brukes både radikale og konservative former til begge språk. I skjønnlitteraturen finnes det ofte elementer fra dialektene eller dialektale uttrykk. Begge språknormer utvikles og blir påvirket av dialektene. Man blir konfrontert med dem særlig når man får snakke med nordmenn selv. Dialektene har en høy status, og praktisk talt alle snakker en eller annen dialekt. For utlendinger som arbeider intensivt med norsk finnes det altså ikke bare to språknormer og ofte heller ikke noen politiske spørsmål, men for dem finnes det et kontinuum av ord, rettskrivningsvarianter og grammatiske regler som kan spille forskjellige roller for forskjellige slags nordmenn og danne forskjellige kombinasjoner etter geografisk og sosial tilhørighet, eller stilen og hensikten. Man trenger å forstå alle (uansett om de kommer fra Oslo, Haugesund eller Sunnmøre) og alt (fra Aftenposten til Garborgs Haugtussa) og til og med være i stand til å merke både store og små nyanser i teksten. Det er ikke helt naturlig for en som ikke har bodd i Norge i mange år og ikke har kommet i kontakt med samfunnet, med forskjellige sosiale grupper og forskjellige aldersgrupper. De viktigste hjelpemidlene for en utlending er derfor en god grammatikk og gode ordbøker. De fleste ordbøkene i Norge er skrevet for nordmenn. De regner med at mange ting er helt naturlige og klare for brukeren – en som har vokst opp i det norske samfunnet. De regner med at brukeren kjenner nyansene og allerede kan bruke ord på riktige måter. Hovedmålet er å hjelpe brukeren til å finne korrekte uttrykk og korrekte regler i den norske språkjungelen. Normative ordbøker er det som kreves. Deskriptive ordbøker blir til noe som ikke hjelper i den forvirrende situasjonen, men som vil gjøre situasjonen enda mer uoversiktlig, tror man kanskje. Dessuten er det mye vanskeligere (om ikke umulig i det hele tatt) å prøve å beskrive det som folk virkelig sier og skriver. 2 Bokmål og nynorsk sammen i tospråklige ordbøker Problemet gjelder dessverre både enspråklige og tospråklige ordbøker. En utlending kan derfor for det meste bare bruke uavhengige enspråklige ordbøker for bokmål og for nynorsk som er større og mer detaljerte, og han trenger likevel å ha en mindre eller større kunnskap om praktisk bruk, dialektene og stilnivåene. Denne kunnskapen kan han bare få gjennom en nær og lang kontakt med det norske samfunnet og norsk skjønnlitteratur. De fleste tospråklige ordbøker er nesten ubrukelige for en utlending. De inneholder for det meste bare bokmål. Mange ord, uttrykk eller opplysninger om dem finner man ikke i tospråklige ordbøker. Mange finner man heller ikke i de enspråklige ordbøkene. For utlendinger ville det ofte være mest praktisk å ha en stor ordbok som beskriver hele ordforrådet til hele det norske språket med begge språknormene og det viktigste (i beste fall alt) fra dialektene, uansett hvor mye politisk ukorrekt det kan være for nordmenn. Til å dekode en norsk tekst med alle nyansene, trenger man ofte en rik referanse om alle mulige ord og uttrykk som man kan komme over i de norske tekstene. Det ville også være nyttig å ha klare opplysninger om forskjeller og paralleller mellom de enkelte variantene. I dette arbeidet skal jeg prøve å undersøke forsøkene på å sette sammen slike universelle ordbøker (dvs. ordbøker som beskriver både bokmål og nynorsk) og vise forslag til å løse problematikken med moderne tekniske midler. Arbeidet konsentrerer seg på metoden hvordan man kan beskrive kompliserte forhold mellom forskjellige leksikalske varianter og deres spesifikke egenskaper på alle språknivåer fra to (eller flere) forskjellige synsvinkler som bokmål og nynorsk danner. 3 Bokmål og nynorsk sammen i tospråklige ordbøker 2. Tospråklige ordbøker i Norge En kort kikk på hyllene i norske bokhandler viser at tospråklige ordbøker i Norge som oftest er skrevet for nordmenn, som jeg allerede har sagt. De ligner mer på ordlister og inneholder neppe noen opplysninger om norske ord og uttrykk. De fleste er begrenset til bokmål. Man regner med at nordmenn som bruker nynorsk, selve kan overføre ord, uttrykk og eksempler mellom bokmål og nynorsk. Dermed er ordvalget begrenset til det nødvendigste. I den Norskengelske ordboken av Willy A. Kirkeby står det eksplisitt i forordet at arkaismer og dialektale uttrykk stort sett er sløyfet.1 I forordet til den Norsktyske ordboken fra Gyldendal forlag (Langenscheidtserien) 2 sier man at ordboken inneholder bare bokmål/riksmål. Det fins også ordbøker som bruker nynorsk som ett av språkene. Den Tysknynorske ordboken fra Gyldendal (den blå serien)3 bruker nynorske uttrykk på den norske sida, men bare nynorske uttrykk. Den inneholder heller ikke noen opplysninger om nynorske ekvivalenter og ligner dermed igjen på en ordliste, selv om den er svært rik på ord og ekvivalenter. Selv om bokmål og nynorsk har 80% av ordforrådet felles,4 er det bare noen få som har prøvd å lage en ordbok med både bokmål og nynorsk som oppslagsord på samme side. Den første var Einar Haugen i 60årene med sin Norskengelsk ordbok.5 Det var han som inspirerte Tom Hustad til å gi ut en lignende Norsktysk ordbok i 1984 og Dag Gundersen til å skrive sin enspråklige norske ordbok fra 1966. De tospråklige ordbøkene av Haugen og Hustad er sannsynligvis også de eneste norske ordbøkene som er bestemt for utlendinger i dag.6 De inneholder nødvendige opplysninger om grammatikk, syntaks, stilistikk og pragmatikk, idiomatikk, osv. Disse ordbøkene har aldri vært offisielt anerkjent. Man kritiserte at «systemet er altfor komplisert» og ordbøkene «undervurderer strukturelle forskjeller» mellom begge mål.7 Om systemet virkelig er så komplisert er tvilsomt. Det er kanskje komplisert for unge skoleelever. Det som virkelig er komplisert er språksituasjonen og språkpolitikken i Norge. En komplisert situasjon 1 2 3 4 5 6 KIRKEBY 1986 LANGENSCHEIDT 1974 DYRHAUG 1946 GUNDERSEN 1991 HAUGEN 1996 er den 4. utgaven. Einar Haugen skriver i forordet at det var først og fremst de amerikanske studentene hans som han opprinnelig ville skrive ordboken sin for. 7 GUNDERSEN 1991 4 Bokmål og nynorsk sammen i tospråklige ordbøker kan ikke beskrives på en ukomplisert måte. I forhold til situasjonen synes disse ordbøkene å være ganske klare og elegante, særlig når man bruker dem slik som de skal brukes (dvs. til å finne norske ord og uttrykk og til å dekode deres betydning for brukere som snakker engelsk eller tysk eller til å få opplysninger om deres bruk). Det er også tvilsomt å snakke om strukturelle forskjeller i sammenheng med en ordbok. Selv om Dag Gundersen skrev sin ordbok i 60årene da protestene mot samnorsken og mot tendensen til å «fornorske» bokmål nådde sin høydepunkt, hadde man ikke problemer med å selge den. Også de tospråklige ordbøkene har funnet sine brukere, og i dag blir de vanligvis anbefalt til utlendinger som lærer seg norsk. Hvordan de tospråklige ordbøkene beskriver sammenhenger og forskjeller mellom ord, uttrykk og deres bruk i nynorsk og bokmål, skal jeg nå prøve å analysere. 2.1. Norskengelsk ordbok av Einar Haugen I forordet til ordboken av Einar Haugen finner man en rik oversikt over norsk språkhistorie, bruksanvisning, oversikt over grammatikk (for både bokmål og nynorsk!), opplysninger om uttalen (i forskjellige deler i Norge!) og en referensbibliografi. Her kan man allerede merke at ordboken har vært utarbeidet med stor omsorg og anstrengelse. Ifølge denne innledningen er alle opplysningene i ordboken markert etter målet som de tilhører til: 1) alle opplysningene som gjelder begge mål blir uten markering 2) opplysningene som gjelder bare bokmål blir markert med +tegnet 3) opplysningene som gjelder bare nynorsk blir markert med *tegnet 4) opplysningene uten markering gjelder begge mål, men det betyr ikke at de brukes like ofte i begge to 5) opplysninger som får °tegnet er dialektale, dvs. de aksepteres ikke i noen av de to målene; i glosene markeres dialektal bruk med forkortelsen dial. 6) +/*tegnene betyr ikke at uttrykket har offisiell status (hovedform eller jamstilt form) 7) i glosene blir målene ikke systematisk spesifisert Med en «opplysning» menes først og fremst form og grammatiske opplysninger. Markørene kan imidlertid klassifisere også andre opplysninger som jeg skal vise senere. Det står i forordet at det i praksis neppe er mulig å klassifisere alle opplysninger entydig etter sin tilhørighet til bokmål eller nynorsk. De offisielle kildene inneholder ofte opplysninger som er i strid med språkbruk i dag eller med språkbruk i litteraturen, til og med hos berømte forfattere. I Norge hvor språknormene 5 Bokmål og nynorsk sammen i tospråklige ordbøker forandres så ofte, men likevel aldri kan følge den varierte språkbruken, er det ikke noe til å undre seg på. Derfor var det ikke mulig å bestemme over noen faste regler om bruk av mange ord. Etter det som fortelles i forordet, gav man stort sett opp forsøket på å klassifisere bruken av idiomer og gloser på grunn av mangel på opplysninger om litterær bruk i nynorsken. Ordboken unngår også opplysninger som gjelder bare språksystemet, og som ville ta altfor mye plass i en ordbok. For eksempel endelsen e brukes i alle infinitivsformer, fordi den er akseptert i begge språknormene. Alle adjektiver som brukes i begge mål er skrevet ut bare med endelsene et(e)/ig/lig som er vanlige i bokmål, men ikke med endelsene ut/ug/leg som brukes analogt i nynorsk. Forskjeller og forhold som ikke er regelmessige, beskrives eksplisitt i ordboken (for eksempel +ar`v/taker –en, pl –e (=*ar) betyr at formen arvtaker i bokmål er ekvivalent til formen arvtakar i nynorsk). 2.2. Norsktysk ordbok av Tom Hustad Forordet i denne ordboken forteller ikke så mye om problematikken med bokmål og nynorsk. Det er viktig å nevne at ordboken opprinnelig ble skrevet som en norsktysk ekvivalent til Einar Haugens Norskengelsk ordbok. Senere ble omfanget vesentlig utvidet til omtrent 85.000 oppslagsord (ca. 2/3 ble overtatt fra Haugens verk). Systemet blir imidlertid det samme, med unntak av nynorskmarkøren som blir forandret til et lite kvadrat.8 Stjernen brukes i denne ordboken til å markere tyske ord med uregelmessig bøyning – den står vanligvis etter forkortelsen for kjønn hos substantiver med omlyd i flertall eller hos adjektiver med omlyd i gradbøyningen. Tegnet ° blir brukt også ved tyske opplysninger til å markere dialektale eller regionale uttrykk, men også uttrykk som tilhører allmennt hverdagsspråk og som ikke skal brukes offisielt. 2.3. Hvordan problematikken løses i ordbøkene av E. Haugen og T. Hustad 2.3.1. Morfologi Morfologiske forskjeller tilhører først og fremst språksystemet og beskrives i grammatikken. Noen opplysninger må likevel stå i ordbøker. Det er opplysninger som henger sammen med et 8 I dette arbeidet bruker jeg stjernen også i sitatene og utdragene fra ordboken av Tom Hustad for å unngå forvirring. I tabellene blir også andre typografiske forskjeller tilpasset (bruk av kursiv, osv.), men ikke i direkte sitater i teksten. Kvadrattegnet blir ikke brukt i det hele tatt i dette arbeidet. 6 Bokmål og nynorsk sammen i tospråklige ordbøker bestemt ord (bøyningsklasse, osv.). Mange slike opplysninger må skrives eksplisitt ut. Hvis man bruker endelser som nøkkelen, burde man også skrive ut alle varianter for å unngå forvirring: f. eks. preteritum med endelsen a er felles både for bokmål og nynorsk, men i bokmål brukes vanligvis et; hvis man altså skriver ut hvordan preteritum dannes, må man skrive begge endelsene ut). Eksempler: • Ordet ek`orn –et/ +en Eichhorn er et nøytrum, men i bokmål (og bare i bokmål) kan det også brukes i felleskjønn • Forskjellig omgang med fremmedord i bokmål og nynorsk er særlig tydelig. Ordet akva ´rium –iet Pl. */ +ier (best. Pl. –ia/ +iene) Aquarium har en felles bestemt form akvariet. Flertall er imidlertid forskjellig: i nynorsk bruker man nullendelsen for alle nøytra, men i bokmål tilhører mange fremmedord til unntak som danner flertall med endelsen er. Ordboken av Einar Haugen beskriver nullendelsen som om det ville være en full endelse ium (og dermed i strid med språksystemet), og den unngår helt de bestemte flertallsendelsene som er regelmessige og dermed likevel entydige: akva´rium –iet, pl + ier/*ium aquarium. • Det fins også problemer f. eks. med adjektivene som har forskjellige, men likevel analoge former, og som allerede ble nevnt i forordet av Haugen. En forskjell i staving må nevnes eksplisitt: boksta´velig A – (=*bokstavleg) literal, to the letter. Bokmålsmarkøren foran oppslagsordet har man sannsynligvis glemt. I tillegg til det påstår Tom Hustad at begge muligheter finnes med hensyn til stavemåten i nynorsk: +boksta´velig Adj. – (*v(e)leg) buchstäblich, wortwörtlich. Men i ordboken hans skriver man ut alle (også de analoge) suffiksene eksplisitt: +ny`lig Adv. (*–leg) neulich, ... • Mer kompliserte beskrivelser oppstår f. eks. hos sterke verb som danner forskjellige bøyningsformer i bokmål og i nynorsk. Formene kan til og med ha flere varianter. Ordet bry`te V braut/ +brøt, +brutt/*brote/*i danner altså i bokmål formene (/med variantene) brytebrøt(/braut)brutt og i nynorsk formene brytebrautbrote(/broti). Det blir imidlertid ikke klar hvilke varianter som foretrekkes (opplysninger om frekvensen, osv. mangler) . • Verbet hjel`pe Verb +hjalp/*te, +hjulpet/*t bøyes i bokmål sterk (hjelpehjalphjulpet), men i nynorsk bøyes det svak (hjelpehjelptehjelpt). Det må man imidlertid avlede selv fra 7 Bokmål og nynorsk sammen i tospråklige ordbøker formene – det blir ikke sagt eksplisitt! 2.3.2. Valens Jeg har ikke fant noen eksempler på forskjeller i valensen til enkelte ord mellom bokmål og nynorsk i ordbøkene og heller ikke gjennom samtalene med nordmenn. Jeg tror dessuten at man kunne bruke systemet til å markere slike varianter også hvis det var nødvendig. 2.3.3. Semantikk Markeringen kan også brukes ved semantiske opplysninger og ekvivalenter. Med markørene kan man markere hele grupper med opplysninger. I den lineære strukturen i en ordboksartikkel er hierarkiske forhold ofte uklare. Der oppstår problemer med å identifisere grenser og bestemme hvor langt markeringen gjelder – hvilke opplysninger som tilhører den, og hvilke som ikke lenger tilhører den. For å sammenligne semantiske forskjeller har jeg ved siden av de tospråklige ordbøkene også brukt enspråklige ordbøker: Bokmålsordboka9 og Nynorskordboka10. Selv om disse ordbøkene ikke er de mest omfangsrike, inneholder de de nyeste og vanligste opplysningene. Eldre ordbøker er ganske raskt blitt uaktuelle i Norge og kan ikke lenger fortelle mye om språkbruk i dag. Opprinnelig ville jeg også bruke Oslokorpuset av taggede norske tekster, men dessverre inneholder det ikke nok eksempler til å forklare uklarhetene i følgende eksempler. Eksempler: • Formen akt har flere forskjellige betydninger. Det er til og med en homografisk form. Men forskjellige ordboksforfattere deler og ordner de enkelte homonymene på forskjellig måte: 9 BOKMÅLSORDBOKA 1997 10 NYNORSKORDBOKA 1998 8 Bokmål og nynorsk sammen i tospråklige ordbøker Nynorskordboka Bokmålsordboka Haugen akt I f1 (lat. actus) akt I f1 el. m1 (fra akt II a/+en lat.) [1] handling, [1] act, ceremony verksemd [1] handling, virksomhet [2] i teaterspel [2] i et skuespill [2] act (in a play) [4] bilete av naken modell [3] dokument [3] (bildet av) naken modell akt II m1 dokument [3] nude (model) [4] pl. documents [5] obs. ban: i rikets akt outlawed akt II f1 (frå lty) akt III en (lty) akt I +en/*a Hustad akt II a/+en [1] (bes. in Zus.) Akt m, Zeremonie f, Handlung [2] A, Schlußa, Aufzug m*: siste a i et drama der Sch el. letzte Akt es Dramas (også fig.) [3] A, nackte Figur: en kvinnelig akt ein weiblicher Akt akt III *a/+en (meist Pl.) Akte f, Akt (pl. Akten) m, Aktenstück n, Dokument(e) n (pl.); (meist Pl.) Dossier [fra.] s n el. s m (om en sak, person) akt IV *a/+en hist.: være i rikets a in der Acht el. geächtet sein, für vogelfrei erklärt sein akt I *a/+en [1] ans, gaum gje akt på, ta seg i akt [1] oppmerksomhet gi [1] attention; *care (of [1] (lit. und in Redew.): gi akt på noe auf e akt på noe cattle) (gi akt på pay e S. achten el. achtgeben, ta seg i akt heed to) for noe(n) sich vor etw. (jm.) hüten el. in acht nehmen [2] vørdnad, respekt [2] vørdnad, respekt [2] respect [2]: holde noe(n) i akt og ære etw. (jm.) in halde i akt og Ehre halten (holde en i akt og ære ære honor and respect sby) [3] forsett, plan, tanke [3] foreld: forsett, plan, [3] archaic: intention [3] archais. Absicht det var ikkje mi tanke (det er ikke min akt at vi (det er ikke min akt at vi skal sette oss ned akt å skade skal sette oss ned på på Formo es entspricht nicht meiner nokon Formo it is not my A, daß wir uns auf Formo intention that we niederlassen (S. Undset)) should settle at Formo (Undset)) [4] tilsyn, stell Tabelle 2.3.3.1: Substantivet «akt» Homonymet akt I som stammer fra lavtysk, og som beskrives i de tospråklige ordbøkene på en omtrent lignende måte, har tre betydninger som stemmer med betydningene i de enspråklige ordbøkene. Et unntak er Nynorskordboka som ikke markerer den tredje betydningen som foreldet, og tilføyer en fjerde betydning. Den fjerde betydningen kan man imidlertid neppe skille fra betydning nr. 1. I Nynorskordboka fikk homonymet nummer 2 (akt II), men i Bokmålsordboka står det på den tredje plassen (akt III). Homonymet som stammer fra latin klassifiseres forskjellig til og med i de tospråklige 9 Bokmål og nynorsk sammen i tospråklige ordbøker ordbøkene. I Nynorskordboka og i Haugens ordbok beskrives alt som ett substantiv. Bokmålsordboka skiller mellom to nye homonymer, og Hustads ordbok skiller mellom tre uavhengige homonymer. Første tre betydninger stemmer i alle ordbøkene. Den fjerde (akt som dokument) står i Bokmålsordboka og i Hustads ordbok uavhengig. Tom Hustad skiller også den fjerde betydningen som et uavhengig homonym, men faktisk brukes ordet i denne historiske betydningen bare i uttrykket være i rikets akt. Denne betydningen (eller uttrykket) finnes ikke i de enspråklige ordbøkene i det hele tatt. Det som er mest interessant for oss, er imidlertid forskjellene mellom nynorsk og bokmål. Markeringen brukes her bare én gang og bare i Haugens ordbok. Etter denne opplysningen kan man i bokmål også bruke ordet i betydningen care (of cattle). Denne opplysningen henger sammen med en lignende opplysning hos verbet å akte, som står også i Hustads ordbok11: Nynorskordboka Bokmålsordboka akte v1 (frå lty, av akt akte v1 (av akt III, fra lty) II) [1] bry seg om, ta omsyn til [1] anse; bry seg om akt ikke på det han sier akt ikkje på det han seier [2] vakte; passe, stelle [2] vokte, passe a a munnen sin / a munnen sin / hun ar buskapen / a seg seg for å gjøre det [3] verdsetje, vørde [3] verdsette, vøre a og ære Haugen akte V a/+et Hustad akte Verb a/+et [1] heed, pay [1] (meist lit.) hüten (*auch Vieh) (akt attention (på to); munnen din! hüte deine Zunge! a på *take care of (cattle) noe(n) auf etw. (jn) achten; han aer (a seg (for) watch out ikke på det das kümmert ihn nicht; (for)) a seg (for noe(n) sich (vor etw. (jm.)) h el. auf der Hut sein) [2] respect (an aet familie a red family; et aet navn a red name ) [4] etle, tenkje (seg til [4] tenke (seg til å) a seg [3] lit. intend (å to) (a å) ho akta å til fjells / hun at å seg plan (to go); han protestere mot protestere mot planen / aer seg hit he is planen / a seg til det akter jeg ikke å planning to come fjells finne meg i here) [2] achten, schätzen, respektieren (en aet familie eine angesehene Familie) [3] lit. beabsichtigen (han aer å forfølge saken videre er hat sich vorgenommen, die Sache weiter zu verfolgen; hvor aer du deg hen? wo willst du (denn) hin?) Tabelle 2.3.3.2: Verbet «å akte» Disse ordene og deres bruk i det moderne språket kan man neppe analysere mer nøyaktig. De brukes ikke så ofte lenger. Og det er ikke min oppgave å rette ordbøkene nå. Eksemplene viser at forskjellene mellom bokmål og nynorsk kanskje ikke bare gjelder betydninger, men også deres ekstensjon. Markeringen klarer å løse til og med dette problemet. Ved siden av dette blir også en svakhet i ordbøkene tydelig: hos Einar Haugen 11 Dessverre kan jeg ikke bekrefte denne opplysningen i det hele tatt. For nordmenn som jeg har drøftet emnet med, er denne muligheten ikke bare helt ukjent, men angivelig helt umulig. 10 Bokmål og nynorsk sammen i tospråklige ordbøker er det ikke helt klart om forbindelsen a seg (for)/ watch out (for) tilhører bare nynorsk eller begge mål. Brukeren kan ikke være sikker på om stjernen gjelder også dette eksemplet, eller om det allerede tilhører til et høyere nivå i artikkelens struktur.12 • Verbet å stople viser en interessant inndeling av betydningene. Begge tospråklige ordbøkene beskriver ordet identisk. Den første betydningen gjelder bare bokmål, de andre tre gjelder bare nynorsk: Nynorskordboka Bokmålsordboka stople v1 (av stopul) Haugen stople V a/+et Hustad stople [å] V a/+et + [1] stipple *[2] pile, stack [1] fachl. tüpfeln *[2] (auf)stapeln, (auf)schichten *[3] fumble (s på orda stumble on one's words) *[4] (of sea) billow, roll *[3] tasten, fummeln (s på orda stammeln, stottern; holperig lesen) *[4] sich auftürmen, kabbeln leggje opp i stopul (2); lø opp (stoplesjø krapp sjø, særleg når vind og bølgjer møtest) Tabelle 2.3.3.3: Verbet «å stople» I Bokmålsordboka finner man ikke ordet i det hele tatt. Den store og omfangsrike Riksmålsordboken bekrefter at ordet virkelig har betydning nr. 1 som begge tospråklige ordbøker påstår. Nynorskordboka inneholder ordet, men den beskriver bare den første av de neste tre betydningene. Den siste kan man kanskje sette i sammenheng med substantivet stoplesjø som også finnes i Nynorskordboka. Det er et spørsmål om dette virkelig bare er ett ord eller to homonymer. Ingen av ordbøkene forteller noe om ordets opprinnelse. Eksemplet viser likevel hvor lett det er å markere de enkelte betydningene (i tilfellet de virkelig er forskjellige) etter sin tilhørighet til ett av de to målene. Her er gruppene med opplysninger helt uavhengige (betydninger). De har klare grenser, og det finnes ikke usikkerhet i forhold til markeringens gyldighet. • Verbet å lufte viser dialektale forskjeller i bruk av lignende former. Den siste betydningen blir offisielt begrenset bare til nynorsk. I bokmål brukes i denne betydningen verbet å lukte som også finnes i nynorsk med de samme betydningene som det har i bokmål. Nynorsk kan 12 I ordboken står eksemplet ikke i klammer (som i tabellen), men etter et kolon. Det er imidlertid ikke klart hvilken rolle kolonet spiller i forhold til nynorskmarkeringen (stjernen). Er det en grense som opphever gyldigheten til stjernen? 11 Bokmål og nynorsk sammen i tospråklige ordbøker altså i denne betydningen bruke begge former, mens bokmål bruker bare formen lukte. Det ville altså være nyttig å ha en henvisning til formen lukte under den siste betydningen (dvs.: „(=+lukte)“) i ordbøkene . Nynorskordboka Bokmålsordboka Haugen Hustad lufte v1 (av luft) lufte v1 lufte V a/ et lufte Verb a/ et [1] sleppe inn frisk luft i eit rom, ventilere; setje noko i frisk luft; mosjonere l i rommet / l ut matosen / l seg / l sengekleda / l vin / l hunden [1] slippe inn frisk luft i et rom, ventilere; sette noe i frisk luft; mosjonere l ut i stua / l sengklær / l vin / l radiatorene / l seg / l hunden [1] air (bedding, dog, room, etc.; also fig.), ventilate (l seg get some air; l ut (fig.) clear the air, ventilate; clear out, trim away (esp. between plants, trees, etc.)) [1] lüften, ausl, (også tekn.) entl;, durchl, (dels fig.) ventilieren [v]; (fange, hund) ausführen (l sengetøyet die Betten el. das Bettzeug l el. a; jeg let spørsmålet med ham wir habe die Frage kurz angeschnitten; vi let mulighetene for mottiltak wir haben mögliche Gegenmaßnahmen vt el. in Erwägung gezogen; l et værelse ein Zimmer l, a, d el. e; her må l es ordentlig ut hier muß gründlich aus, (durch)gelüftet , eet el. vt werden; gå ut og lufte seg an die frische Luft gehen, (dels foreld. el humor.) osich ausl) [2] gje uttrykk, utløp (for) [2] gi uttrykk, utløp l irritasjonen sin for l sin ergrelse + ? > [1] fig. [3] nemne, slå frampå nevne, slå frampå ? > [1] fig. um l ein tanke, plan om l et spørsmål for nokon / en tanke for noen [2] (of wind) blow lightly [4] gje frå seg lukt, lukte (2) det luftar vondt + ? > [1] [2] windig sein, (ungleichmäßig) wehen, ziehen, (lok., dels) schralen *[3] give off an odor, *[3] (intrans.) riechen (oo), stinken smell (au) Tabelle 2.3.3.4: Verbet «å lufte» I de enspråklige ordbøkene får ordet en finere inndeling i betydninger. De tospråklige ordbøkene tilføyer tvertimot en ny betydning som ikke nevnes i de enspråklige ordbøkene. Dette eksemplet viser hvordan ord som overlapper hverandre i noen betydninger (men ikke identisk i bokmål og i nynorsk) beskrives. • Et annet problem viser ordparene einsam/ensom og einsemd/ensomhet. Her kommer vi imidlertid til uenigheter (eller mangel) mellom de enkelte ordbøkene (eller er det bare mangler i dem?).13 De tospråklige ordbøkene viser ikke noen forskjeller mellom disse 13 Opplysningene fra nordmenn stemmer heller ikke helt igjen! 12 Bokmål og nynorsk sammen i tospråklige ordbøker parallelle ordene i bokmål og nynorsk. De utnytter også ekstensjonen til ekvivalenter i de andre språkene for å unngå en nærmere beskrivelse. Derimot viser bare Bokmålsordboka muligheten til å bruke begge uttrykkene i sammenheng med et øde sted. Nynorskordboka nekter ikke for denne muligheten, men den bekrefter heller ikke noe. Den andre betydningen kan forstås bare som en naturlig, overført bruk av den første betydningen som ikke trenger eksplisitt forklaring eller bekreftelse. Nnordboka einsemd f1 Bmordboka Haugen Hustad ensomhet a *einsemd +ensomh el. en a et en det å vere einsam sitje i e(a) [1] det å være ensom (1) vite hva e er isolation, loneliness loneliness, solitude [2] øde sted langt ute i e en *einsemd a + ensomhet [å] en Einsamkeit f sg., Verlassenheit f sg., Vereinsamung f sg. Einsamkeit f sg., Alleinsein n sg., Verlassenheit f sg., Vereinsamung f sg.; E, Abgelegenheit f sg., Menschenleere f sg. Tabelle 2.3.3.5: Substantivene «einsemd» og «ensomhet» Nynorskordboka Bokmålsordboka Haugen einsam a1 ensom adj t, me einsleg, aleine; [1] alene, ene kjenne seg e og forlatt / i eme stunder / +ensom A t, pl. +ensom [å] Adj., Pl. me en e majestet, se majestet / me (=*einsam) einsam, allein, verlassen, en e ulv, se ulv lonely, lonesome, vereinsamt; solitary ei, abgelegen, unbewohnt, [2] avsides, øde; abgesondert (her er et hier lebt man ei) adv: huset ligger et til som saknar samvære; stussleg; avsides ? > [1] *einsam A cf ensom Hustad *einsam Adj. cf. ensom: einsam Tabelle 2.3.3.6: Adjektivene «einsam» og «ensom» Dette eksemplet viser tydelig hvor farlig det er å forenkle beskrivelsen ved hjelp av ekvivalenter i det andre språket, selv om det gjør arbeidet lettere. Det oppstår spørsmål som ordbøkene ikke kan svare på. Bare Bokmålsordboka forteller entydig om muligheten til å bruke ordene i den overførte betydningen. Vil kanskje Nynorskordboka fortelle at ordet ikke kan brukes slik i nynorsk? I hvert fall forteller de tospråklige ordbøkene ingenting om hvor mye ekstensjonen til det norske ordet stemmer med ekstensjonene til alle de ekvivalentene i det andre språket som står på høyre sida. 13 Bokmål og nynorsk sammen i tospråklige ordbøker • Ordene kjærlighet og kjærleik bør være ekvivalenter. Likevel beskriver man dem i de tospråklige ordbøkene helt uavhengig: Nynorskordboka Bokmålsordboka kjærleik m1 kjærlighet f1 el. m1 [1] det at noko er kjært; [1] varm, hengiven følelse for noe(n) godhug; varande venskap; elsk; k til hjemmet, nesten, fedrelandet, folket, naturen, kunsten / Guds k levande interesse Haugen kjæ`rlig/het –en + [1] affection (til for), love, passion; bibl. charity k til heimen, nesten dei nære tinga Hustad kjæ`rlig/het –en + [1] Liebe f sg.: k til kunst L zur Kunst; gammel k ruster ikke (Sprichw.) alte L rostet nicht (ordspr.); k ved første blikk L auf den ersten Blick; lide av ulykkelig k an unglücklicher L leiden [2] rel: miskunn, godleik Guds k [3] erotisk dragnad mot eit anna [2] erotisk følelse, hengivenhet menneske; for en annen person ken mellom mann og kvinne / erotiske kjensler memellom to k ved første blik /, den menneske; store ken / lide av elskhug ulykkelig k som ikke blir den store ken / fri k samliv gjengjeldt / fri k seksuelt utan ekteskap / få k til nokon samliv uten ekteskap / / sanseleg k / ulykkeleg k gammel k ruster ikke taper seg ikke [3] gjenstand for kjærlighet (1,2) hun ble hans store k / bøker er hennes store k [4] kjærlighet på pinne sukkertøy [2]: k på pinne (candy) sucker [2]: k på pinne Lutschstange f, Stielbonbon –s m el. –s n Tabelle 2.3.3.7: Substantivene «kjærleik» og «kjærlighet» Den nynorske formen beskrives i begge tospråklige ordbøkene mye enklere: *kjæ`r/leik – en affection, love i Haugens ordbok, og kjæ`r/leik –en Liebe f sg. i Hustads ordbok.14 Hvorfor ordene beskrives uavhengig er ikke klart. Betydningene er faktisk identiske.15 De 14 Her står det altså uten markering, som om ordet var akseptabel også i bokmål! 15 Betydning nr. 2 i Nynorskordboka er ikke helt klar. Uttrykket guds kjærlighet står også i Bokmålsordboka, men bare som et eksempel til betydning 1. Sannsynligvis har begge ord en lignende ekstensjon når det gjelder betydninger 2 og 3. Er beskrivelsene bare dårlige eller fins det virkelig forskjell mellom bruk av disse to ordene? 14 Bokmål og nynorsk sammen i tospråklige ordbøker beskrives også identisk. Den eneste forskjellen er uttrykket kjærlighet på pinne som ikke kan dannes ved bruk av den nynorske formen kjærleik. • Strid mellom substantivene hjem og heim har en lang tradisjon i Norge, særlig når det gjelder navnet Trondheim som (kanskje de fleste) innbyggerne i byen kaller Trondhjem. Nynorskordbok Bokmålsordboka a I heim m1 (norr I hjem –met, , ma el. – heimr) mene el. II heim m1 (norr heimr) [1] stad, hus der ein bur; (varande) bustad (stundom medrekna huslyden) få seg, byggje, skipe ein h / bu (mellombels) langt frå hen / gå frå hus og h / ein god h gode tilhøve i familien o l [2] institusjon for folk som treng pleie og ikkje kan greie seg sjølve barneh / gamleh / pleieh / h for narkomane [1] bolig, fast oppholdssted (for familie, husstand) skape seg et et lunt og trivelig hjem / komme fra et godt hjem / få sitt eget hjem / løpe fra hus og hjem / et oppslagsverk for hjem og skole / denne trange hybelen har vært mitt hjem i to år Haugen hjem I –met cf. heim I + Hustad he´im I. –en (=+hjem I. –met, cf. auch da!) he´im I. –en (=+hjem I. –met) Heim n, Zuhause n [1] home: de måtte gå fra hus og sg., Haus –er n*, h they were thrown out on Wohnung f; the street (i.e,. dispossessed); det ble som en annen h (+et annet hjem) for ham it was like a second h for him; i hen (+i hmet) at h; stifte h marry and settle down. [2] native country; habitat. [2] bygning, anstalt som er bolig [3] charitable institution, for folk som ikke har et hjem (1) home. el. ikke kan bo hjemme barneh, hvileh, pleieh, studenth, sykeh Heimat f sg.; Heim, Anstalt f; [3] bustad(hus) for bortebuande studenth / h for landsungdom [4] verd, jord i denne hen / til hsens ende I heim m1 (norr heimr) sj: verden i denne hen / nå helst i sms: fjellhen, tåkeh en / i uttr (bort) i hør og h, se I hør [5] (trygt) grunnlag, fornuft det er ikkje h i (el. med) det Tabelle 2.3.3.8: Substantivene «heim» og «hjem» 15 [4]: +det himmelske hjem theol. ... heaven. *[5] world: i denne hen in this *Welt f: w. [...] Bokmål og nynorsk sammen i tospråklige ordbøker Formen heim kan i bokmål bare brukes i betydningen verden og helst i faste sammensetninger og faste uttrykk. Ellers brukes det ikke så ofte som verden i det hele tatt, men det forklares ikke i ordbøkene eksplisitt. Eksemplene og idiomatiske uttrykk i Hustads ordbok stemmer med eksemplene og idiomatiske uttrykk i Haugens ordbok og jeg skriver dem derfor ikke ut i tabellen. Betydning nr. 4 gjelder faktisk bare bokmålsformen hjem. Betydning 2 (i de tospråklige ordbøkene) finnes ikke i de enspråklige ordbøkene. Derimot inndeler Nynorskordboka betydningen nr. 3 i to mindre betydninger, og tilføyer en ny betydning (nr. 5) som ikke nevnes i de tospråklige ordbøkene. Det er interessant å merke at de tospråklige ordbøkene bearbeider formen hjem under lemmaet heim i en felles ordboksartikkel. Forskjellene blir imidlertid entydig markert. Betydning nr. 5 kan man virkelig bare forbinde med den nynorske formen heim. Det idiomatiske uttrykket under betydning nr. 4 brukes derimot bare med bokmålsformen hjem. Forskjellen i kjønn til begge ordformene vises tydelig også i eksemplene som er felles for både hjem og heim. Begge de tospråklige ordbøkene har ingen markering foran formen heim og vil dermed påstå at formen ikke er begrenset bare til nynorsk. Det fortelles dessverre ikke hvor vanlig det er å bruke formen i bokmål og med hvilke begrensninger (bare i betydning verden, eller i alle betydningene? Hvor ofte? I hvilket miljø?). Dette er en svakhet i systemet. Det er faktisk umulig å beskrive slike detaljer uten å lage en uoversiktlig haug med forvirrende opplysninger. Et annet argument kan være det at bruken kanskje ikke er vel dokumentert i norsk språk og kanskje ikke kan bekreftes i det hele tatt. Skriftspråket er sjelden knyttet til dagligspråk og dialektene. I denne situasjonen er det vanskelig å bestemme hva man egentlig mener med bruken. Formen hjem beskrives i Bokmålsordboka lignende som formen heim i Nynorskordboka. Betydningene nr. 2 og 3 er slått sammen, og de siste to betydningene er (selvfølgelig) ikke til stede. I betydning verden, jord brukes vanligvis ordet verden eller kanskje også formen heim. I Haugens ordbok inneholder formen hjem bare en henvisning til formen heim. Tom Hustad beskriver ordet hjem helt selvstendig: hjem I –met (cf. auch heim) Heim n, Zuhause n sg., Haus –er n*, Wohnung f, Heimat f sg.; Heim, Anstalt f; (best.) + 16 Bokmål og nynorsk sammen i tospråklige ordbøker die Familie [ie], das Fnleben: et h for uteliggere ein Betreuungsheim; et h for uføre ein Heim für Behinderte; skole og h Schule und Elternhaus; flyktningene fant et nytt h i Norge die Flüchtlinge haben in N. ee neue Heimat gefunden; få sitt eget h sich häuslich niederlassen; en (eigenen) Hausstand gründen; ikke ha noe h kein Z haben; barnet har vansker i hmet das Kind hat zu Hause schwierigkeiten, hat ungünstige häusliche Verhältnisse; i (det lune) hmet am häuslichen Herd; han fikk innpass i byens beste h er wurde in die besten Häuser der Stadt aufgenommen; med de tusind hjem mit Tausenden von Heimen (B. Bjørnson) Denne beskrivelsen bringer ikke noen nye opplysninger, bare en rekke eksempler og idiomatiske uttrykk. 2.3.4. Fraseologi Det er neppe mulig å dokumentere bruken av idiomene (særlig i nynorsk) som Einar Haugen skriver i forordet, og derfor gav man stort sett opp forsøkene på å beskrive den i detalj. Likevel finnes det mange eksempler på slike opplysninger i ordbøkene, som for eksempel ved ordet heim som vises ovenfor. Eksempler: • Under lemmaet måtte finner man denne opplysningen: det må du si, *du må så seie du magst so sagen (lignende i Haugens ordbok). Det betyr at ved siden av uttrykket det må du si brukes i nynorsk også uttrykket du må så seie. Opplysninger om frekvensen eller preferansene finner vi ikke. • Ordene +telle og *telje beskrives i ordbøkene helt forskjellig. I Haugens ordbok står formen *telje bare som en henvisning til formen +telle. Der finner vi m. a.: ... 5 (with prep., adv.): *t av, fra dissuade from, advise against; t etter, over count over, recount; t med count in, include; be of consequence, count; t opp count out (e.g. so many bills); count up (e.g. votes); *t til persuade, urge. Her står altså uttrykk (telje av, telje fra und telje til) som angivelig bare er vanlige i nynorsk. De andre uttrykkene gjelder begge målene. Det er et spørsmål hvorfor formen fra står i et uttrykk som angivelig gjelder bare nynorsk som vanligvis bruker formen frå. Situasjonen er mye klarere i Hustads ordbok som beskriver begge ord på en annen måte. Her finnes det under lemmaet +telle m.a. to sitater fra litteraturen. Hele gruppen (betydning) blir markert som dialektal bruk: ... (2) (dial., cf telje): (kvakksalversken) teler folk av fra at gaa til doktor die Quacksalberin rät den Leuten davon ab, den Arzt aufzusuchen (G. Scott); hun (måtte) tælje bror sin til at indrette sig paa gammel vis sie mußte ihren Bruder dazu überreden, sich wie früher einzurichten (P. Egge) Dette eksemplet viser at disse uttrykkene neppe kan klassifiseres så entydig i bokmål. De 17 Bokmål og nynorsk sammen i tospråklige ordbøker ble brukt til og med i litteratur, men i en tid da både bokmål og nynorsk var i en annen tilstand. Skrivemåtene tele og tælje viser at formene og bruken har lite felles med bokmål i dag. Forfattere bruker forresten av og til dialektale uttrykk også i dag. Artikkelen til *telje deles derimot i to deler i Hustads ordbok. Den første delen er igjen mer eller mindre bare en henvisning til formen telle. Den andre delene inneholder alle de uttrykkene som står i Haugens ordbok under lemmaet telle markert med stjernen: *telje Verb (Präs. tel) talde, talt (1) (cf. telle2) zählen (2) : t (einkvan) frå (eitkvart) (jm etw.) abraten; t (einkvan) til (eitkvart) (jm etw.) empfehlen el. anraten; t for ein jn zu überzeugen versuchen Eksemplet viser at det er mye bedre å beskrive forskjellige former mer uavhengig og forbinde opplysninger som gjelder bare nynorsk med den nynorske formen og opplysninger som gjelder bokmål med bokmålsformen. Dermed er det klarere hvordan uttrykkene brukes i nynorsk, og hvordan de kan (eller ikke kan) brukes i bokmål. • En rekke idiomatiske uttrykk som angivelig bare brukes i nynorsk står for eksempel under lemmaet svar: ... *stå til ss be accountable, responsible; *ta til ss answer, reply; *vere til ss be available, present. Tom Hustad beskriver situasjonen igjen på en annen måte, og igjen sannsynligvis mye klarere og mer realistisk. Det første uttrykket blir i hans ordbok helt uten markering. De andre to beskrives nærmere med opplysningen (+ dial.). Etter symboltabellen i ordboken betyr det at uttrykket i bokmål bare brukes dialektalt (men det brukes uten begrensninger i nynorsk). En slik opplysning forteller faktisk ikke noe spesielt, fordi grensen mellom folk som bruker bokmål og folk som bruker nynorsk ikke stemmer med noen klar grense mellom dialektene. Det er altså helt naturlig at mange uttrykk fra nynorsk oppfattes som dialektale uttrykk i bokmål. Av og til tilhører slike uttrykk og former den radikale formen av bokmål – de får forskjellig status (sideform, klammeform).16 Status kan også forandres fra år til år. Opplysningen forteller faktisk ikke noe mer enn at uttrykket brukes i Norge, men det har ingen offisielt status i bokmål. Og det er ikke noe annet enn det som den vanlige stjernemarkeringen sier. Denne markeringen forteller altså ikke noe mer om bruken. Men det kan få en ny betydning når man oppfatter den som en stilistisk opplysning. Slike opplysninger er nyttige for alle utlendinger som ikke er helt sikre om hvordan ordet oppfattes fra forskjellige synspunkt og særlig for alle oversettere og litteraturforskere som ikke ikke har norsk som morsmål. 16 Se f. eks. formen heim. 18 Bokmål og nynorsk sammen i tospråklige ordbøker • En annen mer fullstendig opplysning finner man hos Tom Hustad for eksempel ved uttrykket spille opp. I Haugens ordbok står det bare ... s opp strike up (music); ... Tom Hustad beskriver en ny betydning som uttrykket angivelig kan ha i nynorsk: s opp einsetzen, zu sp beginnen; (dial. + auch =) *spele opp (auch) Konkurs machen; ... Det betyr at uttrykket i nynorsk også har en ny betydning Konkurs machen, ved siden av den vanlige betydningen zu spielen beginnen. • Noen forskjeller i strukturen til begge målene kan også vises i en ordbok. Det gjelder ord som spiller forskjellige roller i de to språkene. Et eksempel er eiendomspronomenet sin som i nynorsk danner en korrekt omskrivning for genitiv: ... *5 (used as a possessiv form): mannen sin hatt (=+mannens hatt) the man’s hat; ... Tom Hustad beskriver situasjonen enda nøyaktigere: ... (B) [als Ersatz/Ergänzung des genitivischen –s; im Bokmål nur dial. oder fam., im Nynorsk auch schriftsprachlich]: far sin hatt = hatten til far Vaters hut; ... Her finner man også den andre omskrivingen for genitiv som ofte foretrekkes i bokmål i dag. • Et annet eksempel viser adverbene hvor og der som innledningsord i en adverbial implikativsetning.17 I bokmål brukes vanligvis hvor, mens i nynorsk brukes der. Einar Haugen beskriver situasjonen på denne måten: hvor2 [vorr´] Av (=der3) 1 where, in (on, from, to etc.) which: huset h vi bor (=som vi bor i)/*huset der vi bor the house in which we are living; ... + Dessverre finnes ikke formen der3 i ordboken i det hele tatt! Hos Tom Hustad står adverbet i denne betydningen ikke som et selvstendig homonym. Det blir en del (et spesifikt eksempel) i artikkelen til lemmaet +hvor1 (som et stedsadverb): ... i det landet +hvor/*der vi lever in dem Land, in dem (°wo) wir leben.18 Heller ikke i denne ordboken finner man imidlertid noen opplysninger om denne bruken under formen der! 2.3.5. Form Forskjeller mellom varianter kompliserer også mange detaljopplysninger som må skrives ut flere ganger, eller som må være veldig eksplisitte og tydelige til å forklare forskjeller: Eksempler: 17 Se NORSK REFERANSEGRAMMATIKK 1997, s. 1064 18 Markeringen ° foran det tyske adjektivet wo som skal markere en uoffisiell bruk, er også en overraskelse. Etter den tyske grammatikken HELBIG/BUSCHA (1996, S.677679) er denne muligheten helt korrekt (i dag)! 19 Bokmål og nynorsk sammen i tospråklige ordbøker • Formen a´v/talt pp of +tale2, *telje er altså partisippet til verbet avtale i bokmål, men det er partisippet til verbet avtelje i nynorsk. Disse verbene har imidlertid helt forskjellig betydning! Dette oppdager man først når man sammenligner de to ordboksartiklene. De lignende formene er for brukeren forvirrende. I virkeligheten dreier det seg faktisk om to forskjellige verbstammer: tale er et verb som brukes både i bokmål og nynorsk, mens telje er formen som er spesifikk for nynorsk og som samsvarer (for det meste) til formen telle i bokmål. I tillegg til det oppdager man altså at verbet avtale ikke er begrenset bare til bokmål. Det ville bety at formen avtalt er tvetydig (homonym) i nynorsk. Men det er den heldigvis ikke, fordi i nynorsk er bøyningen forskjellig og partisippet til avtale heter her avtala. Formen avtalt tilhører altså i nynorsk entydig til verbet avtelje. Markøren + foran opplysningen (henvisningen) +tale2 er altså helt korrekt. I dette tilfellet prøver Tom Hustad (sannsynligvis) å unngå mulige forvirringer med å sløyfe hele opplysningen om forhold til bokmålsformen avtale. Her forbindes formen avtalt bare med verbet avtelje og får en entydig nynorskmarkering: *a´v/talt Part. Perf. v. /telje: abraten (iea). • Forkortelsen H står i Norge for det konservative partiet Høyre. Formen høyre henger sammen med den nynorske formen høgre. Einar Haugen beskriver forkortelsen slik: H = + Høyre2/*Høgre. Formen +høyre2 danner imidlertid bare en henvisning på formen *høgre1. Tom Hustad nevner ingen mulighet å bruke formen Høgre som navn for det politiske partiet. Lemmaet høyre er her også først og fremst en henvisning til formen høgre. I tillegg til det nevnes her imidlertid navnet til partiet Høyre. Partiet nevnes også i artikkelen til lemmaet høgre, men bare i formen Høyre! Det er også interessant å merke at begge to formene står uten markering i denne ordboken, selv om henvisningen fra formen høgre tilbake til formen høyre inneholder en markering: høgre1 Adj. (=+høyre2). Det er altså en inkonsekvens i ordboken. Etter Bokmålsordboka kan formen høgre også brukes i bokmål. Formen høyre kan imidlertid ikke brukes i nynorsk i det hele tatt. Det betyr at til og med markeringen foran formen *høgre i Haugens ordbok ikke tilsvarer situasjonen i dag. • Sammensetningen *katt`/auga –et, pl –augo (=+auge) cf /øye tilsvarer formen kattøye i bokmål, men den kan i nynorsk også ta formen kattauge. Tom Hustad nevner bare den siste muligheten, men han skriver ut de tyske ekvivalenter en gang til i denne artikkelen: 20 Bokmål og nynorsk sammen i tospråklige ordbøker *katt`/auge –t cf. /øye: Auge (n) er Katze; Rückstrahler (m); Katzenauge. I artikkelen til formen kattøye beskrives de enkelte betydningene nøyaktigere og blir nummerert. Etter opplysninger i Nynorskordboka kan både kattauge og kattauga brukes i nynorsk i dag. • Formen knekke tilhører to forskjellige verb i bokmål. Det første er intransitivt og bøyes sterkt. Det andre er transitivt og bøyes svakt. I nynorsk har bare det første verbet formen knekke, mens det andre heter knekkje.19 Situasjonen er egentlig ikke så komplisert å beskrive: verbene beskrives uavhengig som to selvstendige homonymer. Den første formen har ingen markering: knek`ke1 V knakk, +knekt/*knokke/*i ... Den andre får en markering: + knek`ke2 V –a/ +et/knekte (=*je) ... Formen knekkje får selvfølgelig sin egen artikkel, men bare som henvisning til knekke2. I Hustads ordbok står stort sett like opplysninger med mindre unntak: under knekke2 nevnes ikke den forskjellige nynorske formen, og under formen *knekkje finner man også en ekvivalent – resten av ekvivalentene finnes under hovedlemmaet knekke2. Det er ikke sikkert om slike grove opplysninger for de utålmodige brukere mer hjelper eller skader. • En interessant gruppe i ordbøkene danner forskjellige varianter for krydder: *krydd´ et cf krydder *kryd`de1 a cf krydder *kryd`de2 V a cf krydre kryd´der –eret/ret (=*krydd, *krydde1, +krydderi) seasoning, spice. + krydderi´ et cf krydder Den universale formen krydder har i nynorsk varianter krydd og krydde, og i bokmål varianten krydderi. Det stemmer med opplysninger i Nynorskordboka og Bokmålsordboka.20 Tom Hustad beskriver formene på en lignende måte. Han skriver igjen ekvivalenten hos alle formene. Det skader ikke her, fordi det finnes bare én ekvivalent. 21 Den bestemte formen beskrives her som kryd(de)ret. Det er kanskje klarere enn de to varianter av bestemte «endelser» som står i Haugens ordbok uten noen opplysning hva som egentlig skjer med stammen.22 • En lignende situasjon oppstår med variantene til mys(e)smør: my`se/smør –et cf mys/ 19 Bokmålsformen knekke kan etter Nynorskordboka brukes i denne betydningen også i nynorsk, men bare som sideform (klammeform). 20 Formen krydde2 bør egentlig ikke stå her – det er en nynorsk form for verbet krydre i bokmål. 21 Men det virker litt rart når alle formene står i rekken. 22 Skal det altså hete kryd(de)ret eller kanskje krydder(e)ret? Man kunne jo tidligere merke at Haugen gjør hva som helst med «endelsene»! 21 Bokmål og nynorsk sammen i tospråklige ordbøker [...] ° mys`mer –et cf mys/smør ° mys`mør –et cf mys/smør [...] + mys`/smør –et (=° mysmer, ° mysmør, *myse/) 1 cream cheese made from sweet whey. 2 spread for bread made from scalded sour milk mixed with flour and sweetened with syrup I bokmål brukes formen myssmør, men i nynorsk foretrekkes formen mysesmør. Hvorfor den siste står uten markering (når henvisningen fra lemmaet myssmør til den har en markering) er ikke klart. Nynorskordboka og Bokmålsordboka hjelper ikke: i begge(!) to finnes bare formen myssmør! I de tospråklige ordbøkene finnes det også to andre dialektale varianter. Det er et spørsmål om det har mening å ha tatt dem inn i disse ordbøkene. Likevel viser det at markeringssystemet kan beskrive slike situasjoner oversiktlig og uten problemer. • Formen kyr oppfattes vanligvis som flertall til substantivet ku. I dialektene kan det også være grunnformen selv (entall): ° ky´r1 –a/en, Pl. – cf. ku: Kuh (f) ky´r2 Pl. v. ku: Kuh (f) Det oppstår altså to homonymer som beskrives helt uavhengig. Det første lemmaet er et fullstendig substantiv, selv om det bare er en dialektal variant. Det andre lemmaet er bare en flertallsform som henviser til grunnformen ku. Einar Haugen beskriver begge formene på nesten samme måte. Igjen står det ikke ekvivalenter under noen av de to lemmaene – begge to er bare henvisninger til formen ku. • Verbet å steke har også varianten å steike. I nynorsk heter det imidlertid å steikje. Det beskriver Haugen ved hjelp av en «endelse» for å spare plass: stei`ke V –te (=*je, +steke) roast; ... ... *stei`kje V –te cf steike ... + ste`ke V –te cf steike + Tom Hustad beskriver lemmaene på nesten samme måte. Bare formen steike er ikke markert. Etter Nynorskordboka kan denne formen brukes i nynorsk (i dag), men bare som en klammeform. Med hensyn til formen knekke2 (som har det samme status og er markert) burde den vært markert. 2.4. Oppsummering Undersøkelsen viser at metoden (markering av de enkelte opplysningene etter sin gyldighet i 22 Bokmål og nynorsk sammen i tospråklige ordbøker bokmål og nynorsk) løser de fleste problemene som oppstår med de to norske skriftspråksnormene i en ordbok. Den løser også mange problemer med andre (dialektale) varianter. Problemene kan oppstå i sammenheng med uklart hierarki. Men de fleste problemene som jeg har oppdaget henger sammen med inkonsekvenser og feil i ordbøkene. Henvisninger mellom de enkelte lemmaene er dessverre ikke fullstendige og ikke helt konsekvente. Selv om systemet sannsynligvis opprinnelig har en eller annen hensikt, kunne jeg ikke finne noen klare kriterier for hvordan og hvorfor noen former er beskrevet sammen under ett lemma (f. eks. hjem og heim), mens andre beskrives helt uavhengig (f. eks. kjærlighet og kjærleik), eller hvorfor det ikke finnes noen henvisninger mellom noen av de parallelle formene. Det finnes henvisninger mellom alle varianter som har helt identisk betydning og bruk, bare forskjellig rettskrivning. Ofte finner man imidlertid ikke noen henvisninger mellom parallelle former som har den samme intensjonen og nesten samme ekstensjon. Noen ganger beskrives slike ord helt uavhengig, andre ganger beskrives begge to former sammen i en ordboksartikkel, og den andre formen blir bare til en henvisning til den første formen med hovedartikkelen (en full beskrivelse). Det finnes faktisk større forskjeller mellom formene hjem og heim, enn mellom formene kjærlighet og kjærleik. Likevel beskrives de andre to helt uavhengig (til og med uten henvisninger!), mens de første to formene beskrives i en felles artikkel, under lemmaet heim. Tom Hustad prøver å gjøre situasjonen mer oversiktlig og dermed ordboka lettere å bruke, men han deler lemmaene ofte ikke i noen betydninger og beskrivelsene overlappes delvis. Han tilføyer også de viktigste ekvivalentene etter lemmaene som ellers bare skal henvise til et annet lemma. Dermed kan utålmodige brukere kanskje fortere finne det som de leter etter, men systemet selv blir mer komplisert og uoversiktlig. Han tilføyer også en menge eksempler til formen hjem, og lemmaet blir dermed faktisk uavhengig av lemmaet heim. Likevel kan brukeren ikke være helt sikker på om han altså skal sammenligne opplysningene med opplysningene til den andre formen, eller om artikkelen allerede er helt fullstendig. Når det gjelder formene kjærlighet og kjærleik, kan man kanskje forklare situasjonen igjen rent praktisk på grunn av svært korte beskrivelser (man trenger bare en eller to ekvivalenter) som ikke trenger videre opplysninger. Ordene og deres betydninger stemmer (uten større komplikasjoner) med lignende ord i tysk eller engelsk, og dermed har det ikke noen mening å beskrive nøyaktigere detaljer. En annen grunn kan være mangel på opplysninger om bruken (særlig når det gjelder nynorske former og eksempler) som Einar Haugen påstår i forordet. Det er til og 23 Bokmål og nynorsk sammen i tospråklige ordbøker med mulig at kriteriet er helt subjektivt: ordene kjærlighet og kjærleik kan oppfattes på en måte som forskjellige ord på grunn av forskjellige suffiks som danner dem. Et annet problem oppstår i sammenheng med forskjellige status som ordene får i det ene eller det andre målet (sideformer eller klammeformer). I dette tilfellet tilbyr ordbøkene ikke noen opplysninger i det hele tatt.23 Undersøkelsen viser også at opplysningene i de tospråklige ordbøkene ikke alltid stemmer med opplysningene i de siste utgavene av Nynorskordboka og Bokmålsordboka. En forklaring kan kanskje være forandringene i norsk språk og språknormer som danner en uoversiktlig situasjon. Haugens ordbok er nesten 40 år gammel. Tom Hustad utarbeidet sitt verk for nesten 20 år siden. Mange opplysninger er helt ukjente til og med for nordmenn som jeg kunne drøfte problematikken med. Mange ord brukes sjelden i dag, selv om ordbøkene ikke forteller noe om dette (for passiv bruk er det kanskje ikke nødvendig). Den nyere norsktyske ordboken av Tom Hustad ble skrevet på grunnlag til Haugens ordbok. Derfor er det vanskelig å sammenligne de to ordbøkene eller beskrive dem uavhengig. Begge to bruker det samme systemet og begge to har en stor del av ordforrådet felles. Hustads ordbok ble imidlertid utvidet. Hustad prøvde å ta lærdom av Haugens feil og svakheter. Han prøvde å forbedre mange opplysninger, og også systemet selv. Det klarte han egentlig for en stor del, men av og til kan man merke nye problemer, inkonsekvenser og forvirringer. Hans upresise opplysninger om ekvivalenter under lemmaene som ikke er fullstendige kan både hjelpe og skade. Trykte ordbøker (med en lineær struktur i ordboksartikkelen) har bare begrensede muligheter. Analysen viser at i forhold til slike grenser er begge ordbøkene utarbeidet på en veldig dyktig måte. Markeringssystemet er faktisk ikke komplisert og uoversiktlig i det hele tatt. Helt omvendt. Det kunne være forvirrende for en norsk skoleelev, men det er en stor hjelp for utlendinger som arbeider med rike og blandede norske tekster. Disse brukerne kan lett følge tråden som ordbøkene tilbyr eller sammenligne de forskjellige formene. Noe lignende kann man neppe finne i de andre tospråklige ordbøkene som gjelder norsk språk. Til og med de enspråklige ordbøkene kan sjelden tilby lignende opplysninger og muligheter til å sammenligne (det er ofte ikke klart hva som virkelig er en forskjell mellom ordene, og hva som bare er en forskjell i utarbeidelsen) . Å beskrive den strukturelle forskjellen mellom bokmål og nynorsk bør helst skje i 23 Etter Lars S. Vikør (VIKØR 2002, S. 122) arbeider Norsk språkråd (siden 1996) på nye reformer som ikke lenger skal skille mellom læreboknormalen og sideformer i bokmål. Det er altså et spørsmål om disse forskjellige status vil være nødvendige i framtiden. 24 Bokmål og nynorsk sammen i tospråklige ordbøker grammatikk og ikke i en ordbok. Likevel viser begge ordbøkene en tydelig anstrengelse for å beskrive alt som er nødvendig og praktisk. Det blir tydelig at det ikke er ordbøkene som er uoversiktlige og kompliserte, men språksituasjonen i Norge selv. 25 Bokmål og nynorsk sammen i tospråklige ordbøker 3. Leksikografiske muligheter og krav i dag Ordbøker og leksikografi har faktisk ikke forandret seg mye siden middelalderen. Grunnen er enkel: begrensede muligheter i form. Ordbøker har alltid vært skrevet som bøker. Det har også bestemt hvordan en ordbok er blitt laget. Den første begrensningen er plass. Man må spare plass for å lage en ordbok slik at så mange opplysninger som mulig blir samlet på så liten plass som mulig. Den andre begrensningen er at papir bare er todimensjonalt. Det betyr at man må velge hvilke opplysninger som skal stå i ordboken og hvordan de skal uttrykkes slik at brukeren finner ut det som han leter etter uten å skrive altfor mye, og uten å bli forvirret av et uoversiktlig informasjonsoverskudd. Men forskjellige brukere leter etter forskjellige opplysninger. Det som én bruker gjerne ville vite, er bare forvirrende for en annen. På papir kan man ikke skjule noe og vise det bare for den brukeren som ønsker det. Dermed har det utviklet seg en hel vitenskap om hvordan man skal lage ordbøker for forskjellige brukere. Det som ofte er viktigst, er formen, fordi formen bestemmer over innholdet, og leksikografer må så å si nesten bli typografer også. Man må lage forskjellige ordbøker fra språk A til språk B, og fra språk B til språk A, og disse bøkene må også være forskjellige hvis brukeren har språket A eller B som morsmål. Så må man lage forskjellige typer av ordbøker for forskjellige brukere: lommeordbøker, skoleordbøker, akademiske ordbøker, ordbøker for oversettere, osv. Det er altså best å ha i det minste 816 ordbøker for hvert språkpar, hvis man ikke regner fagordbøker, enspråklige ordbøker, rettskrivningsordbøker, osv. Og da snakker vi ikke om bruk av ordbøker i NLP (Natural Language Processing) – datamaskiner trenger virkelig et overskudd av eksplisitte og entydige informasjoner om ord i et språk.24 Alle slike ordbøker må lages i forskjellige leksikografiske grupper over mange år. Alle disse leksikografene må alltid begynne på nytt, samle alle opplysninger igjen og igjen, velge og sette dem i sin egen form, uten omsyn til at alle disse ordbøkene faktisk inneholder en stor del felles informasjon. Dermed oppstår også alltid nye feil. Det finnes mange som allerede har diskutert noen av disse emnene.25 De viste også at datamaskiner bringer oss nye muligheter til å arbeide med opplysninger. Det fins faktisk ingen begrensninger (tekniske!) i dag.26 Det betyr ikke at man kan unngå den delen i leksikografisk arbeid 24 Problematikken behandles nærmere f.eks. i BOGURAEV/BRISCOE 1989. 25 Se f. eks. ATKINS 1996, ČERMÁK /BLATNÁ 1995, FILLMORE /ATKINS 1994, STEIGAN 1995, o. fl. 26 Nicoletta Calzolari (CALZOLARI 1988) viser at det er til og med mulig å kombinere ordbok og tezaurus. 26 Bokmål og nynorsk sammen i tospråklige ordbøker hvor man bestemmer over formen for forskjellige brukere. Men det er mulig å skille innholdet fra formen. Det er mulig å lage en stor leksikalsk database med alle nødvendige opplysninger som alle mulige brukere trenger. Det er til og med mulig å lage slike opplysninger i en eksplisitt form. Selvfølgelig er det ikke nødvendig å samle alle opplysninger på en gang. En slik leksikalsk database kan langsomt utvides slik det er nødvendig. Den endelige formen for hvordan den skal presenteres for brukeren, kan løses på forskjellige måter. Det er enten mulig å bruke den som en universal elektronisk ordbok som inneholder alle mulige opplysninger, hvor brukeren velger akkurat den formen han trenger, og får bare de enkelte opplysningene han trenger. Han kan selv velge (ved hjelp av et program som søker i ordboksdatabasen og presenterer opplysningene) hvilke opplysninger han vil se og hvordan de skal presenteres. Disse presenteringsformene kan bestemmes på forhånd, eller brukeren kan lage (sette sammen) sin egen form (profil) selv. Så viser ordboken forskjellige opplysninger for brukeren som har språket A som morsmål, for brukeren med språket B som morsmål, for en skoleelev eller for en oversetter. Den andre muligheten er fremdeles å produsere trykte ordbøker. Igjen kan redaktøren velge hvilke opplysninger fra databasen som skal med, i hvilken rekkefølge og i hvilken form de skal trykkes. Her vil jeg prøve å vise en mulig grunnstruktur for en slik leksikalsk database. Selvfølgelig er det ikke mulig å utarbeide den i detalj her uten å prøve alt i praksis. En praksis ville også være nødvendig for å vise i detalj hvordan det er best å lage alle disse opplysningene og hvor mange av dem man i det hele tatt kan samle i en realistisk tidsperiode med en begrenset antall medarbeidere. 3.1. Utgangspunkter 3.1.1. Mål Det fins mange moderne leksikografiske prosjekter og eksperimenter i verden i dag. Dessverre blir de ofte holdt skjult for fremmede øyne. Noen av dem er kommersielle,27 de andre er sjelden vel dokumentert, og artiklene som kommer ut viser sjelden en dypere innsikt i detaljene. Det andre problemet er at disse prosjektene ofte er spesialisert for bestemte mål og bruker vanskelige metoder som hjelper å samle opplysninger med høyt detalj og kvalitetsnivå, men som samtidig ofte krever urealistisk lang tid. Slike prosjekter arbeider ofte med et begrenset ordforråd, f.eks. bare med verbene, med en begrenset semantisk klasse eller begge deler. 27 For eksempel arbeidet i Oxford Press som også bruker moderne metoder, og som også regner med samarbeid med NLP prosjekter. 27 Bokmål og nynorsk sammen i tospråklige ordbøker Moderne midler brukes til å lage forskjellige slags ordbøker i dag. Det gjelder først og fremst valensordbøker, men også ordbøker som beskriver semantiske strukturer i ordforrådet. Det oppstår også nye teorier og metoder som for eksempel teorien om semantiske rammer (framebased semantics).28 Slike teorier kommer med et nytt syn både på semantikk og syntaks. Resultatene kan neppe trykkes direkte i bøker, men de kan brukes som en nyttig kilde for detaljerte opplysninger om ordforrådet, for systematisering og for å få bedre forståelse av språket i det hele tatt. Flere prosjekter bruker mer eller mindre avanserte moderne redigeringssystemer til å lage vanlige ordbøker, som f.eks. Orðabók Háskólans i Reykjavík eller Ordbok over det norrøne prosasprog,29 eller t.o.m. tospråklige ordbøker.30 Det eksperimenteres også med å utvide mulighetene til ordbøker,31 eller med å overføre ferdige ordbøker til elektroniske orddatabaser.32 Andre prosjekter konsentrerer seg på bestemte praktiske mål som f.eks. EUROTRA som trenger ordbøker for maskinoversettelse av tekster for Den Europeiske Unionen,33 og leksikografisk virksomhet i IBM Norge.34 Vårt mål er å lage en leksikalsk database som først og fremst skal brukes som grunnlag for vanlige tospråklige ordbøker. Den må altså inneholde hele (dvs. det alminnelige) ordforrådet og alle opplysninger som kreves til å oversette eller lære seg et fremmed språk. Fra det nye synspunktet er det imidlertid ikke så viktig om man interesserer seg for tospråklige eller enspråklige ordbøker. En leksikalsk database kan samle opplysninger som er nødvendige for både tospråklige og enspråklige ordbøker. Et annet krav er at databasen må være i stand til å utvides med andre detaljerte opplysninger.35 Alle opplysningene må være eksplisitte nok,36 slik at databasen senere kan brukes (kanskje bare som en av kildene igjen) også i NLPprosjekter. Dermed blir også kvaliteten mye bedre. Databasen skal altså først og fremst tjene mennesker. Men den skal være utarbeidet slik at opplysningene senere kan brukes for NLP også. 28 29 30 31 32 33 34 35 36 Se f. eks. FILLMORE /ATKINS 1994, og ATKINS 1996. DEGNBOL 1991 Se f. eks. SCHUTZ 1991, og ZACHARIASSEN/HANSEN 1995. For eksempel prøver man å forbinde forskjellige tospråklige ordbøker i flerspråklige: se SCIARONE/AHMADI 1996, og MARTIN 2002. F. eks. NORLINGCHRISTENSEN 1991, og BAUSTAD 1991. Se f. eks. BRAASCH 1989, BØGGILDANDERSEN 1989. Se ENGH 1991. Et lignende prosjekt som skulle foreslå en felles standard for lagring og utveksling av alle mulige leksikalske data har vært i gang i Danmark under navnet STANLEX: se BRAASCH 1995. Om problemer med mangel og svakheter i opplysninger i norske ordbøker: se AKØ 1991. 28 Bokmål og nynorsk sammen i tospråklige ordbøker Et prosjekt som har et lignende mål, har lenge vært i gang i Nederland, på Universitetet i Amsterdam. Resultatet er et avansert redigeringssystem OMBI37 som brukes til å lage tospråklige ordbøker mellom forskjellige språkpar (for det meste med nederlandsk i sentrum). Likevel har også dette systemet sine grenser, særlig når det gjelder utvidelsen med opplysninger som ikke passer i vanlige trykte ordbøker. 3.1.2. Måten å beskrive data på Det fins mange måter man kan beskrive og markere data på, uansett hvordan de i praksis er fysisk laget i datamaskinen. For bruk i dette arbeidet (til å illustrere tanker med konkrete eksempler) har jeg valgt formatet XML38 som både er veldig enkelt og effektivt. Det er også enkelt både til å bli bearbeidet i datamaskiner og til å bli lest og forstått av mennesker. Derfor brukes det ofte for datautveksling mellom forskjellige systemer. XML er utviklet fra det eldre formatet SGML.39 XML er mye enklere og mer entydig. Grunnidéen er at hver opplysning 'stenges' inn mellom to markører, får et navn, og dermed blir til et markert element i strukturen med et bestemt navn. Markøren (navnet) sier hva elementet inneholder. Markøren består av navnet (og mulige attributter) som selv er stengt mellom tegnene '<' og '>' – dermed skiller den seg fra dataene. Markøren kan hete hva som helst. Sluttmarkøren skiller seg fra åpningsmarkøren med tegnet '/' som står foran navnet. For eksempel <navn>Olaf</navn> er et element som heter 'navn' og inneholder informasjonen 'Olaf'. Men elementer trenger ikke å inneholde bare enkelte data. De kan også inneholde andre elementer. Dermed kan man samle enkelte opplysninger i grupper, og disse gruppene kan man samle i større grupper. Det betyr at XML kan lage en datasamling med en trestruktur. Et eksempel kan være en opplysning om en person i adresseboka: <person> <navn> <fornavn>Olaf</fornavn> <etternavn>Larsen</etternavn> </navn> <adresse> <gate>Karl Johans gate</gate> <nummer>42</nummer> <by>Oslo</by> </adresse> 37 Se MARTIN/TAMM 1996, MARTIN 2002, og OMBI 1998. 38 XML betyr “Extensible Markup Language” og er et standard for lagring og utveksling av data. Se: W3CXML, og KOSEK 2000. 39 SGML betyr “Standard Generalized Markup Language” og beskrives i ISO8879. 29 Bokmål og nynorsk sammen i tospråklige ordbøker <telefon>33442211</telefon> </person> I XML kan man også bruke attributter innenfor markørene. F.eks. <person gruppe=”samarbeider” id=”6421”> ... </person>. Dette systemet tilbyr allerede flere måter som man kan beskrive de samme opplysningene på. Mange opplysninger kan likegodt danne egne elementer eller de kan skrives inn som en attributt til et annet element. 3.2. Krav til en tospråklig leksikalsk database 3.2.1. Allmenn struktur Når man oversetter fra språk A til språk B, trenger man en ordbok 40 for å finne ut hvilken betydning og hvilken funksjon et ord har i teksten A, og finne et ord (eller et annet uttrykksmåte) i språk B som har den samme (eller lignende) betydning og funksjon i språk B. Til å bestemme betydningen må man ta i betraktning konteksten som ordet befinner seg i. Selvfølgelig skjer det ofte at de enkelte ordene i språket B ikke samarbeider slik som de lignende ordene i språket A. Derfor må man også få opplysninger om hvordan ordene i språket B brukes. Man må altså arbeide med begrensninger for kontekst i begge fasene. Først er det nødvendig å finne hva slags betydning og funksjon ordet har i den konteksten som det står i (i språket A). Til denne betydningen i konteksten finner man et uttrykk i språket B med den samme (lignende) betydningen og opplysninger om hvordan ordet brukes i sammenheng med andre ord (se illustrasjon 3.2.1.1).41 Hele prosessen er avhengig av to omstendigheter: hvor detaljert og presist betydninger og kontekst som ordene brukes i er beskrevet, og hvor detaljert og nøyaktig forhold mellom lignende betydninger i språket A og B er beskrevet. Med kontekst menes selvfølgelig hele samlingen med opplysninger om syntaktisk, semantisk og pragmatisk bruk (t.o.m. stilistikk, frekvens, osv.) av ordet. I hvert fall betyr det at det er nødvendig å samle like omfattende opplysninger om ordet i språk A som i språk B, uansett om vi oversetter fra språk A til B eller omvendt. Forskjellen er bare 40 Jeg regner med at oversettelse kanskje stiller det største kravet til ordbøker. 41 Idéen at man kunne (og burde) forbinde ord (former) i forskjellige språk gjennom deres betydninger har allerede blitt uttrykt tidligere. I SCIARONE/AHMADI 1996 presenteres muligheten å sette betydningsstrukur som grunnlag, og så forbinde samme betydninger med samsvarende ord i forskjellige språk. Willy Martin presenterte metoden som han kaller linking, og som brukes i OMBI, i 1998. Det var et svar til et prosjekt fra Europakommisjonen som ville sette en felles grunn for konstruksjon av tospråklige elektroniske ordbøker som kunne brukes både i NLP og for menneskelige brukere. Han setter linking i motsetning til translating som vanligvis brukes til å skrive tospråklige ordbøker. 30 Bokmål og nynorsk sammen i tospråklige ordbøker språk A språk B uttrykk A uttrykk B kontekst kontekst betydning betydning (dekoding) (koding) Illustrasjon 3.2.1.1: Oversettelsen av et uttrykk at én gang brukes disse opplysningene til å dekode betydningen i et uttrykk, og neste gang til å kode meningen tilbake til et uttrykk. I vanlige tospråklige ordbøker blir en del i denne prosessen transparent. Det er nesten alltid den fasen som gjelder betydninger og ofte dessverre også fasen som gjelder konteksten. Derfor ser det slik ut at man bare kommer fra et ord i språk A til et ord i språk B, i beste fall (i gode ordbøker) kan man også merke et valg ved hjelp av opplysninger om kontekst, synonymer, osv. Opplysninger om bruk av ordet B får man vanligvis bare fra eksemplene.42 Det fins to problematiske skritt i denne prosessen som en god ordbok må løse. Det ene er forholdet mellom ordet (uttrykket) og dets betydninger. Det andre er forhold mellom parallelle betydninger i begge språkene. Et uttrykk har ofte flere betydninger (funksjoner). De bestemmes gjennom konteksten som ordet (uttrykket) står i. Konteksten er bestemt gjennom betydning av andre ord og hele teksten, gjennom stilen og andre omstendigheter (som ofte ikke gjelder språket i det hele tatt), men også gjennom syntaks eller t.o.m. morfologi.43 Mange av disse begrensningene kan vi beskrive i en mer eller mindre formalisert og entydig form i dag. Det fins sjelden virkelig parallelle betydninger mellom to språk. Jo mer forskjellige kulturene er, desto vanskeligere er det å finne lignende betydninger som man kan binde sammen uten problemer. Derfor må man veldig ofte binde sammen faktisk mer eller mindre forskjellige betydninger som om de var ekvivalenter. Veldig ofte er forholdet mellom disse betydningene hyponymt eller hyperonymt. Ofte tilhører begge uttrykk t.o.m. forskjellige stilistiske nivåer eller er 42 Dvs. man kan som oftest bare gjette hvordan ordet virkelig brukes. 43 Noen ord kan i bestemte betydninger ikke få alle formene (f.eks. plural, osv.). 31 Bokmål og nynorsk sammen i tospråklige ordbøker knyttet til forskjellige konnotasjoner. Alle slike modifikasjoner må beskrives så nøyaktig som mulig. Dermed blir hovedstrukturen i databasen bestemt. Faktisk trenger man tre databaser, eller en database som består av tre hoveddeler: to uavhengige og like omfattende databaser som beskriver ordforrådene for begge språk (alle uttrykk og alle betydninger og funksjoner som disse uttrykk kan ha), og en som knytter de parallelle betydningene mellom disse to språkene sammen. De to databasene som beskriver uttrykk og deres betydninger får en trestruktur. Den tredje skaper et nett av forbindelser mellom de enkelte løvbladene på disse to trærne. språk A «gymnas» «gym» «gymnastikk» kontekst språk B gymnas ~ gymnas ~ gymnastikk ~ gymnázium kontekst «gymnázium» tělocvik kontekst «tělocvik» kontekst kontekst gymnastikk ~ Illustrasjon 3.2.1.2: Et eksempel på sammenhenger i databasen På illustrasjon 3.2.1.2 vises et enkelt skjema som eksempel med forkortelsen gym som kan stå både for ordet gymnas og gymnastikk. Kontekstuelle begrensninger forbinder formene med de enkelte betydningene. Tsjekkiske ekvivalenter står symmetrisk på høyre side. Midt på skjemaet er cellene som beskriver forhold mellom de enkelte betydningene på begge sidene. På en lignende måte kunne man også forbinde forskjellige enkelte betydninger mellom mange polyseme ord på begge sider i et mye mer komplisert nett.44 Dette prinsippet (linking) brukes, som nevnt, også i OMBI. For å få en brukelig utgang, må man projisere den tredje databasen i de andre to, slik at beskrivelser om forhold mellom betydningene i de to språkene skrives inn på toppen av begge hoveddatabasene – de blir altså en del i betydningsbeskrivelsene. Dermed oppstår det faktisk to uavhengige ordbøker: fra språk A til 44 se f. eks. MARTIN 2002, s. 56 32 Bokmål og nynorsk sammen i tospråklige ordbøker språk B, og omvendt. Prinsippet blir det samme, men det blir teknisk vanskeligere å holde konsistensen mellom begge databasene etterpå. På den andre siden blir det lettere å vise eksempler i en eller to uavhengige trestrukturer. Derfor skal jeg vise eksempler i strukturert XML format. 3.2.2. Leksikalsk database for ett språk 3.2.2.1 Form Formen er utgangspunktet for dekoding og det endelige målet i kodingsprosessen. Det som vi leter etter i en ordbok, er en form som vi trenger detaljerte opplysninger om. Det kan være et ord, forkortelse, affiks eller en ordforbindelse. En ordforbindelse kan være hva som helst, fra et idiomatisk uttrykk til et fritt eksempel. Det er selvfølgelig nødvendig å skille mellom alle disse enkelte kategoriene. Ikke alle formene danner egne lemmaer, noen blir heller gruppert under et annet lemma. Selv om man velger en rent alfabetisk makrostruktur, kan i det minste frie eksempler og mange idiomatiske forbindelser ikke stå som egne lemmaer. Hvis man altså vil behandle alle formene på den samme måten, er det egentlig alltid nødvendig å gruppere. Det er veldig praktisk å behandle alle formene på samme måte (eller på lignende måte) særlig for NLP. Med en slik likestilling er det også lettere å velge senere mellom forskjellige presentasjonsformer: man kan danne en rent alfabetisk makrostruktur eller samle beslektede ord i grupper. Selvfølgelig er det nødvendig å skille de enkelte kategoriene. Særlig frie eksempler kan man ikke behandle på den samme måten som andre uttrykk. Det fins flere opplysninger som henger sammen med formen. Det gjelder først og fremst rettskrivning (formen selv) og uttale, og dernest etymologi, staving og orddeling. Man må også beskrive forhold til andre former som er i slekt med uttrykket: varianter, avledninger, sammensetninger, mer eller mindre selvstendige bøyningsformer, osv. Også grammatiske og syntaktiske opplysninger henger sammen med formen. 3.2.2.2 Morfologi og syntaks Formen tilhører en eller annen ordklasse. Homonyme former skal behandles som forskjellige, uavhengige former.45 Opplysninger om bøyning må være entydige og fullstendige, slik at til og med en datamaskin blir i stand til å danne alle bøyningsformene korrekt, og også vite hvilke av dem som virkelig brukes og hvilke som ikke brukes. Opplysningen kan også være en henvisning til et entydig 45 Det kan kanskje også være praktisk å skille fra hverandre flere kategorier for enkelte ordklasser, for eksempel transitive, intransitive og refleksive verb. Men dette problemet må først undersøkes nøyaktig. 33 Bokmål og nynorsk sammen i tospråklige ordbøker mønster. Hvis noen av bøyningsformene ikke stemmer med mønsteret, må alle unntak skrives ut i databasen. Det er også nyttig å beskrive den morfologiske strukturen i ordet, slik at det blir klart hvor grensene går mellom affiksene, rota, stammen, eller mellom de enkelte delene i sammensatte ord. Mulige begrensninger for bruk i noen av bøyningsformene må skrives ut. Det er viktig å vite at et ord brukes f. eks. vanligvis i singular, sjelden i plural, eller aldri i plural. Betydning til kvantitative bestemmelser som sjelden eller vanligvis må også være bestemt mer nøyaktig. Kvalitative bestemmelser bør være med. Man bør f. eks. beskrive hva som skjer med ordet (betydning, stil, konnotasjoner) når det brukes i en uvanlig bøyningsform. Syntaktiske forhold er et emne som forskere driver mest med i dag. Det fins mange teorier og mange implementasjoner av forskjellige syntaktiske databaser og valensordbøker. Mange av dem forbinder allerede syntaks delvis med semantikk. Både for NLP og den menneskelige brukeren er det viktig å vite hvordan et ord forbindes med andre ord. Det er viktig å kjenne både syntaktiske og semantiske begrensninger for enkelte setningsledd som kan forbindes med ordet. I vanlige trykte ordbøker bruker man vanligvis typiske eksempler for å vise hvordan ordet brukes. Men dette er helt ubrukelig for NLP og ofte utilstrekkelig for mennesker også. Det er nødvendig å beskrive hele rammen (valensen) som ordet danner, med alle setningsledd som er eller kan bli avhengige av ordet, og beskrive deres semantiske, morfologiske, syntaktiske, pragmatiske og andre egenskaper: hva slags ord eller uttrykk som kan brukes i hvilken rolle, hvilken form de må eller kan ta, på hvilke steder de kan stå i setningen, om de er obligatoriske eller fakultative, om de altså kan sløyfes og under hvilke omstendigheter.46 Et ord kan selvfølgelig danne flere forskjellige syntaktiske rammer (som ofte, men ikke alltid, henger sammen med forskjellige betydninger). Alle disse rammene skal beskrives og settes i sammenheng med betydningene. Det kan være praktisk å beskrive dem direkte innenfor de enkelte betydningene. 3.2.2.3 Stilistikk og pragmatikk Spørsmålet om pragmatiske og stilistiske opplysninger (altså opplysninger om bruk) henger sammen med formen eller betydningene kan man neppe svare på. De henger faktisk sammen med alle de andre opplysningene. Et ord kan ha flere varianter i rettskrivning, uttale, orddeling, osv. Alle disse variantene har vanligvis forskjellig bruk, enten stilistisk, pragmatisk, geografisk, sosial eller i frekvens. Derfor brukes for eksempel i OMBI en bestemt gruppe med alle stilistiske, pragmatiske 46 Måten disse forholdene skal beskrives på, kan ikke bli bestemt i dette arbeidet. 34 Bokmål og nynorsk sammen i tospråklige ordbøker og andre begrensningene som en attributtgruppe for de fleste andre opplysningene igjen og igjen. Både rettskrivning, orddeling, uttale, morfologi, og de enkelte syntaktiske rammene kan ha sine egne begrensninger i praktisk bruk. Det gjelder også de enkelte betydningene. Det synes altså å være veldig praktisk å bruke disse opplysningene om praktisk bruk som sekundære, attributive opplysninger til de andre, primære opplysningene. Denne gruppen skal inneholde opplysninger om frekvens (veldig vanlig, vanlig, nøytral, uvanlig, personlig uttrykk), alder (gammel, foreldet, nøytral, neologisme), stil (høy formell, formell, nøytral, uformell, slang, vulgær), sosial tilhørighet (nøytral, studentspråk, skolespråk, barnespråk, osv.), domene (nøytralt, med., jur., mat., fys., osv.), geografisk tilhørighet (nøytral, dialekt, osv.), emosjonelle konnotasjoner (nøytral, pejorativ, eufemisme, vittig, osv.). Det kan også være praktisk å beskrive mer i detalj tidsperioden for eldre uttrykk som ikke lenger brukes eller nøyaktig geografisk tilhørighet for dialektord. Det er selvfølgelig viktig å skille mellom hvilke egenskaper som tilhører hvilken opplysning om ordet og dets betydninger. Egenskaper som gjelder alle betydningene og alle andre opplysninger er globale egenskaper som tilhører formen selv. 3.2.2.4 Semantikk En tilstrekkelig måte å beskrive semantikk på, på en både praktisk og formell måte, er ikke kjent ennå. Prioriteten vår er å lage en ordbok som mennesker kan bruke. Derfor er det nødvendig å komme ut fra det vanlige systemet. Etter alle de andre opplysningene om formen og dens språklige egenskaper må man beskrive alle betydningene og funksjonene som uttrykket kan ha. Betydningene er avhengige av konteksten som ordet eller uttrykket befinner seg i. Denne konteksten skal beskrives så nøyaktig som mulig. Selvfølgelig er det neppe mulig å beskrive den semantiske konteksten på en formell måte som er forståelig for menneskelige brukere også. Men det er mulig å beskrive alle de andre begrensningene. Fordi betydningen kan være avhengig av valensen (andre setningsledd),47 kan man ofte bestemme betydningene etter hvilke setningsledd ordet forbindes med – hvilken syntaktisk ramme ordet danner eller hvilke attributter (semantiske egenskaper) som tilhører ordet. Og omvendt: funksjon som ordet har i en større ramme kan også bestemme over betydningen. Noen bøyningsformer kan heller ikke brukes i noen av ordets betydninger. Betydningen kan også være bestemt gjennom stilen, faget, osv. Semantikk må 47 Syntaks som hovedkriteriet for inndeling brukes i ordboken over islandske verb (se JÓNSSON 1989 og CINKOVÁ 2001). 35 Bokmål og nynorsk sammen i tospråklige ordbøker beskrives gjennom forbindelser med synonyme (eller antonyme, hyperonyme, osv.) uttrykk. En betydning blir altså definert gjennom kontekstuelle begrensninger og forhold til andre ord i språksystemet. Det er nyttig å sette ordet (dets betydninger) i et hierarki av overordnede grupper (semantiske klasser). Dermed kan man bestemme om ordet kan bli brukt i bestemte syntaktiske rammer til andre ord (om det kan forbindes med dem). Opplysningene kan også bli brukt til å lage en synonymordbok og andre slags ordbøker fra databasen. Et vanlig problem i tospråklige ordbøker er at betydningene må ses i perspektivet fra det andre språket. Men det betyr ikke at ordet får andre betydninger fra det nye perspektivet. Det betyr bare at det blir nødvendig å segmentere betydningene annerledes. Spørsmålet er hvordan betydningene skal segmenteres, særlig hvis databasen skal forbindes med flere andre språk. En mulighet er å segmentere de enkelte betydningene fra språkets eget perspektiv eller et annet grunnperspektiv (syntaktiske, kognitive kriterier, osv.). Dermed oppstår en grunnsegmentasjon. Jeg har allerede vist hvordan kan man forbinde de enkelte betydningene sammen med forskjellige ord (dvs. deres betydninger) i et annet språk. Ved siden av situasjonen hvor man forbinder én betydning på venstre side med én betydning på høyre side kan oppstå to andre situasjoner som kompliserer prosessen:48 enten fins det flere uttrykk (betydninger) i det andre språket som stemmer (delvis) med én betydning til ett ord i utgangspråket, eller så stemmer ett ord (dets betydning eller betydninger) i det andre språket med flere betydningene til ett ord i det utgangspråket. Den siste situasjonen er faktisk intet problem. Det skjer sjelden også mellom nære språk at to polyseme ord har de samme betydningene. Mange små ordbøker eller ordbøker for datamaskiner utnytter situasjonen til å spare plass og kraft og forbinder begge uttrykk sammen som om de ville være ekvivalenter med bare en (og den samme) betydning. Dmitrij Dobrovolskij viser i artikkelen sin at dette er usystematisk og faktisk også forvirrende.49 Det er nyttigere å skrive ut alle betydningene til begge parallelle ord og forbinde dem (selv om det gjelder virkelig alle) eksplisitt sammen. Den første situasjonen er mer problematisk og krever at de enkelte betydningene (sememene) blir delt i flere mindre undersememer. Det kan løses teknisk på to forskjellige måter. Enten blir de virkelig delt i flere underbetydninger som blir en del i den enkelte databasen for et språk, og det oppstår en trestruktur i den semantiske beskrivelsen, eller man heller forbinder den enkelte betydningen med flere betydninger (ord) i det andre språket, og elementene som forbinder dem 48 DOBROVOĽSKIJ 2000, s. 60 49 DOBROVOĽSKIJ 2000, s. 60 36 Bokmål og nynorsk sammen i tospråklige ordbøker (altså elementene i den «tredje» databasen), får beskrive begrensninger og forhold mellom betydningene på begge sider.50 Den siste løsningen gjør begge språkdatabasene enklere, men fører til en større og mer komplisert database som står mellom dem og beskriver forholdet mellom de to språkene. 3.2.3. Forbindelser mellom språkdatabasene Det blir en oppgave for en dypere analyse og praksis å bestemme over hvilke opplysninger som skal integreres i de to enkelte språkdatabasene og hvilke som skal stå i den tredje uavhengige databasen som forbinder parallelle betydninger mellom de to språkene. Det er allerede klart at mange opplysninger om forholdet mellom to elementer i to språk vises fra definisjonene (forskjellene i bruk, definisjonene, osv.) på begge sidene. Når man forbinder et mer formelt uttrykk med et nøytralt ord i det andre språket, er det ikke så vanskelig å merke at begge uttrykk ikke er helt ekvivalente.51 Men det er også nyttig å beskrive semantiske og syntaktiske forhold, paralleller og forskjeller i bruk av begge uttrykkene. I beste fall burde også forhold mellom de enkelte elementene i valensen (rammene) til begge to uttrykk vises. I hvert fall må man vise hyperonyme og hyponyme forhold, enten gjennom forbindelsene mellom de enkelte språkene eller gjennom en finere og vel strukturert segmentering av sememene. Nye muligheter oppstår når man prøver å forbinde sammen synonyme ord innenfor ett språk. Det er også en nødvendig måte for å beskrive semantikken. Forbindelser mellom synonymene i et språk ligner ofte på forhold mellom ord i to språk. 3.2.4. Et eksempel: verbet «å gi» Følgende eksempel er ikke ment å være en fullstendig og uttømmende beskrivelse. Det viser heller ikke en ferdig og bestemt struktur, men illustrerer en måte som opplysningene kan bli beskrevet på, og hva slags opplysninger som kan bli opptatt i databasen og hvordan. Det er nødvendig å utforske en bestemt og entydig struktur som kunne brukes i hele databasen konsekvent (for alle slags ord og uttrykk). Denne oppgaven kan ikke løses her og nå. Her vises bare den norske delen. Eksempler og idiomatisk bruk i detalj vil ikke bli med heller. Bare de nødvendigste 50 Det siste er systemet som blir brukt i OMBI og faktisk også det som blir vist i illustrasjon 3.2.1.2. 51 Et utviklet system som kalles „pragmatic calculus“ brukes i OMBI. Her blir ekvivalensen mellom de to uttrykk klassifisert etter en automatisk sammenligning av de pragmatiske og stilistiske attributtene til begge ord (deres betydninger). 37 Bokmål og nynorsk sammen i tospråklige ordbøker opplysningene blir vist.52 Man begynner med å åpne en ny oppslagsenhet (for en oppslagsform). Det sies at den er et enkelt ord med en fullstendig beskrivelse, og at den skal danne et selvstendig lemma i ordboken.53 <oppslagsenhet type=”ord” full=”ja” selvstendig=”ja”> Etterpå følger en gruppe med opplysninger om formen selv: en formbeskrivelse. Den inneholder rettskrivningsformen selv, en formel for orddeling (ikke noe å snakke om her) og uttale (den skulle beskrives med IPAtegnene).54 Man kan også skrive inn etymologiske opplysninger om det opprinnelige språket og formen. <formbeskrivelse> <rettskrivning> <form>gi</form> </rettskrivning> <orddeling> <formel>gi</formel> </orddeling> <uttale> <formel>'ji:</formel> </uttale> <etymologi> <form språk=”norr”>gefa</form> </etymologi> Nå følger en gruppe med morfologiske opplysninger. Det fortelles om hvilken ordklasse ordet tilhører og hvilken bøyningstype og hvilket mønster bøyningen vil følge. I tilfelle det er nødvendig (eller det kan være nyttig) kan man også skrive ut alle de nødvendige bøyningsformene eksplisitt. Det blir definert to grunnformer (varianter) for preteritum: «gav» og «ga». Den andre formen blir markert som «klammeform». To andre former blir definert for perfektum partisipp og presens partisipp. <morfologi> <ordklasse>verb</ordklasse> <bøyningstype>sterk</bøyningstype> <mønster>5</mønster> 52 Når det gjelder innholdet, stammer grunnopplysninger først og fremst fra Bokmålsordboka og delvis fra den norsk tsjekkiske lommeordboken (NORSKTSJEKKISK LOMMEORDBOK 1995). Mange opplysninger kan jeg ikke bekrefte uten en dypere undersøkelse. Men det som er viktig nå, er formen, ikke innholdet. 53 Man kunne også definere flere trinn og bestemme at denne oppslagsenheten skal stå på det høyeste nivået i makrostrukturen. 54 I det norske språket er det sjelden nødvendig å beskrive uttalen, som er regelmessig i de fleste tilfellene. Dette vil bare være et eksempel. 38 Bokmål og nynorsk sammen i tospråklige ordbøker <bøyningsform type=”preteritum” variant=”1”> <form>gav</form> </bøyningsform> <bøyningsform type=”preteritum” variant=”2”> <form>ga</form> <bruk> <status>klammeform</status> </bruk> </bøyningsform> <bøyningsform type=”perfpartisipp”> <form>gitt</form> </bøyningsform> <bøyningsform type=”prespartisipp”> <form>givende</form> </bøyningsform> </morfologi> </formbeskrivelse> Dernest kan man begynne med å beskrive de enkelte betydningene som ordet kan ha. Bokmålsordboka viser tydelig problemer som kan oppstå med inndelingen i betydninger. Betydning nummer 3 [betale] henger faktisk sammen med betydning 1 [la få, (over)rekke, levere, skjenke (som gave), donere; ofre]. Man kan også argumentere med at betydning 1 kan deles i flere underbetydninger. Hovedbetydning 3 kunne forbindes med underbetydning «ofre» i hovedbetydning nummer 1. Det som begge to har felles, er (ved siden av lignende semantikk) også et nytt, tredje argument i valensen: «for noe(n)». Man kan også dele alt inn i flere mindre betydninger. Det er kanskje mest praktisk, særlig for oversettelse og NLP. De syntaktiske rammene er forskjellige, eller innholdet i dem kan være forskjellig. Det viser at det likevel fins forskjeller mellom betydningene «ofre» og «betale». Den første hovedbetydningen identifiseres gjennom tegnet «gi». Dette er et tilfeldig navn som ikke har en annen betydning enn å identifisere betydningen for den som arbeider med databasen (et program eller et menneske). Det kunne også være et nummer eller hva som helst. En ramme med valensbeskrivelsen blir definert. Dette er et emne som skal undersøkes nærmere. Det som jeg viser her, er et eksempel på hvordan en slik enkel beskrivelse kunne se ut. I rammen står to valensledd. Begge to er obligatoriske. Man kan også beskrive deres semantiske rolle i setningsstrukturen. Det har jeg vist med kategoriene fra avhengighetsgrammatikk, en teori som er brukt og utviklet i Praha. Mye mer kunne (og burde) stå her. Det kunne f. eks. også være praktisk å beskrive det første valensleddet som står som subjekt i setningen. <betydning id=”gi”> <ramme> <valensledd type=”indirobjekt”> 39 Bokmål og nynorsk sammen i tospråklige ordbøker <obligatorisk/> <rolle>adressat</rolle> </valensledd> <valensledd type=”dirobjekt”> <obligatorisk/> <rolle>patiens</rolle> </valensledd> </ramme> Hovedbetydningen «gi» deles i to mindre betydninger «overlevere» og «skjenke». Begge to bruker den syntaktiske rammen som ble beskrevet. Forskjellen er mindre og bare semantisk. Den første betydningen beskrives for eksempel med synonymer. Siden synonyme ord også kan ha flere betydninger, må man si i hvilken betydning disse ord er synonyme. Det første synonymet er et uttrykk som sannsynligvis ikke får egen oppslagsenhet. Derfor står her at den består av former «la» og «få». Slike uttrykk burde sannsynligvis defineres annerledes enn det som jeg viser her. <betydning id=”overlevere”> <semantikk> <synonym> <uttrykk> <form>la</form> <form>få</form> </uttrykk> </synonym> <synonym> <form>overrekke</form> <i_betydning>overrekke</i_betydning> </synonym> <synonym> <form>rekke</form> <i_betydning>gi</i_betydning> </synonym> <synonym> <form>levere</form> <i_betydning>rekke</i_betydning> </synonym> <synonym> <form>overlevere</form> <i_betydning>gi</i_betydning> </synonym> </semantikk> Dernest kommer oversettelsene. Det er nødvendig igjen å si hvilken form som skal brukes i det andre språket og hvilken betydning av denne formen som egentlig er parallell med utgangsordet i utgangsbetydningen. På den tsjekkiske sida i ordbøkene står vanligvis bare perfektive verb som ekvivalenter. Her ville jeg vise hvordan man kunne forbinde det norske verbet med både det imperfektive og det perfektive verbet på den tsjekkiske sida. Selvfølgelig betyr det ikke at den imperfektive formen må stå i den trykte ordboken som man ville danne fra databasen. Problemet 40 Bokmål og nynorsk sammen i tospråklige ordbøker med de perfektive og imperfektive verbene kunne kanskje løses på en annen måte også, for eksempel på den tsjekkiske sida i databasen. <oversette> <aksjonsart>perf</aksjonsart> <form språk=”tsjekkisk”>dát</form> <i_betydning>předat</i_betydning> </oversette> <oversette> <aksjonsart>imperf</aksjonsart> <form språk=”tsjekkisk”>dávat</form> <i_betydning>předávat</i_betydning> </oversette> </betydning> Den andre underbetydningen beskrives igjen på den samme måte. Her står flere ekvivalenter. Det er nødvendig å beskrive i hvilken kontekst de andre ekvivalentene kan brukes. Denne beskrivelsen burde kanskje være mye mer eksakt og kompleks enn det som jeg viser her. Her står bare med enkelte ord at ekvivalentene «darovat» og «věnovat» brukes når man gir (skjenker) noen noe «ved en spesiell anledning». Ordet «věnovat» betyr i tillegg implisitt at gaven er mer «personlig». Begrensninger for ekvivalenten «poskytnout» burde beskrives nærmere også, særlig i forhold til kollokasjoner som kan oversettes slik. Kanskje burde denne betydningen stå helt selvstendig også. <betydning id=”skjenke”> <semantikk> <synonym> <form>skjenke</form> <i_betydning>skjenke</i_betydning> </synonym> <synonym> <stilskift/> <form>donere</form> <i_betydning>skjenke</i_betydning> </synonym> </semantikk> <oversette> <aksjonsart>perf</aksjonsart> <form språk=”tsjekkisk”>dát</form> <i_betydning>darovat</i_betydning> </oversette> <oversette> <aksjonsart>imperf</aksjonsart> <form språk=”tsjekkisk”>dávat</form> <i_betydning>dodávat někomu něčeho</i_betydning> </oversette> <oversette> <kontekst>ved spesiell anledning</kontekst> <aksjonsart>perf</aksjonsart> <form språk=”tsjekkisk”>darovat</form> 41 Bokmål og nynorsk sammen i tospråklige ordbøker <i_betydning>darovat</i_betydning> </oversette> <oversette> <kontekst>ved spesiell anledning</kontekst> <kontekst>personlig</kontekst> <aksjonsart>perf</aksjonsart> <form språk=”tsjekkisk”>věnovat</form> <i_betydning>darovat</i_betydning> </oversette> <oversette> <kontekst>tilby</kontekst> <aksjonsart>perf</aksjonsart> <form språk=”tsjekkisk”>poskytnout</form> <i_betydning>nabídnout</i_betydning> </oversette> </betydning> </betydning> I betydningen «ofre» brukes verbet «å gi» sannsynligvis bare sjelden, akkurat som ekvivalenten «dát» på tsjekkisk. Verbet «å ofre» brukes oftere på norsk, og «obětovat» eller «položit (život)» på tsjekkisk. Dette burde undersøkes nærmere for begge språk for å bestemme akkurat over frekvens og stil. Valensrammen er forskjellig igjen. Adressaten uttrykkes ikke, og preposisjonalobjektet uttrykker ikke en «erstatning», men et «mål». Adressaten er faktisk også present, men bare implisitt (en høyere makt). Det skulle kanskje stå i rammebeskrivelsen også. Man kunne også tenke seg at adressaten uttrykkes eksplisitt. Men etterpå står betydningen allerede på grensen med betydningen «betale». En nærmere undersøkelse blir nødvendig igjen. Her står også som eksempel en forbindelse til et eksempeluttrykk «han gav sitt liv for landet» som skulle beskrives selvstendig. <betydning id=”ofre”> <bruk> <frekvens>sjelden</frekvens> <stil>høytidelig</stil> </bruk> <ramme> <valensledd type=”dirobjekt”> <obligatorisk/> <rolle>patiens</rolle> </valensledd> <valensledd type=”prepobjekt”> <obligatorisk/> <prep>for</prep> <rolle>mål</rolle> </valensledd> </ramme> <semantikk> <synonym> <form>ofre</form> <i_betydning>bringe et personlig offer</i_betydning> </synonym> 42 Bokmål og nynorsk sammen i tospråklige ordbøker </semantikk> <oversette> <aksjonsart>perf</aksjonsart> <form språk=”tsjekkisk”>dát</form> <i_betydning>obětovat</i_betydning> </oversette> <eksempel>han gav sitt liv for landet</eksempel> </betydning> Betydningen «framføre» viser en vanlig problematikk med ord og uttrykk som kan brukes i kollokasjoner. Det kreves ofte en nærmere beskrivelse av ord og uttrykk som kan forbindes med ordet, og en eksplisitt opplysning om en slik gruppe er åpen eller begrenset. Dette er noe som man sjelden kan bestemme over med sikkerhet, men det er sikkert teknisk mulig å beskrive også. Her sies det at gruppen er «åpen», og det vises tre eksempler. Dessuten beskrives gruppen (innholdet) semantisk med hyperonymet «begivenhet». En mye nærmere beskrivelse er selvfølgelig mulig (kanskje nødvendig). Ekvivalentene kan også være flere. Men de er avhengige av konkrete kollokasjoner. Dette skal jeg ikke løse her og nå. <betydning id=”framføre”> <ramme> <valensledd type=”dirobjekt”> <obligatorisk/> <rolle>patiens</rolle> <innhold>begivenhet</innhold> <gruppe type=”åpen”> <uttrykk>en konsert</uttrykk> <uttrykk>en forestilling</uttrykk> <uttrykk>en middag</uttrykk> </gruppe> </valensledd> </ramme> <semantikk> <synonym> <form>framføre</form> <i_betydning>oppføre</i_betydning> </synonym> <synonym> <form>holde</form> <i_betydning>utføre</i_betydning> </synonym> </semantikk> <oversette> <aksjonsart>imperf</aksjonsart> <form språk=”tsjekkisk”>pořádat</form> <i_betydning>organizovat</i_betydning> </oversette> <oversette> <aksjonsart>perf</aksjonsart> <form språk=”tsjekkisk”>uspořádat</form> <i_betydning>zorganizovat</i_betydning> </oversette> </betydning> 43 Bokmål og nynorsk sammen i tospråklige ordbøker Betydningen «betale» viser at synonymene også kan være begrenset. Det sies her at verbet «å betale» er synonymt bare hvis det direkte objektet har betydningen «penger». Hvis man «gir penger for noe», så betaler man. <betydning id=”betale”> <ramme> <valensledd type=”indirobjekt”> <fakultativ/> <rolle>adressat</rolle> </valensledd> <valensledd type=”dirobjekt”> <obligatorisk/> <rolle>patiens</rolle> </valensledd> <valensledd type=”prepobjekt”> <obligatorisk/> <prep>for</prep> <rolle>erstatning</rolle> </valensledd> </ramme> <semantikk> <synonym> <valensledd type=”dirobjekt”> <innhold>penger</innhold> </valensledd> <form>betale</form> <i_betydning>lønne</i_betydning> </synonym> </semantikk> <oversette> <aksjonsart>perf</aksjonsart> <form språk=”tsjekkisk”>dát</form> <i_betydning>dát něco za něco</i_betydning> </oversette> <oversette> <aksjonsart>imperf</aksjonsart> <form språk=”tsjekkisk”>dávat</form> <i_betydning>dávat něco za něco</i_betydning> </oversette> </betydning> Bare i spassiv får verbet «å gi» en ny betydning «eksistere». Vi kan definere en restriksjon for grammatisk form som ordet står i. <betydning id=”eksistere”> <morfologi> <restriksjon type=”bøyningsform”>mediopassiv</restriksjon> </morfologi> <semantikk> <synonym> <form>finnes</form> <i_betydning>finnes</i_betydning> </synonym> 44 Bokmål og nynorsk sammen i tospråklige ordbøker <synonym> <form>eksistere</form> <i_betydning>være til</i_betydning> </synonym> </semantikk> <oversette> <aksjonsart>imperf</aksjonsart> <form språk=”tsjekkisk”>existovat</form> <i_betydning>být</i_betydning> </oversette> <oversette> <aksjonsart>imperf</aksjonsart> <form språk=”tsjekkisk”>být</form> <i_betydning>existovat</i_betydning> </oversette> </betydning> Her kan vi merke hvor nyttig det kunne være å ha subjektet i den syntaktiske rammen for å beskrive restriksjoner for subjektet, fordi i denne betydningen (og formen) brukes ordet vanligvis med det som formelt subjekt. I refleksiv form får verbet sine egne betydninger. De kan beskrives her eller danne en egen oppslagsenhet. For andre idiomatiske forbindelser (gi etter, gi opp) er det mye mer praktisk å danne egne oppslagsenheter. Her står bare referansene (henvisningene). <betydning id=”gi seg”> <morfologi> <restriksjon type=”bøyningsform”>refleksiv</restriksjon> </morfologi> <form>gi seg</form> </betydning> <betydning> <form>gi etter</form> </betydning> <betydning> <form>gi opp</form> </betydning> </oppslagsenhet> 45 Bokmål og nynorsk sammen i tospråklige ordbøker 4. Bokmål og nynorsk i én leksikalsk database 4.1. Krav til databasen For å beskrive ordforrådet til både bokmål og nynorsk i en leksikalsk database (som ett språk), må databasen oppfylle nye krav. Disse krav er egentlig ikke noe spesielt for norsk språk. Nesten alle språk har noen dialekter, altså varieteter (sosiale, geografiske, faglige, osv.), og dermed også varianter til et større eller mindre antall ord. Alle språk trenger å løse problemet på en eller annen måte i språknormer og i ordbøkene. Utarbeidelse av ordbøker er som oftest bestemt gjennom språkpolitikken. På grunn av begrensede muligheter og vansker foretrekker man ofte normative verk for deskriptive. Men også deskriptive ordbøker må stille seg bestemte grenser. For eksempel er idiolekter noe som aldri kan beskrives ved hjelp av midlene som er kjent for oss. Likevel må også de minste ordbøkene ofte beskrive uttrykk som stammer fra et kjent litterært verk, som altså opprinnelig tilhørte en idiolekt, men som ble en del av den nasjonale språkkulturen og spiller sin rolle i det allmenne språket. Muligheten til å beskrive forskjellige leksikalske varianter i språket er altså et nødvendig krav for alle deskriptive ordbøker. Det som er spesielt i norsk, er bare eksistensen av to uavhengige og likestilte skriftspråksnormer som danner to uavhengige synspunkt på språket og dets ordforråd. Alle ord og alle deres egenskaper kan vurderes fra to offisielle synspunkt.55 Ellers tilbyr den norske språksituasjonen et godt materiale for å løse problemet på en universell måte for de fleste andre språk. 4.1.1. Form Det er først og fremst viktig å holde de enkelte forskjellige formene fra hverandre. Hovedkriteriet er rettskrivningen, fordi det som vi beskriver og det som er utgangspunktet, er skrevet form. Hver form, hvert uttrykk må danne sin egen oppslagsenhet. Ikke alle oppslagsenhetene må være fullstendige og ikke alle må trykkes elles vises direkte til alle brukere. Sideformer og dialektale uttrykk kan bli skjult for brukere som lærer seg aktivt språk. Formene til én av de to skriftspråksnormene kan bli skjult for en som er interessert bare i den andre 55 Det ville være interessant å beskrive språket også etter de uoffisielle synspunktene (dialekter, sosiolekter, osv.). Det ligger (sannsynligvis) dessverre utenfor våre muligheter. 46 Bokmål og nynorsk sammen i tospråklige ordbøker språknormen. Det er også nødvendig å forbinde parallelle former. Forbindelsene må stå på det språknivået hvor ordene har noe felles. Rettskrivningsvarianter må forbindes på formnivået. Synonymer bør forbindes på betydningsnivået. Alle de forskjellige formene må altså danne sine egne oppslagsenheter. Spørsmålet er om de også skal dele opplysninger som de har felles. Men hvor mye har de egentlig felles? Det finnes ikke noen klare og entydige kategorier med klare grenser. Det er praktiske problemer som bestemmer hvordan det er best å løse bestemte situasjoner. Man kan skille mellom to hovedsituasjoner: 1) Rettskrivningsvarianter og andre varianter som brukes på samme måte. Slike varianter kan rett og slett bli til henvisninger til hovedformen, altså ufullstendige oppslagsenheter (se illustrasjon 4.1.1.1). Under hovedformen bør alle disse variantene beskrives igjen og markeres med attributive opplysninger. Denne beskrivelsen kan i grunnen ha to forskjellige former, for rene rettskrivningsvarianter og for andre variante former.56 Hvis det ikke er mulig å bestemme hvilken form som er hovedform, må man velge en. Hvordan kan man bestemme at formene brukes «på samme måte»? Kriteriet burde være en mulighet å erstatte formen med den andre formen i alle mulige kontekster (substitusjon), uten at noe annet (enn formen selv) forandres. Men det er jo veldig vanskelig å finne alle mulige kontekstene som ordet kan stå i. I vårt tilfelle er det særlig vanskelig å vurdere f.eks. nynorske ord innenfor setninger (konteksten) i bokmål. Derfor er det sannsynligvis sikrere å sette de fleste og vanligste variantene mellom bokmål og nynorsk heller i den neste kategorien. steike steke (el. steike) 1) tilberede mat 2) bestråle, bake Illustrasjon 4.1.1.1: Oppslagsenheten «steike» som henvisning til den fullstendige oppslagsenheten «steke» 56 Se eksempel til formene steke og steike senere. 47 Bokmål og nynorsk sammen i tospråklige ordbøker heim hjem hus, bustad hus, bolig eksempel: det ble som en annen heim for ham eksempel: det ble som et annet hjem for ham institusjon institusjon verd, jord uttrykk: det himmelske hjem Illustrasjon 4.1.1.2: Forbindelser mellom parallelle betydninger til formene «heim» og «hjem» 2) Parallelle former (for det meste lignende former i bokmål og nynorsk) med større eller mindre forskjeller i bruk og/eller betydninger. Slike ord og uttrykk skal heller beskrives uavhengig i forskjellige fullstendige oppslagsenheter. Opplysninger som de har felles, kan de dele sammen på forskjellige måter. Muligheten å dele sammen en felles beskrivelse kan bli upraktisk og uoversiktlig. Forskjeller kan oppstå i typiske kollokasjoner, 57 i stilistiske eller pragmatiske opplysninger. Forskjellene vises ofte tydelig i eksemplene eller idiomatiske uttrykk. Derfor er det kanskje best å beskrive begge ord uavhengig og forbinde dem med spesielle henvisninger på nivået hvor opplysningene ligner på hverandre – det betyr (for det meste) mellom de enkelte parallelle betydningene som ordene har felles (se illustrasjon 4.1.1.2).58 En slik forbindelse kan automatisk bety at alle underordnede elementer (semantiske beskrivelser, valensbeskrivelser, ekvivalenter, o.a. som tilhører denne betydningen) også er identiske. Men akkurat på dette nivået kan mindre forskjeller vises. Hvis vi trenger å tilføye en ny opplysning eller modifisere én av de elementære opplysningene på lavere nivå, kan vi markere den på en måte for å vise at i denne detaljen brytes likheten mellom de ellers like ord (deres betydninger, deres bruk, ...). På illustrasjon 4.1.1.2 står felles opplysninger på lys bakgrunn, mens forskjeller har mørk bakgrunn. Systemet kan selv sørge for konsistensen. Hvis man forbinder en betydning innenfor et nytt ord (oppslagsenhet) med en betydning til et annet ord, bør systemet spørre om virkelig alle 57 Se for eksempel lemmaene akt og akte i ordbøkene av Hustad og Haugen. 58 Denne situasjonen ligner på situasjon mellom parallelle polyseme ord mellom to forskjellige språk (se kap. 3.2.2.4). 48 Bokmål og nynorsk sammen i tospråklige ordbøker detaljopplysninger gjelder begge ord, før det lager en kopi (eller en full referanse uten forbehold) til originalen. Hvis redaktøren senere modifiserer opplysninger innenfor én av de parallelle elementene (betydningene, osv.) som disse to (eller flere) oppslagsenhetene deler sammen, kan systemet spørre om modifikasjonen gjelder begge (alle) ordene som deler denne gruppen med opplysninger. Etterpå kan systemet modifisere opplysninger enten i begge to (eller flere) oppslagsenhetene, eller bare i den oppslagsenheten som redaktøren virkelig prøvde å modifisere. Dermed kan alle forskjeller og paralleller mellom lignende former (ord, uttrykk) registreres eksplisitt. Problemer oppstår særlig i sammenheng med eksemplene. Hvis forskjellige former deler et felles eksempel, må eksemplet være i stand til å forandres også med formen som det skal illustrere bruk av. Hvis elementer i eksemplet (enkelte ord) beskrives nøyaktig, kan systemet være i stand til å tilpasse eksemplet til ordet (formen) som brukeren vil ha illustrert. Men i tilfellet det gjelder forskjellen mellom bokmål og nynorsk er situasjonen enda vanskeligere. Eksemplene kan ikke så lett deles mellom slike to former, fordi eksemplet kan forandres helt (andre ord får andre former, annen bøyning og/eller annen ordstilling). Det betyr at eksemplene må også beskrives etter sitt tilhørighet til bokmål eller nynorsk. De kan også deles i de to hovedkategoriene som står ovenpfor, og man kan altså beskrive dem på lignende måter som alle andre former og uttrykk.59 Det betyr at forskjellige eksempler (for bokmål og for nynorsk) bør beskrives uavhengig. De kan igjen dele betydningen (eller betydningene) og andre opplysninger. To parallelle ord som deler betydninger og eksempler må etterpå dele parallelle eksempler, ikke ett eksempel. Hvordan dette skal gjennomføres, er et spørsmål om praktisk implementasjon. På illustrasjon 4.1.1.2 står forskjellige eksempler under ellers parallelle betydninger og bryter dermed likheten. I tilfellet med disse to eksemplene dreier det seg om to parallelle eksempler. De kan altså forbindes på sitt eget nivå igjen. Men som underelementer til betydningene til «heim» og «hjem» står de som to uavhengige eksempler (eller henvisninger til eksempler) som ikke deles mellom de to parallelle betydningene likesom de andre underelementene. På neste (tredje) trinn står allerede synonymene. Det er også ord med parallelle betydninger, men sammenhengene er mye friere. Det er ikke lenger bare varianter og skal derfor ikke behandles 59 Dette er et annet argument for å behandle eksempler likt som andre former (ord og uttrykk). 49 Bokmål og nynorsk sammen i tospråklige ordbøker her.60 I de praktiske eksemplene som følger får man merke at grensen mellom de to hovedkategoriene virkelig er vanskelig å bestemme. Kriteriet om at noe annet enn formen (og bøyningen) forandres (dvs. betydninger, bruk eller noen restriksjoner) er altså rent praktisk og avhengig av tid. Hvorfor skal noen parallelle former i bokmål og nynorsk beskrives uavhengig som fullstendige oppslagsenheter og andre bare bli til henvisninger? Hvilken form skal man velge som «hovedform» (fullstendig oppslagsenhet), og hvilken form skal bare bli en henvisning? Dessuten, bruk av parallelle former kan forandres i tiden. En av to former som brukes på den samme måten og betyr det samme kan kanskje få en ny betydning som den andre ikke får. Eller kan forskjellige betydninger forsvinne og begge former kan komme til å brukes på den samme måten, selv om de opprinnelig hadde forskjellig bruk. Leksikografen kan ikke regne med forandringer i tiden, særlig i forhold til framtiden. Det ville altså kanskje være mest systematisk og konsekvent å ha uavhengige beskrivelser til alle ord, også til alle varianter. Parallelle beskrivelser burde være knyttet til hverandre med eksplisitte henvisninger. Men dette synes å bli altfor komplisert og overflødig. I virkeligheten er det et spørsmål om praktisk implementasjon – et dyktig utviklet system kan jo like godt presentere uavhengige beskrivelser til alle språkets former og uttrykk uten å virkelig ha lagret alle identiske opplysninger for alle varianter. 4.1.2. Opplysninger og markering Markeringen er den eneste muligheten til å vurdere ord og opplysningene om dem etter deres tilhørighet til en språknorm. Spørsmålet er hva som skal markeres og hvordan det skal markeres. Markeringen ligner på attributive opplysninger om bruk (stilistikk og pragmatikk). Det gjelder igjen alle kategoriene. Men markeringen kan til og med gjelde attributive opplysninger om stilistikk og pragmatikk. Enkelte ord kan få forskjellige stilistiske, pragmatiske og andre egenskaper etter synsvinkelen som man velger. Det gjelder først og fremst frekvensen og status, men det kan også gjelde opplysningene om stil, alder, sosialt miljø, osv.61 Dermed blir markeringen til en tertiær opplysning som gjelder ikke bare de primære opplysningene om ordet, men også de sekundære 60 Forhold mellom dem ligner mer på forhold mellom friere ekvivalenter i to forskjellige språk og kan kanskje behandles på en lignende måte. 61 For eksempel vurderes ordet akt i betydningen forsett, plan, tanke i Bokmålsordboka (og ordbøkene til Haugen og Hustad) som foreldet, men i Nynorskordboka blir det oppført uten denne markeringen. 50 Bokmål og nynorsk sammen i tospråklige ordbøker (attributive) opplysningene om bruken. Attributive opplysninger om bruk gjelder for det meste enten formen (ordet i sitt helhet) eller bare de enkelte betydningene. Av og til kan de gjelde mindre opplysninger som har flere varianter – flere muligheter (uttalen, valensrammen, kollokasjoner, osv.). De bestemmer over under hvilke (stilistiske, sosiale, osv.) omstendigheter den konkrete formen (uttalemåten, valensrammen, ordet i en bestemt betydning, osv.) kan brukes, og hvor mye (ofte) det brukes i det hele tatt (frekvens). Markeringen skal bestemme over synspunktet som alle disse opplysningene gjelder. For bokmål og nynorsk betyr det at hele gruppen med attributive opplysninger alltid må tilhøre en av de to målformene. Man trenger altså to grupper med attributive opplysninger for alle ord og alle opplysninger – én for bokmål og én for nynorsk. Tilhørigheten kan da bestemmes ved hjelp av opplysningen om status eller frekvens. Et ord som vanligvis brukes i nynorsk, men som også er en sideform i bokmål, får full status (hovedform) som attributtopplysning for nynorsk, men bare sideformstatus som attributtopplysning for bokmål: <bruk mål=”nynorsk”> <status>hovedform</status> </bruk> <bruk mål=”bokmål”> <status>sideform</status> </bruk> I tilfellet formen brukes bare i én målform, kan man løse situasjonen på forskjellige måter. Enten kan man markere formen eksplisitt som «ubrukelig» for den andre målformen, eller man kan unngå å beskrive attributter om bruk for den andre formen i det hele tatt. Hva som blir mest praktisk er bare et teknisk spørsmål som ikke spiller noen rolle for oss. 4.2. Løsninger på konkrete problemer Jeg vil prøve å løse konkrete problemer på konkrete eksempler som jeg har undersøkt i den første delen. Det er ikke viktig om alle disse opplysningene fra Einar Haugen og Tom Hustad som jeg har drøftet, er korrekte. Jeg skal nå prøve å vise hvordan slike opplysninger kan beskrives i en leksikalsk database. 4.2.1. Morfologi • Ord som tilhører forskjellige morfologiske typer i bokmål og nynorsk, får to varianter av 51 Bokmål og nynorsk sammen i tospråklige ordbøker morfologiske opplysninger – én gruppe for hver målform. Opplysninger til lemmaet ek`orn –et/ +en (brukes både som intetkjønn og som hankjønn/felleskjønn i bokmål, men bare som intetkjønn i nynorsk) kan se for eksempel slik ut: <morfologi variante=”1”> <ordklasse>substantiv</ordklasse> <bøyningstype>nøytrum</bøyningstype> <mønster>3</mønster> <bruk mål=”bokmål”> </bruk> <bruk mål=”nynorsk”> </bruk> </morfologi> <morfologi variante=”2”> <ordklasse>substantiv</ordklasse> <bøyningstype>maskulinum</bøyningstype> <mønster>1</mønster> <bruk mål=”bokmål”> </bruk> </morfologi> I tilfellet mangel på opplysninger om bruk for en målform ville bety at hele den overordnede gruppen med opplysninger ikke gjelder denne målformen, forteller denne beskrivelsen at den første morfologiske varianten (ekorn som nøytrum) gjelder både bokmål og nynorsk, mens den andre varianten (ekorn som maskulinum) gjelder bare bokmål. Her er alle attributive grupper om bruk tomme og det som spiller noen rolle er bare deres eksistens. Det ville være nyttig i det minste å beskrive frekvensen i de to gruppene til bokmål for å vise hvor ofte ordet brukes som nøytrum og hvor ofte det brukes som maskulinum. • Ordet som tilhører to forskjellige bøyningsmønstre (f. eks. akva´rium –iet Pl. */ +ier (best. Pl. –ia/ +iene)) får igjen to varianter av morfologiske opplysninger. Den ene skal beskrive bøyningen i bokmål ved å forbinde ordet med det første bøyningsmønstret, den andre forbinder ordet med det andre bøyningsmønstret og markeres bare for nynorsk. På en lignende måte kan man beskrive lemmaene som bry`te V braut/ +brøt, +brutt/*brote/*i , eller hjel`pe Verb +hjalp/*te, +hjulpet/*t . • Tilfeller som bare gjelder rettskrivningsvarianter som +boksta´velig Adj. – (*v(e)leg), kan behandles på forskjellige måter. Enten kan man danne tre oppslagenheter for alle tre formene, og forbinde dem sammen, eller man kan beskrive bare de to uavhengige hovedformene (bokstavelig og bokstav(e)leg) og bestemme i systemet at (e) er en fakultativ 52 Bokmål og nynorsk sammen i tospråklige ordbøker bokstav i formen. Dette er et spørsmål om teknisk implementasjon. 4.2.2. Valens Jeg har ikke funnet noen eksempler på forskjeller i syntaktiske rammer mellom bokmål og nynorsk. Likevel kunne man lett beskrive forskjellige varianter for syntaktiske rammer og knytte dem til en eller annen målform hvis det var nødvendig. 4.2.3. Semantikk • Ordene å akte og akt har angivelig (etter E. Haugen og T. Hustad) en ekstensjon i nynorsk som de ikke har i bokmål. Jeg har ikke kunnet bekrefte denne opplysningen og det er dermed ikke klart hva opplysningen egentlig betyr. Ved siden av en ny betydning kan det bare bety en ny kollokasjon. Opplysninger om kollokasjoner (enten hele den abstrakte gruppen med uttrykk som kan stå som ledd i den syntaktiske rammen eller de enkelte elementene) kan også få attributive opplysninger om bruk og dermed også varianter eller elementer som gjelder bare nynorsk eller bare bokmål. • Verbet å stople har helt forskjellige betydninger i bokmål og nynorsk. Løsningen er å markere de enkelte betydningene likt som andre opplysninger. <betydning id=”1”> <bruk mål=”bokmål”> </bruk> ... </betydning> <betydning id=”2”> <bruk mål=”nynorsk”> </bruk> ... </betydning> <betydning id=”3”> <bruk mål=”nynorsk”> </bruk> ... </betydning> <betydning id=”4”> <bruk mål=”nynorsk”> </bruk> ... </betydning> • Verbet å lufte kan i nynorsk også ha betydning som ellers uttrykkes med verbet å lukte. Det er altså nødvendig å markere denne betydningen bare for nynorsk. Jeg foretrekker også at denne betydningen og den parallelle betydningen «gi fra seg lukt» (betydning nr. 2) til 53 Bokmål og nynorsk sammen i tospråklige ordbøker verbet å lukte bør forbindes. • Forskjellene mellom ordene ensom/einsam og ensomhet/einsemd kunne jeg ikke bekrefte, selv om forskjellen mellom Nynorskordboka og Bokmålsordboka er tydelig. Hvis et ord ikke kunne brukes i en av betydningene som den andre kan brukes, burde man igjen bare forbinde de parallelle betydningene. I dette tilfellet ville det være nødvendig å beskrive dem som uavhengige fullstendige oppslagsenheter. Hvis det ikke finnes noen forskjell, kan man godt velge. • Ordene kjærlighet og kjærleik bør beskrives uavhengig (som to fullstendige oppslagsenheter). Selv om de enkelte betydningene sannsynligvis er like (til tross for forskjeller mellom Nynorskordboka og Bokmålsordboka), brukes formen kjærlighet også i et idiomatisk uttrykk som ikke gjelder nynorsk. Uttrykket må igjen stå helt uavhengig av de andre betydningene, slik som alle ordbøker gjør det. • Substantivene hjem og heim må også beskrives uavhengig (se illustrasjon 4.1.1.2). Situasjonen ligner på de andre tilfellene. Man forbinder bare de betydningene som er parallelle. Den betydningen som bare gjelder formen heim (betydning «verden») skal stå bare under formen heim. Den kan forbindes med bokmålsordet verden, og dermed blir forhold og forskjeller tydelige.62 Her vises også problemer med eksemplene. Eksemplene er faktisk like, forskjellen er bare i formen og artikkelen. Man kan enten beskrive to uavhengige eksempler63 som forbindes sammen på sitt eget nivå, eller et eksempel med to former (varianter). For å være konsekvent, skulle man heller foretrekke uavhengige beskrivelser. Men dette er egentlig bare et teknisk spørsmål igjen. 4.2.4. Fraseologi Forskjellige uttrykk bør beskrives uavhengig for bokmål og for nynorsk. Det gjelder uttrykk som det må du si og du må så seie. Det gjelder også idiomer som telje av/frå, telje til, stå til svars og ta til svars som brukes bare i nynorsk. Dialektale eksempler fra litteraturen som Tom Hustad beskriver i sammenhengen med bokmål, kan stå helt uavhengig igjen. Forbindelsen mellom disse 62 I Bokmålsordboka har formen verden egentlig fire betydninger. Det betyr at det ville være nødvendig å dele denne parallelle betydningen til ordet heim igjen i fire underbetydninger, eller i andre fire likestilte betydninger, og forbinde de enkelte betydningene sammen en for en. Eller man kunne samle alle betydninger til ordet verden i en felles overbetydning som man kunne forbinde med den parallelle betydningen til ordet heim. Løsningen er avhengig av det endelige konseptet som ville brukes i databasen. 63 Denne mulighet prøver illustrasjon 4.1.1.2 å illustrere med den mørke bakgrunnen. 54 Bokmål og nynorsk sammen i tospråklige ordbøker dialektale eksemplene og idiomatisk bruk i nynorsk bør vises eksplisitt igjen. Eksemplene kan til og med stå som eksempler til disse idiomatiske uttrykk også, selvfølgelig med en nødvendig markering (dialektal) og andre opplysninger om opprinnelsen (kilde). Hvis uttrykket har flere betydninger i nynorsk enn i bokmål, behandles situasjonen på den samme måten som ved andre ord og uttrykk. Man beskriver betydninger og markerer dem etter tilhørighet til målene. Situasjonen med uttrykk spille opp og spele opp er forskjellig igjen. Uttrykkene har forskjellig form og bør beskrives uavhengig igjen som alle andre parallelle ord og uttrykk. Ekvivalente betydninger (én betydning her) forbindes, de andre blir uten forbindelser, eller de kan forbindes med et annet (ekvivalent) ord eller uttrykk i bokmål. Forskjellige funksjoner til ord som hvor/der og sin i nynorsk og i bokmål kan man behandle som forskjellige betydninger. Grammatisk funksjon til synsemantiske ord tilsvarer betydning til autosemantiske ord – en betydning er egentlig en «semantisk funksjon». 4.2.5. Form • Formen avtalt er egentlig en homonym form. Man bør beskrive to forskjellige ord: avtalt som partisipp av avtale i bokmål, og avtalt som partisipp av avtelje i nynorsk. Man kunne også danne en egen oppslagsenhet for formen avtala som partisipp av avtale i nynorsk, hvis det hadde noen mening. Alle former må få markering. • Bokmålsformene steike og steke beskrives i to oppslagsenheter – den ene kan bli en ufullstendig oppslagsform med henvisning til den andre formen (se illustrasjon 4.1.1.1): <oppslagsenhet type=”ord” full=”nei” selvstendig=”ja”> <formbeskrivelse> <rettskrivning> <form>steike</form> </rettskrivning> <morfologi> <ordklasse>verb</ordklasse> <bøyningstype>svak</bøyningstype> <mønster>2</mønster> </morfologi> </formbeskrivelse> <henvisning>steke</henvisning> </oppslagsenhet> <oppslagsenhet type=”ord” full=”ja” selvstendig=”ja”> <formbeskrivelse variant=”1”> <rettskrivning> <form>steke</form> </rettskrivning> <morfologi> 55 Bokmål og nynorsk sammen i tospråklige ordbøker <ordklasse>verb</ordklasse> <bøyningstype>svak</bøyningstype> <mønster>2</mønster> </morfologi> </formbeskrivelse> <formbeskrivelse variant=”2”> <henvisning>steike</henvisning> </formbeskrivelse> [...] </oppslagsenhet> Man kunne teoretisk behandle begge former også som rettskrivningsvarianter og beskrive hovedformen på denne måten: <oppslagsenhet type=”ord” full=”ja” selvstendig=”ja”> <formbeskrivelse> <rettskrivning variante=”1”> <form>steke</form> </rettskrivning> <rettskrivning variante=”2”> <form>steike</form> </rettskrivning> <morfologi> <ordklasse>verb</ordklasse> <bøyningstype>svak</bøyningstype> <mønster>2</mønster> </morfologi> </formbeskrivelse> [...] </oppslagsenhet> Denne løsningen synes å være usystematisk. Det er ikke bare rettskrivningen som forandres, men også uttalen. Også forbindelsen til den andre oppslagsenheten ville ikke lenger ha noen betydning. I norsk leksikografi har imidlertid uttrykket rettskriving en videre betydning enn i andre språk64 – den har konsekvenser også for uttalen og ofte til og med morfologien, den gjelder altså varianter. Forskjellen kan gjelde bare ortografi, men så forandres for det meste også uttalen, og stundom også morfologien. Grensene er ikke klare igjen, og mange systematiske varianter kommer til forgrunnen: infinitiv som kan dannes med både e og a, valgfrie affiksene fram/frem, selv/sjølv, lig/leg, og andre. Behandling av denne problematikken er avhengig av behandling av morfemer som ordet består av i systemet. Et grundig morfologisk system som arbeider på lavere nivå enn med ord i sitt helhet, kan spare oss for mange «uavhengige» formbeskrivelser og kompliserte forhold mellom forskjellige grunnformer til faktisk identiske ord. 64 Se VIKØR 2002, S. 119. 56 Bokmål og nynorsk sammen i tospråklige ordbøker Eksemplet viser også at henvisninger (ufullstendige oppslagsenheter) spiller en uklar og usystematisk rolle. I det første tilfellet er formen å steike revet ut (sammen med sin formbeskrivelse) fra beskrivelsen i den fulle oppslagsenheten til formen å steke, og den danner en ufullstendig oppslagsenhet med henvisning til «hovedformen». Men må man beskrive denne formen under hovedformen igjen? I mitt eksempel står der bare en referanse tilbake til formen å steike. Det andre eksemplet gjør situasjonen enda mer tvilsom. Alle ufullstendige oppslagsenheter mister sin betydning. En elegant løsning ville være å ikke bruke dem i det hele tatt – man kunne bruke bare fullstendige oppslagsenheter med alle beskrivelser til alle variantene, men man kunne bruke dem bare som definisjonsenheter som kunne brukes til å generere automatisk en liste over alle formene i databasen. Alle disse formene kunne brukes som oppslagsformer med referanse til de virkelige definisjonsenhetene. • Nynorskformen steikje beskrives i Nynorskordboka praktisk identisk som formen steke i Bokmålsordboka. Det betyr at redaktøren kunne velge om han ville følge det praktiske prinsippet og lage en annen ufullstendig oppslagsenhet som henvisning til steke, eller om han heller ville holde bokmålsformer og nynorskformer fra hverandre og danne en ny fullstendig oppslagsenhet med parallelle betydninger. Men formen steike burde etterpå også inneholde en henvisning til denne formen. Den kan også brukes i nynorsk, selv om bare som sideform. • Formene som kattauga, kattauge og kattøye kan behandles identisk. Så lenge forskjellen bare er i formen (og morfologi) kan to av dem bare henvise til den tredje, fullstendige oppslagsenheten. Hvis man sammenligner Nynorskordboka med Bokmålsordboka, oppdager man at nynorskformene kattauga og kattauge virkelig er identiske i betydning og bruk, men de er ikke helt identiske med bokmålsformen kattøye. I Nynorskordboka beskrives en ny, tredje betydning som ikke nevnes i Bokmålsordboka. Hvis disse opplysningene er riktige og ikke bare gjelder en mangel i Bokmålsordboka, bør man danne to fullstendige oppslagsenheter med to parallelle betydninger og en uavhengig tredje betydning for nynorskformen. Den tredje formen (en av de to nynorskformene) kan fremdeles bare danne en ufullstendig oppslagsenhet med henvisning til den første nynorskformen. 57 Bokmål og nynorsk sammen i tospråklige ordbøker • Hvis man undersøker nærmere beskrivelsene til formene krydderi og krydder i Bokmålsordboka, vises det at formen krydder har en større ekstensjon – den kan også ha en annen, overført betydning som ikke gjelder formen krydderi. I tillegg til det brukes formen krydderi angivelig særlig i flertall.65 I dette tilfellet er det allerede nødvendig å danne to fullstendige oppslagsenheter med en parallell betydning nummer 1. Den overførte betydningen nr. 2 bør skrives bare under formen krydder. • I tilfellet formen kyr er det nødvendig å danne to oppslagsenheter. Den dialektale formen kyr blir til en henvisning til formen ku. Flertallsformen kyr blir også til henvisning til grunnformen ku, men ikke som en variant, men som en bøyningsform. Men likegodt kunne man da danne en tredje oppslagsenhet kyr som flertallsformen til den dialektale grunnformen kyr. Det er altså et spørsmål om man vil danne egne oppslagsenheter for bøyningsformer i det hele tatt. Det kan selvfølgelig være nyttig i trykte ordbøker for begynnere. Når det gjelder elektroniske ordbøker, kan (bør!) systemet være i stand til å generere alle bøyningsformer av alle ord selv og tilby brukeren et valg mellom dem (hvis brukeren krever det, for eksempel en nybegynner i norsk). Dette gjelder også formen avtalt. Vanskeligere (først og fremst uregelmessige) bøyningsformer har likevel rett til å få sin egen plass i ordbøkene. De kan altså få sine egne oppslagsenheter. De blir også for det meste skrevet ut eksplisitt i formbeskrivelser under oppslagsenheten til grunnformen. Systemet kunne derfor likegodt generere en liste over vanskelige bøyningsformer selv også. Og her kommer vi tilbake til idéen å lage bare fullstendige definisjonsenheter og generere listen med oppslagsformer som referanser til dem automatisk etter kravet. Så kunne brukeren velge hvilke slags former (nynorsk, bokmål, regelmessige og/eller uregelmessige bøyningsformer, osv.) vil han ha i makrostrukturen (dvs. hvilke former vil han søke i) selv! En god ordbok burde også inneholde former som både Einar Haugen og Tom Hustad unngår for å spare plass. Det gjelder for eksempel infinitivsformer som slutter på a i nynorsk, eller adjektiver på ut,ug og leg. Det kan bare være ufullstendige oppslagsenheter som henviser til en annen form med full beskrivelse eller formvarianter innenfor definisjonsenhetene. 65 Det ville altså være nyttig å ha et typisk eksempel her. 58 Bokmål og nynorsk sammen i tospråklige ordbøker 5. Avslutning Sammenhenger og forskjeller mellom bokmål og nynorsk viser tydelige problemer som oppstår når man prøver å beskrive et språk. Disse problemer gjelder i større eller mindre grad alle språk i verden. Forskjeller mellom dialekter, sosiolekter og andre former av språket vises så snart man prøver å gå dypere inn i språkets system i sin helhet. Situasjonen med nynorsk og bokmål viser også tydelig hvor vanskelig det er å finne grenser mellom enkelte språk. Hvis man ikke tar hensyn til nasjonalpolitiske emner, kan man stille seg det evige spørsmålet om det går om to språk eller bare ett språk med to former. I forhold til dialektene i Tyskland (ikke snakk om Kina!) kan man til og med spørre om norsk og svensk virkelig er to forskjellige språk. For mange islendinger eller færøyinger synes alle skandinaviske språk bare å være dialekter av ett språk. Grensene mellom de enkelte språk er ofte bare politiske, likesom grensene mellom «forskjellige» land. Dialekter i grenseområder til andre land ligner ofte mer på nabospråket enn på landets skriftspråk, hvis språkene tilhører den samme familien. Norske forhold er derfor ofte et tydeligere bilde på det som gjelder alle språk. De viser at forhold mellom forskjellige varieteter innenfor et språk ligner på forhold mellom to eller flere forskjellige språk, og forhold mellom de enkelte variantene ligner ofte på forhold mellom lignende elementer i forskjellige språk. Som et rikt utrustet språklaboratorium kommer Norge også med det uvanlige eksperimentet å ha to språknormer i et språksamfunn som neppe dekkes med målene som folk virkelig bruker. Politikken er selvfølgelig hovedfaktoren i spillet. Men noe veldig viktig mangler her: det finnes ikke noen grense. Offisielle grenser kan ligge mellom de enkelte kommunene, men de har likevel ingen allmenn betydning. Det viser seg igjen at man må holde seg til normene hvis man ikke vil miste oversikten. Norske språknormer er dessuten utrolig kompliserte med sine likestilte former og sideformer for både ord og grammatiske regler. Men folk holder seg ikke alltid til normene når de skriver, og iallfall ikke når de snakker. Oppgaven til språkforskere er ikke bare å bestemme over hvordan folk skal snakke og skrive, men først og fremst å beskrive hvordan folk virkelig snakker og skriver. En viktig oppgave er å hjelpe mennesker til å orientere seg i situasjonen – å hjelpe dem til å forstå hva de andre sier eller å hjelpe dem til å uttrykke det som de vil meddele slik at de andre forstår dem. De må hjelpe både folk som tilhører det samme språksamfunnet og folk som kommer fra et annet språkmiljø. For å nå dette målet er det nødvendig å beskrive også det som blir skjult bak språket, det som er implisitt, ved siden av det som 59 Bokmål og nynorsk sammen i tospråklige ordbøker språket uttrykker eksplisitt. Stilistiske og pragmatiske opplysninger undervurderes ofte både i grammatiske og leksikalske beskrivelser. Mange mindre detaljer – små forskjeller mellom varianter blir ofte skjult. De norske språknormene bokmål og nynorsk viser både ekstreme paralleller og forskjeller mellom to språk. Ord med omtrent samme betydning kan ha forskjellig ekstensjon, forskjellig bruk i idiomatiske uttrykk, forskjellige stilistiske eller pragmatiske egenskaper eller forskjellige kollokasjoner. Forhold mellom to språk kan altså i større eller mindre grad ligne på forhold innenfor ett språk. Bokmål og nynorsk som ligger midt på veien, viser dette tydelig. Det er ikke umulig å arbeidet med dem som med ett språk,66 men alt blir lettere hvis man behandler dem som to uavhengige språk. Og likevel finnes det ikke seriøse krav om fullstendige «tospråklige» ordbøker mellom bokmål og nynorsk (med unntak av en rekke «fornorskningsordbøker» i historien).67 Man kan altså ikke snakke om to språk, men heller ikke om ett språk. For å beskrive forhold til andre språk i tospråklige ordbøker må man først beskrive forhold innenfor det ene språket og alle dets elementer (ord, uttrykk, sammenhenger, forskjeller, kombinasjonsmuligheter, osv.). Hvor vanskelig dette kan være, kan man se på forholdene i det norske språksamfunnet med sine to offisielle skriftspråksnormer og et uendelig antall praktiske uttrykksmåter. Moderne tekniske midler kan neppe hjelpe oss med å løse en vanskelig språksituasjon. De kan ikke tilby en enkel løsning på problemer og krav som situasjonen stiller. De kan heller ikke spare oss for arbeidet med forskning og beskriving eller hjelpe oss med å finne den riktige måten å forske eller beskrive på. Men de kan hjelpe oss med å organisere arbeidet, å arbeide systematisk og tenke systematisk. De kan også hjelpe oss med å lagre store mengder av opplysninger i kompliserte flerdimensjonale strukturer uten å miste oversikten og med muligheten å søke i disse kompliserte strukturene ganske fort og modifisere opplysninger og forbindelser mellom dem så ofte som vi trenger. Opplysninger om forhold (forskjeller eller paralleller) mellom de enkelte elementene kan registreres, og de står til rådighet for brukeren. Det er systemet som holder konsistensen og orden i opplysningene, og vi kan få mer tid til å arbeide med virkelige problemer. 66 Det bekrefter ikke bare ordbøkene til Einar Haugen, Dag Gundersen og Tom Hustad, men også NORSK REFERANSEGRAMMATIKK som også beskriver begge to skriftspråksnormene. 67 Men det finnes allerede krav om maskinoversettelser mellom bokmål og nynorsk. Ivar Utne beskriver et slikt prosjekt (UTNE 1989). Dette prosjektet arbeider bare med enkle ordlister og analyserer ikke tekstene dypere. 60 Bokmål og nynorsk sammen i tospråklige ordbøker 6. Resumé Specifická jazyková situace v Norsku je zároveň komplikací i výzvou jazykovědné teorii i praxi, neméně pak lexikografii. Existence dvou rovnocenných spisovných jazykových norem (bokmål a nynorsk) není nijak pevně vázána na žádné konkrétní území a neodpovídá ani žádné jasně vymezitelné skupině nesčetných dialektů (ani jiných jazykových variet), které mají v Norsku tradičně vysoký status. Skutečná řeč rodilých mluvčích prakticky nikdy neodpovídá žádné z obou spisovných norem a též psaný projev často vykolejuje z předepsaných pravidel. Zvláště v beletrii se lze často setkat s variantami více či méně oficiálními, nezřídka i čistě nářečními. Obě spisovné formy se navíc ve velké míře překrývají a tolerují mnoho variant, často pocházejících právě z druhé spisovné normy či přímo z některých variet. V Norsku je jazyková otázka tradičně významnou součástí politického dění. Od sedmdesátých let 20. století byly na popud bouřící se veřejnosti vzdány oficiální snahy o sbližování obou jazykových norem. I to je patrně jednou z příčin nevalného nadšení z pokusů o vytvoření slovníků, které shrnují současně slovní zásobu obou spisovných jazyků, ačkoliv právě ta je jim oběma z 80% společná. Kromě jednoho slovníku výkladového (od Daga Gundersena) se jedná především o dva slovníky dvojjazyčné (Norskoanglický slovník od Einara Haugena, otce této myšlenky, a Norsko německý slovník Toma Hustada, jeho následovníka). Tyto slovníky, vytvořené během šedesátých až osmdesátých let, se nikdy nedočkaly oficiálního uznání, ačkoliv s jejich odbytem problémy nebyly. Vytýkána jim byla za prvé komplikovanost systému zpracování a za druhé podceňování strukturálních rozdílů jednotlivých jazykových norem. Bez ohledu na postoj rodilých mluvčích stojí ovšem cizinci pracující s norským jazykem před problémem zcela jiným. Poměrně často se setkávají s texty v obou spisovných formách, které navíc nezřídka nesou stopy různých nářečí, používají méně obvyklé varianty, nebo prostě mísí různé variety. Před takové problémy jsou nejčastěji postaveni překladatelé krásné literatury. Nutnou pomůckou každého překladatele (i kohokoliv jiného, kdo se zabývá cizím jazykem), je kvalitní gramatika a slovník daného jazyka. Krátký pohled do norských knihkupectví ovšem ukáže, že většina zde dostupných slovníků je určena spíše rodilým mluvčím. Výjimkou jsou právě zmiňované slovníky E. Haugena a T. Hustada, které se navíc vyznačují i souhrnným zpracováním slovní zásoby obou spisovných forem norštiny. To znamená, že kromě lexikografických informací 61 Bokmål og nynorsk sammen i tospråklige ordbøker nutných pro cizince je v nich možné nalézt informace o lexikálních výrazech obou spisovných forem norštiny, jakož i některých výrazů čistě nářečních. Slovníky E. Haugena a T. Hustada řeší problematickou situaci dvou odlišných spisovných norem pečlivým značkováním jednotlivých lexikografických údajů. Každý údaj týkající se výhradně bokmålu je předznačen znaménkem plus (+), zatímco údaj týkající výhradně nynorsk je předznačen hvězdičkou (*) nebo malým čtverečkem v případě T. Hustada. Údaje shodné pro obě jazykové normy zůstávají bez označení, informace čistě nářeční (tedy nepřípustné v obou spisovných normách) se značí malým kroužkem (°). Toto značení se týká především jazykových výrazů jako takových, rozlišují tedy lemmata výrazů náležících bokmålu, lemmata výrazů náležících nynorsk, lemmata výrazů společných a lemmata výrazů čistě nářečních. Značení lze ovšem použít i kdekoliv uvnitř mikrostruktury k označení jednotlivých dílčích informací. Slovníky tímto způsobem mohou rozlišovat různé morfologické koncovky a tudíž i rozdílnou deklinaci či konjugaci slov jinak shodných v obou spisovných normách, včetně případných morfologických variant. Stejně tak mohou specifikovat významy, idiomatické výrazy či rozdílné kolokace, které slovo může vytvářet jen v některé z obou jazykových forem, ačkoliv jinak je třeba shodně použitelné v obou. Tento systém se zdá být poměrně účelný a přehledný a dokáže jednoduchým způsobem zachytit i poměrně komplikované situace – ač na první pohled vypadá možná zmateně, pomůže uživateli, který ví, co chce, najít potřebné informace. Daleko větším problémem než zachycení souhrnné slovní zásoby obou spisovných forem norštiny se ovšem ukazuje nepřehledná jazyková situace sama o sobě. Víceúrovňový status jednotlivých variant v rámci obou spisovných norem se mění a je také asi jediným výrazným bodem, který oba slovníky nijak neřeší. Nedostatečná dokumentace o užívání jednotlivých výrazů v praxi se projevuje zvláště u ustálených slovních spojení. V tak různorodém a proměnlivém jazykovém prostředí je pak často přináležitost jednotlivých výrazů k jednotlivým spisovným normám vůbec poměrně těžko dokumentovatelná. Zvláště proto lze asi v obou slovnících nalézt množství nejasností, chyb a nekonsekventních údajů. Srovnání s údaji z jednojazyčných slovníků ovšem situaci bohužel nijak neosvětluje, ale naopak odhaluje nové rozpory a nejasnosti. Zvláště v jednojazyčných slovnících není na mnoha místech jasné, zda se případné rozdíly týkají opravdu rozdílu mezi oběma jazykovými formami, nebo jen rozdílného (odlišného či přímo chybného) zpracování jednotlivých slovníků. Moderní lexikografie přináší nové možnosti popisování slovní zásoby a jejích výrazů a současně zcela nové požadavky. Výpočetní technika umožňuje shromažďovat nepředstavitelná 62 Bokmål og nynorsk sammen i tospråklige ordbøker množství informací a současně je v zanedbatelném čase hromadně zpracovávat. Přináší také inspiraci k mnohem systematičtější a exaktnější práci a požaduje jednoznačnost a úplnost explicitně definovaných informací, obzvláště majíli být použity nejen k další reprodukci pro lidského uživatele, ale také ke strojovému zpracování přirozeného jazyka (NLP). Moderní technika oprošťuje lexikografa od mnoha podružných a mechanických činností a nabízí mu možnost plně oddělit obsah od formy, a tím se zbavit omezující vazby na papírové zpracování slovníku. Zatímco obsah může mít libovolné rozměry a libovolně složitou strukturu, lze jej v případě potřeby v mžiku prezentovat libovolnému uživateli v libovolné formě. Účelem je shromáždit co nejvíce potřebných informací o slovní zásobě do jedné univerzální lexikální databáze, z níž lze potom automaticky generovat (v závislosti na zaznamenaných informacích, jejich povaze, množství a kvalitě) libovolný druh slovníku, s libovolným výběrem z těchto informací, v libovolném uspořádání a libovolné formě, ať už elektronické či tištěné. V ideálním případě si tedy může každý uživatel vygenerovat slovník dle svých vlastních potřeb a požadavků. Patrně nejpřirozenější cestou k zachycení vztahů mezi lexikálními jednotkami různých jazyků je spojování výrazů na úrovni jejich jednotlivých významů. Propojením jednotlivých paralelních slovních významů mezi dvěma (či více) jazyky vznikne oboustranný dvojjazyčný (či vícejazyčný) slovník. Vztah a míru paralelnosti obou významů je však třeba přesně zachytit. Stejně tak je nutné pečlivě rozlišit a definovat významy jednotlivých výrazů na obou stranách, tedy v obou jazykových databázích na základě kontextů, v jakých se mohou tyto výrazy vyskytnout. Podrobný popis kontextových restrikcí pomůže nejen správně identifikovat přesný význam určitého výrazu ve fázi dekódování, ale také správně použít paralelní výraz v druhém jazyce během fáze kódování. Rovnocenný popis lexikálních jednotek v obou srovnávaných jazycích je tedy nutný nejen k obousměrnému použití lexikální databáze, ale i ke kvalitnímu využití jak aktivnímu tak pasivnímu. Existence jazykových variant, a zvláště pak dvou spisovných norem norštiny, přináší nové požadavky na popis jazyka v lexikální databázi. Kromě identických variant (pravopisných a jiných), které stačí zachytit neúplnou formální jednotkou bez popisu významů, zato s odkazem na hlavní, plně popsanou jednotku hlavního lemmatu, je potřeba popsat i varianty, které se liší extenzí svého významu, použitím nebo spojitelností s jinými výrazy. Z praktického hlediska je lepší taková lemmata popsat nezávisle a jejich paralelní významy (či jiné rysy) propojit na nižší úrovni tak, aby bylo možné jejich shodnost či odlišnost nadále pečlivě sledovat. Automaticky se pak předpokládá, že neníli značeno explicitně jinak, jsou všechny podrobné údaje o daných paralelních významech 63 Bokmål og nynorsk sammen i tospråklige ordbøker takových výrazů shodné. Pokud některé z nich nejsou shodné a porušují paralelitu, je nutné je patřičně označit. O konzistenci se stará systém sám a veškeré problémy hlásí redaktorovi. Veškeré lexikografické údaje je samozřejmě nutné ohodnotit z hlediska platnosti v obou spisovných normách přiřazením dvou skupin stylistickopragmatických atributů, zvláště pak všechny varianty na všech jazykových rovinách. Tím se rozliší také různé použití jinak zcela shodných forem v obou spisovných jazycích. Praktické problémy ukazují, že není zcela jednoduché rozlišit jasně předem shodu nebo rozdílnost dvou paralelních výrazů ve významu a použití v rámci všech variet. Proto je těžké konkrétní varianty rozdělit na ty, které se dají popsat společně, a na ty, které se musí popsat nezávisle (nehledě na to, že takové věci se s vývojem jazyka mohou i poměrně rychle změnit). Další typ problémů ukazuje na nejistý účel neúplných formálních jednotek sloužících jako odkaz na plně popsané jednotky hlavních forem (ne vždy lze navíc některou formu označit za hlavní), a to jak v případě variant jako takových, tak více či méně nepravidelných slovních tvarů (plurálů, minulých časů, apod.). Řešením by mohlo být použití pouze plně popsaných jednotek s popisem všech variantních forem jako jednotek definičních, z nichž by systém automaticky generoval takový seznam výrazů, jaký by byl právě potřeba (výrazy nynorsk, bokmålu, všechny pravidelné a/nebo nepravidelné tvary jednotlivých slov, apod.). Tento seznam by pak sloužil jako makrostruktura, t.j. jako odkazy na jednotlivé definice. Norská jazyková situace názorně ukazuje, že hranice mezi dvěma různými jazyky je věcí velmi relativní a obvykle čistě politickou. Vztahy lexikálních variant v rámci jednoho jazyka se často podobají vztahům paralelních výrazů dvou nezávislých jazyků. Vztah mezi varietami jednoho jazyka se často podobá vztahům mezi dvěma nezávislými jazyky. Dvojí norská spisovná norma navíc stojí právě na půli cesty mezi dvěma nezávislými jazyky vázanými na dvě jasně ohraničená nezávislá politická území, a jedním jazykem s více varietami. Moderní technika nám nemůže nabídnout řešení složitých jazykových situací a jazykových problémů vůbec, ani nám nepřináší pomoc v tom, jak je řešit správně. Nemůže nám ani ušetřit práci s výzkumem a popisem. Nabízí nám ovšem možnost zachytit danou problematiku v komplexních strukturách a zároveň si v nich udržet přehled a konzistenci. Takto může člověku ušetřit nejen nekonečné řady mechanických činností, ale její organizace a systematičnost může i zkvalitnit jeho práci tím, že ho přivede k nutně systematičtějšímu způsobu myšlení i popisování problemů a snaze o hlubší pochopení problematiky a jejích základních principů. 64 Bokmål og nynorsk sammen i tospråklige ordbøker Litteratur AKØ 1991: AKØ, JØRNOTTO (1991): “Gråsoner i norske ordbøker” In: STUDIER 1991 – s. 6575 ATKINS 1996: ATKINS, B. T. S.: “Bilingual Dictionaries. Past, Present and Future.” In: EURALEX 1996 – s. 515546 BAUSTAD 1991: BAUSTAD, JOSTEIN (1991): “Automatisk analyse av maskinleselige ordbøker til bruk i en orddatabase” In: STUDIER 1991 – s. 423431 BOGURAEV/BRISCOE 1989: BOGURAEV, BRAN; BRISCOE, TED (EDS.) (1989): Computational Lexicography for Natural Language Processing. London and New York: Longman. BOKMÅLSORDBOKA 1997: Bokmålsordboka. Definisjons og rettskrivningsordbok. Oslo: Universitetsforlaget, 1997. BRAASCH 1995: BRAASCH, ANNA (1995): “Arbejdet med 'Forslag om dansk standard for lagring og udveksling af leksikalske data'” In: STUDIER 1995 – s. 6981 BRAASCH 1989: BRAASCH, ANNA (1989): “Udnyttelse af maskinlæsbare ordbogsdata til maskinoversettelse” In: PIND/RÖGNVALDSSON 1989 – s. 127137 BØGGILDANDERSEN 1989: BØGGILDANDERSEN, BOEL VICTORIA (1989): “Valence Frames Used for Syntactic Disambiguation in the EUROTRADK Model” In: PIND/RÖGNVALDSSON 1989 – s. 146156 CALZOLARI 1988: CALZOLARIOVÁ, NICOLETTA (1988): “Kombinovat slovník a tezaurus je možné” (“The Dictionary and The Thesaurus can be combined”) In: STUDIE 1997 – s. 325341 CINKOVÁ 2001: CINKOVÁ, SILVIE (2001): Syntagmatisk information i germansk lexikografi. Diplomová práce na KGNN FF UK, ved. Jarka Vrbová. (MAoppgave, Karlsuniversitetet i Praha) ČERMÁK 2001: ČERMÁK, FRANTIŠEK (2001): Jazyk a jazykověda. Praha: Univerzita Karlova v Praze – nakladatelství Karolinum. ČERMÁK/BLATNÁ 1995: ČERMÁK, FRANTIŠEK; BLATNÁ, RENATA (eds.) (1995): Manuál lexikografie. H&H, Praha. DEGNBOL 1991: DEGNBOL, H.; GRÍMSDÓTTIR, G. Á.; JACOBSEN, B. C.; KNUDSEN, J.; RODE, E.; SANDERS, C. (1991): “En ordbok er en database” In: STUDIER 1991 – s. 385389 DOBROVOĽSKIJ 2000: DOBROVOĽSKIJ, DMITRIJ (2000): “Polysemie aus kontrastiver Sicht” In: Bartz, I.; Fix, U.; Lerchner, G. (eds.): Das Wort im Text und Wörterbuch. Peter Lang. DYRHAUG 1946: DYRHAUG, LEIV: Tysk – nynorsk. Oslo: Gyldendal norsk forlag, 1946. ENGH 1991: ENGH, JAN (1991): “Leksikografi i IBM Norge” In: STUDIER 1991 – s. 409422 EURALEX 1996: GELLERSTAM, M. E.A. (EDS.) (1996): Euralex '96 Proceedings, III, Göteborg University. FILLMORE/ATKINS 1994: FILLMORE, CHARLES; ATKINSOVÁ, B. T. S. (1994): “Když začneme tam, kde slovníky končí: výzva korpusové lexikografie” (“Starting where the Dictionaries Stop: The Challenge of Corpus Lexicography”) In: STUDIE 1997 – s. 381416 65 Bokmål og nynorsk sammen i tospråklige ordbøker GUNDERSEN 1991: GUNDERSEN, DAG: „Norwegian lexicography.“ In: Wörterbü cher. Ein internationales Handbuch zur Lexikographie. Zweiter Teilband. Berlin – New York: Walter de Gruyter, 1991 (Handbücher zur Sprach und Kommunikationswissenchaft. Band 5.2). – s. 19231928 HAUGEN 1996: HAUGEN, EINAR: Norskengelsk ordbok. NorwegianEnglish Dictionary. 4. Aufl. Oslo: Universitetsforlaget, 1996. HELBIG/BUSCHA 1996: HELBIG, GERHARD; BUSCHA, JOACHIM: Deutsche Grammatik. Ein Handbuch für den Ausländerunterricht. 17. Aufl. Leipzig: Langenscheidt, 1996. HUSTAD 1984: HUSTAD, TOM: Stor norsktysk ordbok. Großes NorwegischDeutsches Wörterbuch. Studentutgave. Oslo: Universitetsforlaget, 1984. JAROŠOVÁ 2000: JAROŠOVÁ, ALEXANDRA (2000): “Problems of Semantic Subdivisions in Bilingual Dictionary Entries” International Journal of Lexicography, Vol. 13 No. 1 Oxford University Press, 2000. S. 1228 JÓNSSON 1989: JÓNSSON, JÓN HILMAR (1989): “A Standardized Dictionary of Icelandic Verbs” In: PIND/RÖGNVALDSSON 1989 – s. 268285 KIRKEBY 1986: KIRKEBY, WILLY A.: Norskengelsk ordbok. Oslo: Gyldendal norsk forlag, 1986. KOSEK 2000: KOSEK, JIŘÍ (2000): Seriál o XML pro Softwarové noviny. http://www.kosek.cz/clanky/swn xml/index.html LANGENSCHEIDT 1974: NorwegischDeutsch. DeutschNorwegisch. Oslo: Langenscheidt /Gyldendal, 1974 (Gyldendal Handwörterbuch). MARTIN 2002: MARTIN, WILLY (2002): “Lexicography, Lexicology, Linking and the HubandSpoke Model” In: Melka, Francine; Augusto, M. Celeste (eds.): De la Lexicologie à la Lexicographie / From Lexicology to Lexicography. University Utrecht – Utrecht institute of Lunguistics OTS. s. 52 70 MARTIN/TAMM 1996: MARTIN, WILLY; TAMM, ANNE (1996): “OMBI: An editor for constructing reversible lexical databases” In: EURALEX 1996 – s. 675687 NORLINGCHRISTENSEN 1991: NORLINGCHRISTENSEN, OLE (1991): “Struktureret redigering af ordbøger” In: STUDIER 1991 – s. 447454 NORSK REFERANSEGRAMMATIKK: FAARLUND, JAN TERJE; LIE, SVEIN; VANNEBO, KJELL IVAR: Norsk referansegrammatikk. Oslo: Universitetsforlaget, 1997. NORSKTSJEKKISK LOMMEORDBOK VRBOVÁ, JARKA; STEJSKALOVÁ, BARBORA; NOVÁKOVÁ, EVA; NOVÁKOVÁ, MILADA: Norskočeský a česko 1995: norský kapesní slovník. Praha: Státní pedagogické nakladatelství, 1995. NYNORSKORDBOKA 1998: Nynorskordboka. Definisjons og rettskrivingsordbok. Oslo: Universitetsforlaget, 1998. OMBI 1998: Elswijk, Mark van (ed.); Wijne, Cecilie; Maks, Isa; Martin, Willy: OMBI 4 User Manual. ms., CLVV. PIND/RÖGNVALDSSON 1989: PIND, JÖRGEN; RÖGNVALDSSON, EIRÍKUR (eds.) (1989): Papers from the Seventh Scandinavian Conference of Computational Linguistics. Reykjavík 1989. Institute of Lexicography – Institute of Linguistics, Reykjavík, 1990. 66 Bokmål og nynorsk sammen i tospråklige ordbøker RIKSMÅLSORDBOK 1957: KNUDSEN, TRYGVE; SOMMERFELT, ALF; NORENG, HARALD: Norsk riksmålsordbok. Oslo: H. Aschehoug & Co., 1957. SCHUTZ 1991: SCHUTZ, RIK (1991): “Redigeringsprogrammet EDI” In: STUDIER 1991– s. 441446 SCIARONE/AHMADI 1996: SCIARONE, A. G.; AHMADI, M. R.: “Towards a Universal Dictionary” In: EURALEX 1996 – s. 465472 STEIGAN 1995: STEIGAN, PÅL (1995): “Multimedialeksikografi: nye utfordringer for leksikografisk teori” In: STUDIER 1995 – s. 375382 STUDIE 1997: ČERMÁK, FRANTIŠEK; KLÍMOVÁ, JANA; PETKEVIČ, VLADIMÍR (eds.) (1997): Studie z korpusové lingvistiky. Univerzita Karlova v Praze, Praha. STUDIER 1991: Fjeld, Ruth Vartvedt (eds.) (1991): Nordiske studier i leksikografi. Rapport fra Konferanse om leksikografi i Norden 28.31. mai 1991. Nordisk forening for leksikografi, Oslo, 1992. STUDIER 1995: Svavarsdóttir, Ása; Kvaran, Guðrún; Jónsson, Jón Hilmar (red.) (1995): Nordiske studier i leksikografi 3. Rapport fra Konferanse om leksikografi i Norden, Reykjavík 7.10. juni 1995. Nordisk forening for leksikografi, Reykjavík. SVAVARSSON/PIND 1989: SVAVARSSON, BJÖRN Þ.; PIND, JÖRGEN (1989): “Database Systems for Lexicographic Work” In: PIND/RÖGNVALDSSON 1989 – s. 326341 UTNE 1989: UTNE, IVAR (1989): “Machine Aided Translation between the two Norwegian Languages Norwegian Bokmål and NorwegianNynorsk” In: PIND/RÖGNVALDSSON 1989 – s. 250259 VIKØR 2002: VIKØR, LARS S. (2002): “Behandling av rettskrivingsvariasjon i norske ordbøker og ordlister” In: Bergenholtz, Henning (ansv.); Malmgren, SvenGöran (eds.) (2002): LexicoNordica 92002. Oslo: Nordisk forening for leksikografi og Nordisk språkråd. – s. 119129 W3CXML: The World Wide Web Consortium (W3C): Extensible Markup Language (XML). http://www.w3c.org/XML/ Zachariassen/Hansen 1995: ZACHARIASSEN, PETUR; HANSEN, ZACHARIAS (1995): “Redigeringssystemet RiSt – udviklet og anvendt i et færøsk ordbogsmiljø” In: STUDIER 1995 – s. 433443 67
© Copyright 2024