Terminologistöd

Digital inkludering
genom flerspråkig samhällsinformation
med individanpassad frågestyrd sökning,
textförenkling och navigeringsstöd.
Sture Hägglund
Professor emeritus, LiU
Sics East Swedish ICT
(f.d. Santa Anna IT Research Institute)
2013-05-30
Page 1
Sture Hägglund, Sics East Swedish ICT
Den digitala klyftan – behov och möjligheter
Berörda grupper
 Äldre (även tidigare IT-användare med avtagande kognitiv förmåga)
 Funktionshindrade, t ex på grund av sjukdom
 Personer med annat modersmål än svenska
 Ointresserade och ekonomiskt svaga
Några ansatser
 Standardisering och gemensamma ramverk
 Innovativa accessterminaler
 Tjänstedesign för användbarhet
 Språkteknologi
2013-05-30
Sture Hägglund
Samhällsutmaningar:
 Utlandsfödda (1.5 milj invånare) står för en mycket stor
del av de personliga besöken hos myndigheter
 25% av ungdomar har efter genomgången grundskola
svårigheter att förstå en nyhetsartikel
 En åldrande befolkning. 85% av alla över 75 (=
huvuddelen av vårdkonsumenterna) ej uppkopplade.
Framtida resurseffektivitet och hög upplevd kvalitet för
brukare kräver välfungerande e-tjänster med bl a:
 enkelhet i handhavande och åtkomst till information och etjänster för slutanvändare,
 semantisk interoperabilitet för gemensam
informationshantering mellan olika myndigheter.
2013-05-30
Page 3
Sture Hägglund, Sics East Swedish ICT
Förbättrad tillgång till myndigheters e-tjänster för
utlandsfödda - Ett uppdrag från Försäkringskassan och
Internetfonden .SE
Låg användning av etjänster för utlandsfödda
 Språkproblem?
 Teknikproblem?
 Sociokulturella
faktorer?
Verktyg
 Textsammanfattningar
 Lätt svenska
 Personalisering
 Navigationsstöd
 ...
2013-05-30
Page 4
Sture Hägglund
DigInclusion – tillgänglighet till myndighetstjänster
 Integration av utlandsfödda och läshandikappade
genom språklig anpassning av myndighetsinformation
 Frågestyrd flerspråkig upplysningstjänst med
navigeringsstöd
 Texttransformationer för ökad läsbarhet: dynamiska
sammanfattningar, lätt svenska, klustring, …
 Terminologi- och översättningsstöd
 Kunskapsstöd för kundcenter
Oberoende stöd för brukaren respektive myndigheten!
Page 5
Sture Hägglund
Skriv- och terminologistöd (Fodina Acrolinx)
Nationellt fackspråk för vård och omsorg (förstudie)
 Språklig grundkunskap
 Fullt stöd för svensk böjnings- och sammansättningsmorfologi
 Syntaktisk analys för att hantera syntaktisk kontext
 Terminologistöd
 Integration till befintliga terminologiresurser
 Kontrollera att rekommenderade termer används
 Larma om förbjudna/föråldrade termer finns i texten
 Språklig kontroll
 Stavningskontroll (anpassat för fackspråksområdet)
 Stil- och grammatikkontroll (anpassade för fackspråksområdet)
2013-05-30
Page 6
Sture Hägglund, Sics East Swedish ICT
Enhetlig vårddokumentation
Magnus Merkel, m fl
2,75 gånger
Bild: Erik Nissen,
Cambio Healthcare Systems
2013-05-30
Page 7
Sture Hägglund, Sics East
Swedish ICT
Önskad effekt av ett skriv- och
terminologistöd
 Ökad kvalitet på skrivet material
 Enhetligt språkbruk inom organisationen
 Minskad processtid för skrivet material
 Minskat behov av manuell granskning
 Snabbare uppdatering av texter vid underhåll
 Kortare inskolningstid för nya skribenter
 Sammanställning av ”problem” för fokuserad utbildning
 Strukturerat, mätbart sätt att genomföra språkliga
kvalitetskontroller.
2013-05-30
Page 8
Sture Hägglund, Sics East Swedish ICT
Krav på ett terminologi- och skrivstöd
inom offentlig sektor
 Hantera olika filformat (xml, sgml, indesign, word, fm…)
 Hantera olika kontexter (rubriker, tabeller, löpande text…)
 Integrerat i skrivmiljön (som insticksmodul i applikationer där
text produceras)
 Fokusera på språkligt material, inte metadata
 Hantera svenska sammansättningar
 Riktigt stöd för svensk ordböjning (måste kunna hantera olika
böjningsvarianter av en term)
 Integrerat med termresurser
2013-05-30
Page 9
Sture Hägglund, Sics East Swedish ICT
Funktionalitet i Fodina Acrolinx
Basfunktion:
 Hanterar många miljöer med olika filformat (xml, sgml, indesign, word,
html…) och editorer (Word, Powerpoint, OutLook, Arbortext Editor,
FrameMaker + 10 till)
 Integrerat i skrivmiljön (som insticksmodul i applikationer)
 Integrerad termdatabas med termbrowser, termkontrol, termförslag)
 Skrivstöd eller kvalitetskontroll
Språkspecifikt:
 Hanterar svenska sammansättningar
 Riktigt stöd för svensk ordböjning
 Hanterar böjningsvarianter av termer
 Svenska grammatik- och stilregler
Kundspecifikt:
 Hanterar olika kontexter (rubriker, tabeller, löpande text…)
 Domänanpassning av språket (Rättstavning, Stilregler, Terminologi)
Svenska resurser i Acrolinx
 Morfologi:
 232 101 grundformer (SAOL har 123 000)
 1 883 000 böjda former (SAOL har 1,2 milj)
 1 540 000 unika ord
 11 106 namn:
 3331 efternamn
 2445 städer
 1105 företagsnamn
 1482 förnamn
 Från ö till högfrekvensvärmetillslutningsanordning
Svenska resurser i Acrolinx
 Sammansättningsregler:
 Kalmarbo = Kalmar + bo
 folkhälsokontroll = folkhälsa – a + o + kontroll
 13-hörning = 13 + - + hörning
 Allmänordlistor
 Termer
 Språkrådets onödig engelska, svengelska (1150 termer)
 Statskalendern (2300 termer)
 Svenska datatermgruppens ordlista (513 termer)




1 200 vanliga förkortningar
400 måttenheter (förkortning + fullform)
72 stilregler
11 grammatikregler
Yttre resurser som använts
Ordlistor och morfologi
•
•
•
•
•
•
•
•
•
Patenttermer
Saldo (Språkbanken)
Scania-dokument
Dokument från olika myndigheter
Jordbruksverket, Försäkringskassan, Socialstyrelsen, Skatteverket,
Regeringskansliet
Eurovoc (EU:s flerspråkiga tesaurus)
SAOL: Vilka sammansättningar som finns i SAOL är till viss del godtyckliga - allt är
inte allmänord i SAOL: mynta och myntaart, timjan och timjan(s)blad finns i SAOL men inte myntablad och inte timjan(s)art).
Alla ord har fått semi-manuellt angivna attribut:
Ordklass, mönsterord, sammansättningsfog, sammansättningsfunktion
(bara_förled, bara_efterled, före_bindestreck, efter_bindestreck…)
Yttre resurser som använts
Stil- och grammatikregler
• Regler baseras på:
• Svenska skrivregler (Språkrådet 2009)
• Skrivregler för svenska och engelska (TNC 2004)
• Myndigheternas skrivregler (Regeringskansliet 2009)
• Svarta listan (Statsrådsberedningen 2011)
• Sveriges statskalender 2011
• Svensk författningssamling
• Svenska datatermgruppen (rekommendationer)
2013-05-30
Page 15
Sture Hägglund, Sics East Swedish ICT
Maskinell översättning
 Statistiska metoder vs. regelbaserade (grammatikbaserade).
 Analys av morfologi, sammansättningar, ordböjningar, etc
 Komplexiteten varierar mellan olika språkpar
 Träning med parallella korpusar
 Ordfraser snarare än ord
 Sannolikheter för (flertydiga) ord och fraser i målspråket
 Översättningsminnen för effektivt underhåll av texter
 Stöd för översättare snarare än automation
2013-05-30
Page 16
Sture Hägglund, Sics East Swedish ICT
Maskinell översättning
Sara Stymne
2013-05-30
Page 17
Sture Hägglund, Sics East Swedish ICT
Maskinell översättning
Sara Stymne
2013-05-30
Page 18
Sture Hägglund, Sics East Swedish ICT
Maskinell översättning, språkpar:
Sara Stymne
2013-05-30
Page 19
Sture Hägglund, Sics East Swedish ICT
Texttransformationer för ökad läsbarhet
 Friendly Reader: Dynamisk användarstyrd
textsammanfattning
 WebbLättLäst: Klassificering av webbsidor utgående från
olika läsbarhetsindex
 ClustRead: Sammanfattning av information från
webbsidor med liknande innehåll.
”Av 800 nätartiklar om samma nyhet var 679 identiska, 13 innehöll åtminstone
något eget citat och endast 7 byggde huvudsakligen på egen journalistik.”
SvD understrecket 2013-01-22
Finansiering från Post&Telestyrelsen och Internetstiftelsen
2013-05-30
Page 20
Sture Hägglund, Sics East Swedish ICT
FriendlyReader:
Dynamisk sammanfattning
och transformation av text
för lätt läsning på webben.
Arne Jönsson
2013-05-30
Page 21
Sture Hägglund, Sics East Swedish ICT
Friendly Reader – sammanfatta text
http://www.ida.liu.se/projects/friendlyreader/webapp/
2013-05-30
Page 22
Sture Hägglund, Sics East
Swedish ICT
Friendy Reader
Webbversionen av
nyhetsartikeln är
automatiskt
nerkortad med
hjälp av
programmet!
2013-05-30
Page 23
Sture Hägglund, Sics East
Swedish ICT
Vektorrumsmodell
 Varje kolumn (eller rad) kan ses som en vektor i en
mångdimensionell rymd
 Likhet mellan dokument mäts som närhet i vektorrummet (cos)
 Sammanfattningar skapas genom att ta de meningar vars vektorer är
mest representativa för dokumentet
Dokumentvektorn
Meningt1
ord1
c11
Mening2
…….
.
Meningm
c12
ord2
…..
ordn
cnm
Studier av textförståelse
 Högskoleprovet
 60 personer, studenter
 Sammanfattningar och omskrivningsregler
 30% sammanfattning, full text, gissning
 Antal rätta svar, tid att läsa samt subjektiv skattning utifrån
frågeformulär
 Flest rätta svar med originaltexterna. Sammanfattningarna bättre
än att gissa
 Sammanfattningarna ansågs betydligt bättre än de omskrivna
texterna.
 Originaltexterna ansågs bättre än de bearbetade texterna
 Gick betydligt fortare att läsa de bearbetade texterna
Automatic Contact Center (ACC)
Kund
Agenter
 Frågeidentifiering
 Svarsdokumentation
 Automatisk
CC
Contact
Center
ASR
Taligenkänning
AFAQ
Automatisk
FAQ
 Kunskapsinhämtning
 Svarsgenerering
 Hyptesgenerering
 Samtalsstatistik
Dialogdestillering
Expert
Kunskapseditor
HG
Hypotesgenerator
ACC DB
2013-05-30
Page 26
Linköpings universitet
Kontextanalys, användning
 Databas med information om kund, agent, tid, etc
 Samtalsstatistik
 Vanliga frågor och svar
 Arkivering
 Hyptesgenerering
 Förslag på svar till rådgivare i realtid
 Stöd för kunskapseditering
 Automatisk FAQ
 Utbilda och hjälpa agenten
 Identifiera hot från kunden
2013-05-30
Page 27
Linköpings universitet
IT-stödd kundtjänst
 Stöd för kundens egen navigering på webbplats
 Stöd för flerspråkiga tjänster med talingenkänning
 Domänanpassad terminologi med analys av
myndighetens informationsresurser (Big Data analysis)
 Intelligent automatiserad rådgivare med sökning efter
relevanta svar (Google, Watson, . . . )
2013-05-30
Page 28
Sture Hägglund, Sics East Swedish ICT
Framtiden – en vision
 Myndigheter underlättar flerspråkig tillgänglighet med
terminologikontroll, domänanpassad översättning och
navigeringsstöd
 Myndighetsinformation (Big Data) görs tillgänglig för
appar och tjänster, typ personligt hälsokonto
 Anpassade e-tjänster minskar det digitala
utanförskapet för utlandsfödda, personer med
lässvårigheter och åldringar.
 Offentlig sektor krånglar sig ur tvångströjan med
offentlig upphandling och blir en innovativ beställare
av nya lösningar.
2013-05-30
Page 29
Sture Hägglund, Sics East Swedish ICT