Förhandsgranskning av kurs läsåret 2011/12

Förhandsgranskning av kurs läsåret 2011/12
Kursplaner
Språkteknologi
EDAN20
Language Technology
Högskolepoäng: 7,5 Betygsskala: TH Nivå (institutionens förslag): A (Avancerad nivå)
Undervisningsspråk: Kursen kan komma att ges på engelska
Kursansvarig/a: Professor Pierre Nugues
E-post: [email protected]
Förkunskapskrav: EDAA01 Programmeringsteknik - fördjupningskurs eller EDA027 Algoritmer och datastrukturer.
Prestationsbedömning: För betyg 3 krävs godkända inlämningsuppgifter (laborationer). För möjlighet till högre betyg krävs
även skriftlig tentamen. Inlämningsuppgifterna (laborationerna) skall uföras i grupper om två eller tre studenter, men kan även
göras individuellt. Den första laborationen ägnas åt de programmeringsverktyg som används i kursen. De fem övriga uppgifterna
behandlas under de följande laborationstillfällena.
Förstagångstentamen i ordinarie tentamensperiod: Ja. Omtentamen i omtentamensperiod: Nej.
Hemsida: http://cs.lth.se/
Syfte
Under de senaste 15 åren har de språkteknologiska metoderna mognat avsevärt på grund av att mängden tillgänglig skriven och
talad information har ökat kraftigt, vilket har lett till ökande behov av att behandla den automatiskt. Fastän de flesta datorsystem
inte enbart ägnar sig åt språkbehandling så finns det numera många applikationer som i någon mån är "språkmedvetna" och har
inbyggda språkteknologiska funktioner såsom stavnings- och grammatikkontroll, sökning och sammanfattning av information
eller ett talbaserat dialoggränssnitt. Detta gör att fältet är av ökande betydelse för CS-ingenjörer.
Kursen ger en inledning till språkteknologins metoder. Den försöker täcka hela fältet från teckenkodning och statistiska
språkmodeller till syntaktisk analys, semantik och dialogsystem. Kursen inriktar sig på välbeprövade tillämpningar i industriell
skala eller på försöksnivå.
Kunskap och förståelse
För godkänd kurs skall studenten:
Förstå fältet av språkteknologiska metoder och viktiga applikationer som använder dem
Känna till de viktigaste teknikerna, grundläggande algoritmer och allmänna arkitekturer som används i applikationer
Skapa och konstruera språkbehandlingsalgoritmer. Skriva, tolka, utvärdera och förbättra dem under laborationerna.
Färdighet och förmåga
För godkänd kurs skall studenten:
Förstå och utveckla annoteringsscheman, skapa och bearbeta strukturerade dokument genom att använda XML
Förstå och skriva reguljära uttryck och använda dem i programmeringsspråk som Perl eller Java
Använda logik och logikprogrammeringsspråk som Prolog- eller beskrivningslogik
Förstå och använda maskininlärningsalgoritmer och statistiska tekniker
Utveckla och utvärdera algoritmer i de viktiga fälten av språkteknologier, språkmodellering, partiell parsning,
dependensparsning, genom att använda verkliga data
Värderingsförmåga och förhållningssätt
För godkänd kurs skall studenten:
Visa nyfikenhet, kreativitet och förmåga till problemlösning
Visa förståelse för industriella och forskningsrelaterade frågor i språkteknologiområdet
Innehåll
En översikt över språkteknologi: delområden, tillämpningar och exempel.
Korpuslingvistik: Reguljära uttryck, ändliga automater, introduktion till Perl, konkordanser, tokenisering, frekvenslistor,
kollokationer.
Morfologi och ordklasstaggning: Morfologi, transduktorer, ordklasstaggning.
Frasstrukturgrammatiker i Prolog: Konstituenter, syntaxträd, DCG-regler, unifiering.
Partiell parsning: Detektering av multiord, detektering av substantivgrupp och verbgrupp, informationsextrahering,
utvärdering.
Syntaktiska formalismer: Konstituens och dependens, funktioner. Parsning, statisktisk parsning, dependensparsning.
Semantik: Formell semantik, lambda-kalkyl, lexikal semantik, predikat-argument-struktur, ramsemantik, semantisk
parsning.
Diskurs och dialog: Referens och koreferens, diskurs och retorik, diskursrelationer, analys av diskursrelationer, dialog,
talhandling, multimodalitet.
Litteratur
Nugues Pierre, An Introduction to Language Processing with Perl and Prolog. An Outline of Theories, Implementation, and
Application with Special Consideration of English, French, and German. Series: Cognitive Technologies, Springer Verlag, 2006,
ISBN: 3-540-25031-X.
Överlappande kurser:
Kurs
Högskolepoäng
EDA171
7.5
Engelsk kursplan
EDAN20 Language Technology
Credits: 7,5 Grading scale: TH Cycle: A
Language of instruction: The course might be given in English
Course coordinator/s: Pierre Nugues
E-mail: [email protected]
Prerequisites: EDAA01 Programming - Second Course or EDA027 Algorithms and Data Structures.
Assessment: Compulsory course items: Assignments and possibly an examination. The coursework assignments are carried out in
teams of two or three students, but can also be carried out individually. The first laboratory session will be dedicated to a handson approach to the programming tools used in the course. The assignements will then consist of five programming problems.
Passing the course with a mark of 3 will consist in passing all the assignments. Optionally, the students will be able to set an
examination and improve their mark to 4 or 5.
Home page: http://cs.lth.se/
Aim
In the past 15 years, language technology has considerably matured driven by the massive increase of textual and spoken data and
the need to process them automatically. Although there are few systems entirely dedicated to language processing, there are now
scores of applications that are to some extent "language-enabled" and embed language processing techniques such as spelling and
grammar checkers, information retrieval and extraction, or spoken dialogue systems. This makes the field form a new requirement
for the CS engineers.
The course introduces theories used in language technology. It attempts to cover the whole field from character encoding and
statistical language models to semantics and conversational agents, going through syntax and parsing. It focuses on proven
techniques as well as significant industrial or laboratory applications.
Knowledge and understanding
For a passing grade the student must:
Understand the field of language technology and major applications using them
Know the most important techniques, fundamental algorithms, and most common architectures used in applications
Create and implement language processing algorithms. Write, interpret, evaluate, and improve them during the
programming laboratories.
Skills and abilities
For a passing grade the student must:
Understand and develop annotation schemes, create and process structured documents using XML
Understand and write regular expressions and use them in languages like Perl or Java
Use logic and a logic programming language like Prolog
Understand and use machine learning algorithms and statistical techniques
Develop and evaluate algorithms in major fields of language technology: language models, partial parsing, and
dependency parsing, using real data.
Judgement and approach
For a passing grade the student must:
Show curiosity, creativity, and problem solving aptitudes
Show an understanding of industrial and research issues in language technology
Contents
An overview of language technology: disciplines, applications, and examples
Corpus and word processing: regular expressions, automata, an introduction to Perl, concordances, tokenization, counting
words, collocations
Morphology and part-of-speech tagging: word morphology, transducers, part-of-speech tagging,
Phrase-structure grammars: constituents, trees, DCG rules, unification.
Partial parsing: multiword detection, noun group and verb group extraction, information extraction, evaluation
Syntax: formalisms, constituency and dependency, functions, parsing, statistical parsing, dependency parsing.
Semantics: formal semantics, lambda-calculus, lexical semantics, predicate--argument structures, frame semantics,
semantic parsing.
Discourse and dialogue: reference and coreference, discourse and rhetoric, discourse relations, parsing discourse relations,
dialogue automata, speech acts, multimodality.
Literature
Nugues Pierre, An Introduction to Language Processing with Perl and Prolog. An Outline of Theories, Implementation, and
Application with Special Consideration of English, French, and German. Series: Cognitive Technologies, Springer Verlag, 2006,
ISBN: 3-540-25031-X.
Kursen har enda poängsatta provet (LADOK kräver att alla kurser har prov):
Kod
Namn
Namn (eng)
0110 Språkteknologi Language Technology
Högskolepoäng Betygsskala
7,5 TH
Läroplaner
Program
C:Infocom
Specialisering
Ges som Ingår i ÅK
ALLM:Allmän inriktning C Valfri
4
D:Datateknik ALLM:Allmän inriktning D Valfri
4
D:Datateknik pv :Programvara
4
Valfri
Timplaner
C
HT 2011 lp 1
F
20
D
O
-
L
12
H
-
HT 2011 lp 2
S
F
160 -
O
-
HT 2011 lp 1
F
20
O
-
L
12
H
-
L
-
VT 2012 lp 1
H
-
S
-
F
-
O
-
HT 2011 lp 2
S
F
160 -
O
-
L
-
-
S
-
F
-
O
-
-
Institutionens förslag (Inst f datavetenskap (LTH),7121):
Kursen är aktiv dvs föreslås ges läsåret 2011/12.
Inlämnad för beslut av utbildningsnämnd: Nej.
Lämpar sig för utbytesstudenter: Ja.
Utbildningsnämnd som beslutar om kursplan: UN1
Nämndens beslut: Ställningstagande saknas.
Beslutad kursnivå: A
Program Status Beslut
C
Aktiv Obeslutad
D
Aktiv Obeslutad
L
Annat
Utbildningsnämndernas beslut:
H
S
-
F
-
O
-
VT 2012 lp 1
H
-
L
VT 2012 lp 2
-
H
-
S
-
VT 2012 lp 2
H
-
L
S
-
F
-
O
-
L
-
H
-
S
-