INF2820 Datalingvistikk – V2015

INF2820 Datalingvistikk – V2015
Jan Tore Lønning
INF2820 Datalingvistikk
21. januar 2015
2
I dag:
1. Time:
•
•
Datalingvistikk:
motivasjon og eksempler
Praktisk informasjon
2. Time:
•
Endelige tilstandsteknikker
• OBS:
• Lov å stille spørsmål underveis
The game of the name
1. Datalingvistikk
1. Computational
linguistics
3. Språkteknologi
3. (Human) Language
Technology
2. Natural language
processing
2.Språkprosessering
/ prosessering av
naturlige språk
• Computer science
•
Artificial intelligence (AI)
• NLP
• Navnene har litt forskjellig opphav og tradisjon, eks.
• I dag brukes navnene til dels om hverandre
21. januar 2015
4
The name of the game
• Datalingvistikk
• Prosessering av naturlige språk
• Språkteknologi
• Språk:
• Norsk, arabisk,
japansk, …
• Naturlige:
• Oppstått
• Ikke oppfunnet
21. januar 2015
• Data
• Prosessering
• Teknologi
5
Hvorfor datalingvistikk?
•
Visjonen om kunstig intelligens
•
Modeller av mennesker
•
•
•
Forstå
Erstatte
Nyttig, anvendelser:
•
Supplere mennesker
Skjønner datamaskinen hva jeg sier?
• Visjon:
• Intelligente
maskiner
• Maskiner som
forstår
• Roboter
• En slik maskin
må:
• Kunne snakke
• og lytte
• Ingen intelligens
uten språk
Turingtesten
• Kommunikasjon i naturlig språk
2011-sensasjon: Watson på Jeopardy
Se: https://www.youtube.com/watch?v=yJptrlCVDHI
Watson
• Litt om oppbygning:
https://www.youtube.com/watch?v=_Xcmh1LQB9I
• Mulige anvendelser: Aftenposten 19.1.2015
http://www.aftenposten.no/fakta/innsikt/Den-nyeekspertlegen-er-en-maskin-7859090.html
21. januar 2015
10
Nytte, eks.: oversettelse
• Drømmen fra 17 år
siden
• Ikke i 2003, men hvor er vi i dag?
• Tekstoversettelse
• Oversettelse av tale
Menneske-maskininteraksjon
• Visjon:
• Kommunisere med
datamaskinen som til et
menneske:
• Eks.: ”2001 en
romodyssé”
• 2011: Siri
• Basert på langsiktig
grunnforskning: SRI
Språkteknologi 2015
• Fra visjon til virkelighet
• Integrert i en rekke
applikasjoner
• Drevet av:
• Internett
• Mobilteknologi
Anvendelser:
• Stave- og grammatikkontroll
• Talegjenkjenning, diktering
• Syntetisk tale, eks. GPS
• Maskinoversettelse
• Dialogsystemer
•
•
•
•
Søk i tekst (innholdsrelaterte)
Analyse av store tekstmengder
Analyse av internett
Overvåkning
Modell
Talegjenkjenning
Syntaktisk og
semantisk
analyse
Talesyntese
Generering
• Typisk tre trinn
• Analyse (syntaktisk, semantisk, …)
• Utføring av oppgave (finn svar, transfer,
…)
• Generer svar
• Rundt dette et større system:
dialoghåndtering mm.
Fra NLTK
21. januar 2015Flertydighet https://www.youtube.com/watch?v=_429UIzN1JM&feature=channel
16
Hva skal vi gjøre i INF2820?
Fokusere på grunnleggende teknikker:
• Språk: naturlige og formelle språk
• Endelige tilstandsteknikker for nat.spr.
• Kontekstfrie grammatikker
• Parsing av kontekstfrie grammatikker for
naturlige språk
• Unifikasjonsgrammatikker
• Semantikk
Verktøy
Endelige tilstandsteknikker
• De første ukene
NLTK: The Natural Language Toolkit
• Programmer for ulike typer NLPoppgaver
• Kan kombinere med egen kode
• Vekt på opplæring:
• Men også brukt for større oppgaver
• Bok, dokumentasjon
21. januar 2015
18
Python
• Gode strukturer for tekst:
• Strenger
• Lister
• Read-eval-print-loop
• Lesbar, strukturert kode:
• Kompakt, nesten ”pseudokode”
• Gir gode programmeringsvaner
• Lett å lære
• Objektorientert
• Mye brukt: tilgjengelig, bibliotek, grensesnitt
• Nyttig senere i livet: scripting
21. januar 2015
19
Læremidler
• Deler av Bøker:
• Jurafsky og Martin,
• Speech and Language Processing
• S. Bird, E. Klein and E. Loper:
• Natural Language Processing with
Python
• (Finnes på nett)
• Kode
• Presentasjoner som blir lagt ut
på nett
OBS: Samme bok!
• Supplerende
• Erstatter ikke bøker
• Noen artikler/web-sider/utdelt
materiale
21. januar 2015
20
Forelesninger
• Jan Tore Lønning, [email protected],
• Forelesninger:
• Mandag 14.15-16
• Sted: Caml
• 15-16 uker
21. januar 2015
21
Gruppeundervisning
• Bo Bjerke-Lindstrøm
• Onsdag10.15-14
• Sted: Fortress 3468
• (Noen ganger flyttet til
sem.rom.)
• Første gang 28. jan.
The place to be:
• Rom 3467 Fortran
Programstue:
- Informatikk: språk og kommunikasjon
- (IT: språk, logikk, psykologi)
21. januar 2015
22
Arbeidsformer og arbeidsmengde
• Forelesninger 2 t/uke
• Gruppe 2 t/uke
IPensumlesning
I
13
• +9 t/u samlet i gj.snitt
• Obligatoriske oppgaver:
• 4 sett, alle må bestås
• Men:
Teorioppgaver
Terminalarbeid
21. januar 2015
• også ikkeobligatoriske
oppgaver er eksamensstoff
• Undervisningen er
eksamensrelevant selv om
den ikke er obligatorisk
23