Todella mielenkiintoinen kurssi, jossa lähtetään liikkelle kielen
tilastollisista ominaisuuksista ja esitellään tiedonhakua, tekstin
analysointia, tilastollista konekääntämistä, kielen mallinnusta,
analysointia ja jäsentämistä tilastollisten ja oppivien menetelmien
kannalta. Harjoitustöinä tehdään aiheeseen liittyviä sovelluksia. Itse
tuli tehtyä sanaluokkamerkitsin englannin kielelle. Aiheita:
- Kielitieteen perusteita
- kiellisiä yksiköitä
- foneemi, morfeemi, sana, sananmuoto, lekseemi, käsite, lause,
kappale, dokumentti, korpus
- tiedon tasoja
- foneettinen, fonologinen, morfologinen, syntaktinen,
semanttinen, pragmaattinen, diskurssitieto, maailmantieto
- syntaktinen analyysi
- sanakategoriat, lauserakennekielioppi,
dependenssikielioppi
- jäsennyspuu
- Zipf'in laki
- Korpustyöskentely
- työkaluja, tekniikoita
- ohjelmointi- ja skriptikielet
- sanojen perusmuotoistus
- taggaus
- Kollokaatiot
- sanan frekvenssi ja sanaluokkasuodatus
- kollokaatioden tunnistusmetodeja
- keskiarvo ja varianssi
- hypoteesin testaus
- T-testi
- Pearsonin khii-toiseen-testi
- uskottavuuksien suhde
- suhteellisten frekvenssien suhde
- pisteittäinen yhteisinformaatio
- Tiedonhaku
- käänteisindeksi
- sulkusanalista
- perusmuotoistus
- evaluointimittoja
- tarkkuus, saanti, F-mitta
- interpoloimaton keskimääräinen tarkkuus
- interpoloitu keskimääräinen tarkkuus
- järjestys relevanssin mukaan, PRP
- vektoriavaruusmalli, VSM
- dimension pienennys
- LSI, ICA, SOM, satunnaisprojektio (RP)
- painotusmenetelmä
- tf.idf
- RIDF, K-mikstuurit
- latenttien muuttujien menetelmät
- Latent Semantic Indexing, LSI
- riippumattomien komponenttien analyysi, ICA
- N-grammimallit
- Markov-mallit
- mallien tilastollinen estimointi
- MLE
- tasoitus
- Laplacen laki
- Lidstonen laki
- Jeffreys-Perksin laki
- Good-Turing -estimaattori
- absoluuttinen, lineaarinen, Witten-Bell alennus
- estimaattorien yhdistäminen
- lineaarinen interpolointi
- yleinen lineaarinen interpolointi
- perääntyminen
- opetusjoukko, validointijoukko, testijoukko
- ristiinvalidointi
- Piilo Markov-mallit (HMM)
- havaintojonon tuottaminen
- havaintojonen todennäköisyyden laskeminen
- Forward-algoritmi
- Backward-algoritmi
- dynaaminen ohjelmointi
- todennäköisimmän tilajonon etsiminen
- Viterbi-algoritmi (DP alignment, DTW, one-pass decoding)
- HMM:n parametrien estimointi
- Sanaluokkien taggaus
- HMM-taggerit
- mallin opettamien
- todennäköisemmän tagijonon haku
- muunnoksiin perustuva taggaus
- tuntemattomien sanojen käsittely
- Probabilistinen jäsentäminen
- Chomskyn normaalimuoto
- Chomskyn kompleksisuushierarkia
- Probabilistic Context Free Grammar (PCFG)
- lauseen todennäköisyyden laskeminen
- todennäköisimmän jäsennyksen valinta lauseellae
- parametrien estimointi
- attribuuttikielioppi
- Leksikaalinen semanttinen tieto ja semanttinen samankaltaisuus
- leksikaalinen semantiikka
- Wordnet-tietokanta
- synonymiteetti
- temaattiset roolit
- verbien argumentinvalintapreferenssit
- konkreettinen ja abstraktinen käyttö
- preferenssien estimointi
- preferenssien voimakkuus
- valinta-assosiaation voimakkuus
- semanttinen samankaltaisuus
- samankaltaisuuteen perustuva yleistäminen
- menetelmiä
- k:n lähimmän naapurin luokitusmenetelmä (kNN)
- kontekstuaalinen vaihdettavuus kriteerinä
- Priming-efekti
- Vektorietäisyysmitat
- dokumentti-sana -matriisi
- sana-sana -matriisi
- kosinietäisyys
- Euklidinen etäisyys
- Todennäköisyysmitat
- KL-divergenssi
- informaatiosäde
- Manhattan-etäisyys
- Sananmerkitysten yksikäsitteistäminen
- käytettyjä opetusaineistoja
- oppimisperiaatteet
- ohjaamaton disambiguointi
- ohjattu disambiguointi
- piirrevalinta
- Bayesiläinen luokitin
- Naive Bayes -luokitin
- yhteisinformaatio
- sanakirjapohjainen disambiguointi
- semanttisten aiheluokkien käyttö
- 2-kielisen aineiston käyttö
- vahvistusoppiminen
- bootstrapping
- menetelmien toiminnan mittaaminen
- pseudosanat
- laskennalliset rajat
- Senseval-projekti