Språkteknologi
Frå Wikipedia – det frie oppslagsverket
Språkteknologi er teknologi som rettar seg mot eller tar i bruk menneskeleg språk. Nemninga datalingvistikk er brukt om sentrale teoriar og metodar innafor språkteknologi, som er til hjelp når ein skal kjenne att, analysere og generere språk. Språkteknologi er tverrvitskapleg, og det høyrer heime m.a. under informatikk, dokumentasjonsvitskap og lingvistikk.
Innhaldsliste |
[endre] Bruksområde for språkteknologien
Språkteknologien tar i bruk datalingvistiske metodar og utviklar dei til ulike bruksområde, m.a.
- bruk av naturleg språk i datamaskinene sitt brukargrensesnitt,
- til å handsame informasjonen i dokumentar og anna tekst, informasjonssøk, dokumentsøk, automatisk indeksering av tekst, genereringa av automatisk samandrag og dokumentklassifisering,
- ulike skriveverkty, slik som retteprogram, grammatikkontrollprogram, automatisk stavingsinndeling og tesaurusar,
- ulike omsetjingshjelpeprogram som bruker språkteknologi, og maskinomsetjingsprogram, og ulike terminologiverkty,
- talesyntese og automatisk taleattkjenning,
- datastøtta språklæring (CALL) og
- utarbeiding av ordbøker og opplæringsmateriell, og program for å vurdere og betre lesbarheita til tekstar.
[endre] Metodar og delområde innafor språkteknologien
- Preprosessering av tekst: Konvertering av teiknsett og filformat, segmentering av tekst i einskildord.
- Automatisk morfologisk analyse (morfologisk oppdeling), dvs. attkjenning av leksem og grammatisk ord, medrekna analyse av ukjende ord.
- Morfologisk generering (automatisk bøying).
- Automatisk syntaktisk analyse (syntaktisk oppdeling).
- Generering av naturleg språk (når datamaskina reknar ut svar på spørsmål, skal desse svara gjerast om til naturleg språk).
- Dialog-simulering (kva datamaskina bør seie i ein kvar situasjon).
- Attkjenning av språkfeil og framlegg til retting.
- Attkjenning av ulike tydingar av det same ordet i løpande tekst, t.d. når rekning tyder "matematisk oppgåve", når det tyder "pengesum som skal betalast", osb.)
- Antesedentar til anaforar (eller kva pronomen eller andre referensielle uttryk viser til innafor same tekst)
- Oppsporing av termar i ein tekst (t.d. for å automatisk generere saksregister til ein tekst).
- I taleattkjenning å skilje tale frå pause, å skilje tale frå andre lydar (FFT, Cepstr, osb), attkjenning av dei mest sannsynlege orda i ein viss kontekst med hjelp av statistiske metodar (som t.d. HMM).
- I talesysntese lydmodellar (t.d. difonar) og kombinering av dei, og bruk av prosodisk modellering av difonstrengane.
[endre] Eksterne lenkjer
- NORDOKNET dokumentasjonssenter for nordisk språkteknologi, som bitt saman eit nett av tilsvarande dokumentasjonssentra i dei ulike nordiske landa.
- FILT det finske dokumentasjonssenteret.
- Language Technology World, nettstad med informasjon om språkteknologi rundt om i verda, med lister over språkteknologar, prosjekt, program, firma og organisasjonar som arbeider med språkteknologi.
- ACL The Association for Computational Linguistics, den viktigaste internasjonale organisasjonen innafor dette området.
- KIT - Suomen yliopistojen kieliteknologin opetuksen verkosto
[endre] Litteratur
- James Allen: Natural Language Understanding. Redwood City, CA: The Benjamin/Cummings Publishing Company, Inc., 1995.
- Daniel Jurafsky, James H. Martin: Speech and Language Processing - An Introduction to Natural Language Processing, Computational Linguistics and Speech Recognition. Upper Saddle River, New Jersey: Prentice Hall, 2000.
- Kai-Uwe Carstensen et al. (Hrsg.): Computerlinguistik und Sprachtechnologie. Berlin: Spektrum Akademischer Verlag, 2001.
- Christopher D. Manning, Hinrich Schütze: Foundations of Statistical Natural Language Processing. Cambridge/MA: MIT Press, 1999.