Automatisk samandrag
Automatisk samandrag er det å lage ei forkorta versjon av ein tekst med hjelp av eit dataprogram. Eit godt samandrag skal innehalde det viktigaste meiningsinnhaldet frå den originale teksten.
Tilgang til gode samandrag kjem til å bli viktigare ettersom mengda av tilgjengeleg tekst aukar. Eit døme på automatiske samandrag er søkemotorar, slike som alltheweb.
Typar av samandrag
[endre | endre wikiteksten]Det er mogleg å lage samandrag på to måtar: Enten ved å kopiere ut setningar som blir sett på som meir viktige enn andre, utan å endre dei, eller ved å skrive om innhaldet til ein kortare, meir konsentrert tekst. Det å skrive om gjer det mogleg å få plass til meir informasjon på mindre plass, men det er også vanskelegare å lage slike program.
Samandrag kan bli laga for å lese dei som sjølvstendige tekstar, eller dei kan bli laga for å bli lese av søkemotorar. I det siste tilfellet er målet å kome fram til eit lite sett av nøkkelord.
Metodar
[endre | endre wikiteksten]For å finne ut kva eit dokument handlar om, har samandragsprogramma ulike metodar. Dei samanliknar frekvensen av ord i dokumentet med frekvensen av ord i normalspråket, og ord som er meir frekvent i dokumentet enn i normalspråket blir vurdert som sentrale for innhaldet i dokumentet. Setningar som inneheld desse orda dannar kjernen i samandraget. Den overordna strukturen i dokumentet er også viktig: Setningar i innleiings- og avslutningskapitlet, setningar i strekpunkt osb. blir gjeve større vekt.
Ei sentral utfordring er å halde styr på anaforar og antesedentane deira. Det gjev lita meining å dra ut ei setning som inneheld ord som dette i Dette viser at... når det i samandraget er umogleg å vite kva dette refererer til.
Evaluering
[endre | endre wikiteksten]Som i mykje språkteknologisk forsking er evaluering like omfattande som sjølve emnet, mykje forsking går med på å finne metodar for å evaluere kor gode automatiske samandrag er, og for å finne korleis vi automatisk og systematisk kan avgjere om det eine samandraget er betre enn det andre.
Litteratur
[endre | endre wikiteksten]- Endres-Niggemeyer, Brigitte (1998): Summarizing Information (ISBN 3-540-63735-4)
- Marcu, Daniel (2000): The Theory and Practice of Discource Parsing and Summarization (ISBN 0-262-13372-5)
- Mani, Inderjeet (2001): Automatic Summarization (ISBN 1-58811-060-5)
Bakgrunnsstoff
[endre | endre wikiteksten]- Text Summarization
- ACM Special Interest Group on Information Retrieval
- Pertinence Summarizer, ein demoversjon av eit kommersielt samandragssystem)
- Statistisk basert samandrag Arkivert 2007-10-26 ved Wayback Machine.