Naar inhoud springen

KWIC

Uit Wikipedia, de vrije encyclopedie

KWIC is de afkorting van Key Word In Context, een techniek die in 1958 door Hans Peter Luhn bij IBM ontwikkeld werd voor het automatisch genereren van indexen, in het bijzonder voor technisch-wetenschappelijke werken. Hierbij worden niet de titels alfabetisch gerangschikt, maar wel de "betekeniswoorden" (keywords) die erin voorkomen; en deze worden in hun context getoond, dat wil zeggen met een aantal omringende woorden. "Stopwoorden", zoals lidwoorden, voegwoorden of voorzetsels worden normaal niet beschouwd als "keyword", en niet meegenomen bij het opstellen van de index.

De techniek wordt ook veel gebruikt voor het tonen van concordanties van teksten; en (internet-)zoekmachines tonen hun resultaten doorgaans ook in KWIC-vorm; de opgegeven zoekterm is in dat geval het "keyword".

De volgende afbeelding toont een gedeelte van een KWIC-index voor een fictieve cataloog van computerboeken. De "keywords" zijn centraal opgelijnd; de "context" is in dit geval de rest van de titel van het werk. Het voordeel van deze techniek is hier duidelijk: iemand die boeken zoekt over b.v. Excel, vindt ze hier allemaal gegroepeerd; terwijl hij een alfabetische index volledig zou dienen te overlopen.

Een titel die meerdere "keywords" bevat, komt ook meermaals voor in de index, namelijk eenmaal voor elk keyword; zie bv. cataloognummers 900 of 904. Een gedrukte KWIC-index is daardoor verschillende malen groter dan een alfabetische index: als er gemiddeld vier keywords per titel zijn, is hij viermaal groter. Voor online zoeken is dit uiteraard geen bezwaar.

Een KWIC-index wordt ook wel een gepermuteerde index of geroteerde index (rotated index) genoemd.

  • KWAC (Key Word Alongside Context)
  • KWOC (Key Word Out of Context) zijn variaties van deze techniek, met een iets andere manier van voorstellen.