Thesaurusa hiztegi mota gisa hartuko dugu, zehazki, kontzeptuen arabera hierarkikoki eta zuhaitz-egitura batean antolatzen da (hiztegi ideologikoetan egiten den antzera, adibidez, Julio Caseresen hiztegia[1] gaztelaniarako edota Umandirena[2] euskararako). Horrela, jasotzen da esate baterako, Sareko Euskal Gramatikan[3]:

« Beste hiztegi mota bat thesaurusak dira, sarrerak eduki semantikoaren arabera antolatuta dauzkatenak, aurretik emandako sailkapen bati jarraituz. Lengoaia naturalaren prozesamenduan Roget’s Thesaurus (Kirkpatrick, 1987) dezente erabili izan da. »


Kontzeptu bidezko antolaketa batez, kontzeptu bakoitzari dagozkion terminoak, kontzeptuen arteko loturak (kontzeptu bat bestea baino zabalagoa edo hertsiagoa den, adibidez) azaltzen ditu. Bereziki, dokumentuen eta bilaketen indexaketan erabiltzen dira. Hiztegietan ez bezala, definizio zehatz baten ordez, thesaurusetan kontzeptu bakoitzaren erabilera orokorra azaltzen da bakarrik. Beste era batera esanda, thesaurusa hitz baten sinonimoak, antonimoak eta bestelako erlazio semantikoak azaltzen dituen hiztegia da.

Hierarkia hiperonimoen eta hiponimoen arteko erlazioen bidez antolatu ohi da. Hiperonimoak semantikoki haren mende dauden hitz guztiak biltzen ditu, eta haien erabilerari buruzko zehaztapenak. Halaber, hitzen arteko beste erlazio batzuen arabera ere antola daitezke thesaurusak, hala nola sinonimia, antonimia, meronimia edo holonimia. Horrela, gai bateko hiztegi guztia modu ordenatuan biltzen dute.

Hizkuntzaren prozesamendua eta thesaurusak

aldatu

Hizkuntza naturalaren prozesamenduan (HNP) eta informazioaren berreskurapenean (IB), askotan, hainbat ezagutza mota erabiltzen dira, hitzen arteko erlazioei, haien zentzumenei, berariazko ezagutzei eta zentzu komuneko ezagutzei buruzko ezagutza lexikoa barne. Ezagutza hori HNPko sistemen barruan irudikatzeko ohiko modua tesauroak dira. HNP eta IB domeinuetan, tesauro bat unitate lexiko edo terminologikoen arteko erlazioak modu formalizatuan (lotura moduan) deskribatzen dituen hizkuntza edo baliabide terminologikoa da, eta, horri esker, deskribapen horiek erabil daitezke testu informatikoen prozesamenduan.

Informazio-sistema informatikoetan erabiltzen diren thesauroen bi paradigma oso ezagun daude. Lehenengo paradigma informazioa berreskuratzeko tesauroa da, informazioa berreskuratzeko sistemetan dokumentuen bilaketa hobetzeko izendatua. Thesaurus horiek garrantzi handiagoa izan zuten informazioaren berreskurapenean XX. mendeko 1960tik 1980ra bitartean. Gaur egun, bilaketa-motor globalek ez dituzte eskuz sortutako thesaurusak erabiltzen.

Thesauroaren baliabideen beste paradigma bat ingeleserako sortutako Princeton WordNet-en aplikatzen da (Fellbaum 1998[4]; Miller 1998[5]). Sortu zenetik, WordNet-ek arreta handia erakarri die ikertzaileei eta hizkuntza naturalaren prozesamenduan eta informazioa berreskuratzean adituak diren beste batzuei. WordNet-en antzeko tesauroak (Wordnets) hizkuntza askotarako egin dira munduan (Vossen 1998[6]; Bond and Foster 2013[7]; Maziarz et al. 2016[8]). Berariazko domeinuetarako sortutako informazioa berreskuratzeko thesauroak ez bezala, testu-sareek hizkuntza jakin baten sistema lexikoa irudikatzen dute sinonimoen multzo gisa eta haien arteko erlazio gisa.

Wordenak thesaurus gisa erabiltzeari buruz, hau diote Euskararako ezagutza-base lexiko-semantikoaren eredu-hautaketa eta garapena: EuskalWordNetn[9][10]:

« WordNet-en erabilerak era askotakoak izan dira. Alde batetik, hiztegi eta thesaurus gisa erabili izan da. Hiztegi tradizionaletan bezala, WordNet-ek synset bakoitzeko defini-zio bat du, gehienetan adibide eta guzti. Gainera, synset bakoitzean ale lexikal bat baino gehiago egon daitezkeenez, thesaurus gisa balia daiteke, adiera berdina adierazteko sinonimo desberdinak ditugulako. Honenbestez, LNPri begira, WordNet-ek erabilera ugari izan ditu »


Thesaurus ospetsuenak

aldatu
  • Unesco: UNESCOren Thesaurusak hezkuntzaren, kulturaren, natur zientzien, gizarte- eta giza zientzien, komunikazioaren eta informazioaren arloetako terminologia jasotzen du.[11] Etengabe handituta eta eguneratuta, bere diziplina anitzeko terminologiak UNESCOren programen eta jardueren bilakaera islatzen du.
  • EuroVoc: EuroVoc Thesaurus eleaniztuna eta diziplina anitzekoa da, eta Europar Batasuneko erakundeek sortzen duten dokumentu-informazioaren tratamendua du eginkizun nagusi.[12] Europar Batasuneko 21 hizkuntza ofizialetan dago, haien artean, euskara, Bizkaiko Foru Aldundiko webgunean agertzen dena. 21 gai-eremutan dago banatuta eta 127 mikrothesaurusek osatzen dute. 6645 deskribatzaile ditu, eta hizkuntza bateko deskribatzaile bakoitza nahitaez bat dator beste hizkuntza bakoitzeko deskribatzaile batekin. Tartean 519 top term azaltzen dira eta elkarrekiko 6669 erlazio hierarkiko eta 3636 erlazio asoziatibo daude.
  • ELGA  macrothesaurus: Macrothesaurusak garapen ekonomiko eta sozialaren esparruan liburuak eta dokumentuak indexatzeko diseinatutako deskribatzaileak (gako-hitzak) biltzen ditu. Bilaketa-laguntza gisa ere erabil daiteke dokumentazio-zentroetarako, liburutegietarako, datu-baseetarako eta lineako sareetarako.
  • Unbis: Nazio Batuen informazio bibliografikoko sistema da. Nazio Batuen programa eta jarduerei dagozkien dokumentuen eta bestelako materialen gaikako azterketan erabilitako terminologia du.

Indize Deskriptoreak

aldatu

Thesaurusetan indizeek deskriptoreak edo deskribatzaile dute izena. 1953. urtean, Mortimer Taube-k, indexazioa egiteko sailkapen entziklopedikoen mugak gainditu nahian, sistema berri bat sortu zuen. Deskribatzailea sinonimo-multzo baten edo kuasi- sinonimoen artean hautatutako termino edo esamolde bakoitza da, oro har (termino lehenetsi gisa) modu unibokoan adierazteko. Deskriptoreak dokumentuen kontzeptu inportanteenak azaltzeko erabiltzen dira, kontzeptu bakoitza adierazteko hitz batez edota hitz-multzoaz baliatuz. Gainera, hitz horiek ez dute, nahitaez, dokumentuan bertan agertu behar. Lengoaia postkoordinatua izan arren, prekoordinazioa ere onartzen dute kontzeptuetan, zalantzak eta zarata dokumentala murriztearren.

Hitz batek edo gehiagok osatzen dute deskriptorea, baina, entropiaren printzipioari jarraituz (ahal den hitz gutxien edo bat bakarra bada, hobe), deskriptore konposatuak beharrezkoak direnean baino ez dira onartzen. Kasu hauetan deskriptore konposatuak erabil daitezke: Hitzak berak bakarrik esanahi garbia ez duenean, hitzak kontzeptu orokorregia adierazten duenean, eta beste batzuekin, ordea, esanahia zehaztu egiten denean, eta hirugarrenik, hitzaren esanahia aldatzen denean beste indize batzuekin konbinatzerakoan.

Deskriptoreak deklinatu gabeko izenak izaten dira. Oro har, singularrean joango dira, baina plurala ere onartzen da erabilgarriagoa denean. Sistema batzuetan singularra kontzeptu abstraktuekin erabiltzen da eta plurala zehatzekin.

Kontzeptu bat adierazteko forma bat baino gehiago dagoenean, forma ezagunena aukeratzen da deskriptorea izendatzeko. Akronimoak izen osoa baino askoz ezagunagoak direnean soilik onartzen dira. Azkar desagertzen diren izendapenak kontrolatu, eta batzuetan baztertu egingo dira (adibidez, Hamarreko Europa, pneumonia ezohikoa, Bi gehi Lau Konferentzia, Europa Urdina, Berdeak, Banderen Gerra....). Kazetariak bere lana berehala irakur dadin idazten du; dokumentalistaren lanak, ordea, ahalik eta denbora gehien irautea komeni da.

Deskriptoreen Arteko Harremanak

aldatu

Baliokidetasuna

aldatu

Termino baliokideek onartutako deskriptore batera bidaltzen dute. Bi motatakoak izaten dira: sinonimo linguistikoak eta sinonimo dokumentalak. Sinonimo linguistikoek deskriptorearen esanahi bera dute; hala, kontzeptu bat adierazteko diren termino desberdinak deskriptore bakar baten bidez adieraziko dira.

USE: "Ez deskribatzailea" (ez onartua) terminotik "deskribatzailea" (onartua) terminora birbidaltzea.  / UF used for: Deskriptore terminoa deskriptore ezarekin konektatzen du.

Adibidea
Terminoak Deskriptorea
kale / karrika / ibilbide kale
elkarte / sozietate / elkargo elkarte

Thesaurusetan sinonimiaren zentzua zabaldu egiten da, sinonimia dokumentalaren bidez deskriptore bakar baten barruan termino hurbilak biltzen baitira, nahiz eta esanahia desberdina izan. Hori, thesaurus jakin batean, termino zehatzegiak edota erabilgaitzak direnean egiten da, eta kontzeptu baten aldaera edota antonimoekin ere bai.

Adibidea
Terminoak Deskriptorea
fusil / pistola arma arin
komunikabide / hedabide komunikabide
enplegu / langabezia langabezia

Sinonimoak arazo bihurtzen dira kontrolatuak ez direnean; sinonimo kontrolatuak, ordea, onuragarriak dira, bilaketa errazten dutelako; izan ere, asko erabiltzen diren terminoak jasotzen dira. Baliokidetasun-harremana ikus eta ordezkatua oharrekin adierazten da. Harreman horrek zentzu bikoitza du, eta bidaltze marka hauekin adierazten da: ikus markak, onartzen ez den termino batetik deskriptorera bidaltzen du; eta ordezkatua-k, deskriptoreak ordezkatzen dituen terminoak adierazten ditu.

Harreman Hierarkikoa:

aldatu

Harreman hauetan deskriptore orokorragoek deskriptore zehatzagoak biltzen dituzte. Jakintza-arloak, osotasuna/zatiak, antolaketa geografiko edota administratiboak eta beste izan daitezke. Harreman honek ere zentzu bikoitza du, eta termino zehatza edo orokorra oharren bidez adierazten da.

(NT narrow term / BT broader term)

TZ termino zehatza

Adibidea: arma
TZ: arma arin
arma astun
arma biologiko
arma kimiko
arma nuklear
arma zuri

Thesaurus gehienek, interesatzen zaien diziplina arlotan sailkatu ondoren, gaika banatzen dituzte deskriptoreak. Banaketa nahiko subjektiboa izaten da; horrenbestez, gerta daiteke diziplina bereko bi thesaurusen banaketa desberdina izatea. Beste thesaurus batzuek, ordea, funtzioak erabiltzen dituzte: nahiz eta abstraktuagoa izan, terminoak zuhurtasun handiagoz sailkatzen dira. Funtzioak prozesuak, ekipoak, giza faktoreak, osagai materialak, eta abar izan daitezke.

Adibidea: gerra *ekintzak
TZ: bataila
borroka
eraso
errendizio
gerra-deklarazio
inbasio
setio
su-eten
Adibidea: gerra *pertsonak
TZ: errefuxiatu
gatibu
gerra-preso
zibil

Hurbiltasuna Harremanak: 

aldatu

Harreman zabalenak dira, loturak semantikoak, hierarkikoak edota baliokidetasunekoak ez direnean adierazteko erabiliak. Deskriptore batzuetatik beste batzuetarako pasabidea errazten dute, baita familia semantiko desberdinen artekoa ere, eta bilaketa zabaltzeko erabiltzen dira. Batzuetan, polihierarkia saihesteko erabiltzen dira.

(RT related term)  

TH Termino hurbila

Adibidea: tradizioak
TH: balio sozial
errito
kondaira
ohitura
portaera-eredu
Adibidea: trafikoa
TH: garraiobide
gidaritza
trafikoaren erregulazio

Erabilera-oharrak:

aldatu

Deskriptorea erabilera-ohar batekin batera joan daiteke, edo, gutxiagotan, definizio batekin, terminoak interpretazioan anbiguotasun-arazoak sor ditzakeen kasuetan. Deskriptorea da indexatzeko erabiltzen den terminoa (horregatik deitzen zaio indexazio-terminoari), eta haren gaiari buruzko dokumentuak berreskuratzeko erabiltzen dena.

SN scope note

Katalogazio adibideak komunikabideetan

aldatu

Gaur egun, komunikabideetako dokumentazio-zerbitzuek dokumentuen indexazio zehatza egiteko, deskriptoreen zerrendak eta thesaurusak erabiltzen dituzte batik bat. Dokumentu informatiboak indexatzeko, Lasswell-en paradigmari jarraitzen zaio —notizia osatzeko erabiltzen diren 5W-ak—: who, what, where, when, why-how-what for, hau da: nor, zer, non, noiz, zergatik-nola-zertarako. Indexazioa egiterakoan izan behar dugun jokabidea galdera honetan labur daiteke: «kontzeptu hau (indizearena) bilatzerakoan dokumentu honek aseko luke nire informazio-beharra?». Erantzuna baiezkoa bada, kontzeptua aukeratu egingo dugu. Ezezkoa bada, berriz, horrek adierazten du kontzeptua ez dagoela zeharo garatua dokumentuan.

Albisteen katalogazioa Berrian

aldatu

Artikulu baten fitxaren hainbat eremu automatikoki betetzen dira, artikuluan bertan idatzitakoa baliatuz, hala nola, titularra, sinadura, orrialdea eta abar. Beste eremu batzuk dokumentalistek osatzen dituzte: testu motak, gaiak, izenak, lekuak... Gai, izen eta lekuak, tesauro edo hiztegi kontrolatuen arabera erabiltzen dira.

Erreferentziak

aldatu
  1. (Gaztelaniaz) «Diccionario Ideológico» Web oficial sobre Julio Casares (Noiz kontsultatua: 2023-11-17).
  2. «euskerazaleak» euskerazaleak.biz (Noiz kontsultatua: 2023-11-17).
  3. (Noiz kontsultatua: 2023-11-16).
  4. Fellbaum, Christiane, ed. (1998). WordNet.  doi:10.7551/mitpress/7287.001.0001. (Noiz kontsultatua: 2023-12-22).
  5. Dunkerton, J.; James, S. P.. (1975-09). «Purification of 2-oxoaldehyde dehydrogenase and its dependence on unusual amines» The Biochemical Journal 149 (3): 609–617.  doi:10.1042/bj1490609. ISSN 0264-6021. PMID 998. PMC 1165667. (Noiz kontsultatua: 2023-12-22).
  6. Vossen, Piek. (1998). «Introduction to EuroWordNet» EuroWordNet: A multilingual database with lexical semantic networks (Springer Netherlands): 1–17. ISBN 978-90-481-5120-2. (Noiz kontsultatua: 2023-12-22).
  7. Morgado da Costa, Luís; Bond, Francis. (2015). «OMWEdit - The Integrated Open Multilingual Wordnet Editing System» Proceedings of ACL-IJCNLP 2015 System Demonstrations (Association for Computational Linguistics and The Asian Federation of Natural Language Processing)  doi:10.3115/v1/p15-4013. (Noiz kontsultatua: 2023-12-22).
  8. Maziarz, Marek; Piasecki, Maciej; Szpakowicz, Stan. (2015-12-31). «The System of Register Labels in plWordNet» Cognitive Studies | Études cognitives (15): 161–175.  doi:10.11649/cs.2015.013. ISSN 2392-2397. (Noiz kontsultatua: 2023-12-22).
  9. Agirre, Eneko; Aldezabal, Izaskun; Pociello, Eli. (2003). «A Pilot Study of English Selectional Preferences and Their Cross-Lingual Compatibility with Basque» Text, Speech and Dialogue (Springer Berlin Heidelberg): 12–19. ISBN 978-3-540-20024-6. (Noiz kontsultatua: 2023-12-22).
  10. .
  11. «: UNESCO Thesaurus» vocabularies.unesco.org (Noiz kontsultatua: 2020-07-22).
  12. «Home - EU Vocabularies - Publications Office of the EU» op.europa.eu (Noiz kontsultatua: 2020-07-22).

Kanpo estekak

aldatu