Agintaritzen bilaketa: testu librearen erabilera

21/05/2009

Agintaritzen bilaketetan testu librea erabiltzearen gaitasunen eta mugen inguruko galderak ohikoak dira.

Testu libre bidezko bilaketa oso garrantzitsua da lanbidearen, gako-hitzen, politiken edo jarduera ekonomiko alorren informazioa aprobetxatzeko (aurrez definitutako zerrendetatik hartzen diren balioak), egun bilaketentzat zerrenda horiek ez baitira erakusten eta testu libre bidezko bilaketa bakarrik egin baitaiteke. Hala ere, bilaketa mota horrek egoki erabiltzeko ezagutu beharrekoak diren muga handiak ditu:
  • Erabiltzen duen sistema ez da ‘Google’ motakoa, askoz sinpleagoa baizik. Idazten dugun testua ‘dagoen bezala’ bilatzen du agintaritza bat deskribatzen duten eremu guztietan (deskribapen laburra eta luzea, gako-hitzak, arlo politikoak eta ekonomikoak, lanbideak, eta abar).
  • Hainbat hitz idazten baditugu, horiek guztiek osatutako katea bilatzen du eta idatzi ditugun ordenan (‘kutsadura akustikoa’ bai, baina ‘akustikoa kutsadura’ ez). Horregatik, baliteke ‘erradiografia extremadura’ hitzak emaitzarik ez ematea (no produzca ningún resultado (‘erradiografia’ eta ‘extremadura’ hitzak bananduta bilatzean zerrendan agertzen den agintaritza existitu arren).
  • Ez ditu maiuskulak / minuskulak bereizten (‘medikua’, ‘Medikua’, eta ‘MEDIKUA’ hitzek emaitza bera emango dute).
  • Tamalez, azentu-marka kontutan hartzen du (‘MEDICO’ hitzak ez ditu ‘MÉDICO’ hitzaren emaitza berak emango)
  • Plurala/singularraren erabilerak batzuetan bilaketak zailtzen ditu. Horrela, ‘arkitektoak’ baliteke agintaritzarik ez topatzea, baina bai ‘arkitektoa’ hitzak (beste termino batzuetan alde handiagoak egon litezke singularraren eta pluralaren artean, gehienbat beste hizkuntzetan: 'foot/feet' adibidez).
  • Termino baten erroa (edo beste edozein zati) soilik erabil daiteke (‘arkitek’ hitzak arkitektoa edo arkitektura dituzten emaitzak emango ditu, eta ‘tsadur’ hitzak kutsadura duten emaitzak emango lituzke)
  • Ez du sinonimoen hiztegirik erabiltzen eta are gutxiago thesaurusen bat (‘kutsadura’ eta ‘poluzio’ hitzen bilaketek emaitza ezberdinak ematen dituzte)
  • Kontuz ibili behar da eleaniztasunarekin testu libre bidezko bilaketan: 
    • Izendapen ez-ofizialen eta deskribapenen itzulpenak egiteak luze jo dezake (hilabete ere) eta eskuragarri egon daitezkeen arren, baliteke hasiera batean bilaketetan aplikatzen ari garen hitzen bestelakoak erabili izana (kutsaduraren eta poluzioaren adibidea).
    • Sistemak gako-hitz (keywords), lanbide, arlo politiko eta ekonomiko guztien itzulpenak ezagutzen ditu (azken finean IMIk dituen ‘zerrendak’), baina IMIren zerrendatan azaltzen diren bezala idatzi behar ditugu (adibidez, ‘kutsadura’ deitzen den arlo politiko bat dago, ingelesez IMIk ‘polution’ gisa aurkezten duena; inoiz ez genuke agintaritza bat topatuko ‘poluzioa’ hitzaren bidez bilatuz)
    • Adibide praktiko gisa jarduera ekonomikoaren E.39.0.0 arloa gazteleraz ‘Actividades de descontaminación y otros servicios de gestión de residuos’ bezala deskribatzen da, ingelesez ‘Remediation activities and other waste management services’ bezala agertzen den bitartean. Argi dago ‘decontamination’ bilatuz (ingelesez baliozko terminoa) sistemak ez lituzkeela ‘remediation’ bezala deskribatutako agintaritzak aurkituko.

Laburtuz, bilaketetan testu librearen erabileraren aukera laguntza da, baina irudimena eta inteligentzia behar dira, hori erabiliz agintaritza eskudunak topatzea lortzen ez dugunean.