2.5 Princeton Wordnet®

Tagann an téarma ‘wordnet’ ón gcéad líonra séimeantach cuimsitheach a cruthaíodh don Bhéarla i 1985 – Princeton Wordnet®. Is bunachar sonraí foclóireachta é Wordnet® ina bhfuil breis is 1.4 milliún focal, saothar a d’fhorbair an Cognitive Science Laboratory in Ollscoil Princeton faoi stiúir George A Miller. Bunaíodh ar dtús é chun taighde a dhéanamh, agus córas a fhorbairt, a léireodh an chaoi a ndéanann an duine foghlaim agus próiseáil teanga. Anois tá sé in úsáid go forleathan mar áis shaibhir foclóireachta i bhformáidí éagsúla leictreonacha. Déantar cur síos achomair anseo ar struchtúr Wordnet® agus ar an gcaoi a n-oibríonn sé.

Cruthaítear naisc idir ceithre chineál ranna cainte: an t-ainmfhocal, an briathar, an aidiacht agus an dobhriathar. Déantar rangú ar fhocail agus eagraítear iad i dtacair de chomhchiallaigh chun coincheap amháin a léiriú i ngach tacar. Is é an t-aonad is bunúsaí in Wordnet® an ‘tacar de chomhchiallaigh’  (‘synset‘) ina mbíonn na trí heilimint seo a leanas:

  1. an ceannfhocal
  2. focail eile nó comhlógaíochtaí (frásaí) atá ar comhchiall leis
  3. sainmhíniú beacht curtha leis

Seo tacar de chomhchiallaigh a fhaightear ón gceannfhocal ‘madra’:

  • madra (ceannfhocal)
  • cú, coilí, gadhar  (a chomhchiallaigh)
  • ball den ghéineas Canis (ar dóigh gur de shliocht mac tíre é) atá faoi cheansú daonna ón aimsir réamhstairiúil; tá siad ar fáil i bpórtha éagsúla; (sainmhíniú)
  • “Bhí an madra ag tafann ar feadh na hoíche (sampla úsáide tugtha)

Cruthaíonn na heilimintí sin ‘sainbhrí an fhocail’ i.e. rud a léiríonn coincheap ar leith a bhaineann le: madra, cú, coilí agus gadhar.

Dá mbeadh níos mó ná ciall amháin ag ceannfhocal áirithe, áfach, bheadh tacar de chomhchiallaigh cruthaithe do gach chiall ar leith. Cuir i gcás cuid de na bríonna éagsúla atá leis an bhfocal ‘aimsir’: bheadh 4 thacar ar leith ina mbeadh ‘aimsir’ luaite ann chun na coincheapa seo a leanas a léiriú go beacht:

1.  (uair, aimsir, uain) staid an atmaisféir i dtéarmaí teochta agus gaoithe, scamall agus báistí’; aimsir mhaith

2.  (am, uair, tráth, aimsir, dáta, uain) contanam ina mbraitear imeachtaí ag aistriú ón todhchaí go dtí an aimsir láithreach agus ansin go tráth atá thart; in imeacht aimsire

3.  (aimsir, ráithe, séasúr, ionú) tráth den bhliain ina mbíonn ócáid nó gníomhaíochtaí faoi leith ar siúl; aimsir na Nollag

4. (aimsir) foirm den bhriathar a léiríonn an gníomh a bheith láithreach, caite nó fáistineach agus araile; an Aimsir Fháistineach

In Wordnet® bíonn na tacair de chomhchiallaigh ar fad nasctha le chéile trí struchtúr áirithe de ghaolta séimeantacha. Ní amháin gur féidir comhchiallaigh agus frithchiallaigh a thaispeáint i líonra séimeantach, ach léirítear gaolta eile cosúil le hipearainmneacha agus hiopainmneacha (téarmaí níos leithne/níos cúinge), agus míorainmneacha agus holainmneacha (páirt vs. iomlán). Mar shampla, d’fhéadfaidh na gaolta séimeantacha seo a bheith ag an bhfocal madra:

  • cú, coilí, gadhar (comhchiallaigh)
  • Is cineál madra é ‘pudal’ (hiopainm, – téarma níos cúinge).
  • Is cineál ‘ainmhí’ é madra (hipearainm – téarma níos leithne).
  • Is cuid de mhadra é ‘eireaball’ (míorainm – téarma a léiríonn páirt de)
  • Is cuid den aicme ‘cainíneach’ é madra (holainm téarma a léiríonn ballraíocht d’aicme iomlán)

Is féidir brabhsáil trí líonra saibhir de ghaolta séimeantacha le tuiscint níos fearr a fháil ar fhocail áirithe, chun an focal díreach cruinn atá uait a aimsiú go tapa, nó fiú chun an tsamhlaíocht a spreagadh chun focail nua a fhoghlaim. Tá cuardach Wordnet® ar líne ar fáil ar http://www.wordnet-online.com/. Chomh maith leis sin, is féidir é a íoslódáil saor in aisce ó http://wordnet.princeton.edu/wordnet/download/ agus é a fhorbairt mar chomhghléas saibhir idir fhoclóir agus teasáras Béarla de réir a cheadúnais foinse oscailte.  Tá sé sin déanta cheana féin ar shuíomh Visual Thesauras

Úsáidtear Wordnet® freisin chun cabhrú le líonraí séimeantacha nua i dteangacha eile a chruthú. Baintear úsáid as mar mhúnla agus déantar naisc agus mapáil idir Wordnet® agus na tacair de chomhchiallaigh (coincheapa) atá i líonra nua i dteanga eile. Rinneadh é sin i gcás Líonra Séimeantach na Gaeilge, na líonraí séimeantacha de chuid EuroWordnet agus na líonraí séimeantacha luaite leis an Global Wordnet Association.

Advertisements

Freagra

Líon amach do chuid faisnéise thíos nó cliceáil ar dheilbhín le logáil isteach:

Lógó WordPress.com

Is le do chuntas WordPress.com atá tú ag freagairt. Logáil Amach / Athrú )

Peictiúr Twitter

Is le do chuntas Twitter atá tú ag freagairt. Logáil Amach / Athrú )

Pictiúr Facebook

Is le do chuntas Facebook atá tú ag freagairt. Logáil Amach / Athrú )

Pictiúr Google+

Is le do chuntas Google+ atá tú ag freagairt. Logáil Amach / Athrú )

Ceangal le %s