2.6.2 Struchtúr LSG

Ba é croí na ceiste agus Líonra Séimeantach na Gaeilge á chruthú ag Scannell ná gach focal Gaeilge a mhapáil go dtí a bhunchiall nó a bhunchialla Béarla in Wordnet®. Tabhair faoi deara go bhfuil difríochtaí suntasacha idir Wordnet® agus Líonra Séimeantach na Gaeilge, chun déileáil le coincheapa éagsúla idir an Béarla agus an Ghaeilge agus chun na comhchiallaigh a mhapáil go cruinn. Níl na focail Ghaeilge mapáilte go dtí na bunchialla in Wordnet® go díreach. Seo mar a chuireann Scannell síos ar struchtúr LSG:

“Is é cúis leis seo go ndéanann na foclóirithe Princeton idirdhealuithe an-chaolchúiseacha idir bríonna, go fiú idirdhealuithe nach féidir le daoine éirimiúla gan traenáil speisialta i bhfoclóireacht a dhéanamh. Agus chomh cinnte le sioc nach féidir le ríomhchlár dúr staitistiúil an jab céanna a dhéanamh go hiontaofa! Ina theannta sin, tá go leor bunchiall sa Ghaeilge nach bhfuil ar fáil i mBéarla (m.sh. freagraíonn “dearg” agus “rua” do bhunchiall amháin (“red”) i WordNet Princeton) agus is iad seo na cialla is mian liom a chaomhnú go háirithe in acmhainn Lán-Ghaeilge ar nós LSG. Dá bhrí sin, chuir mé sraith nua isteach – “líonra inmheánach” – idir Gaeilge agus Béarla le mapáil i ngach treo. I ndáiríre, líonra Béarla atá ann, ach ceann atá dírithe ar riachtanais na Gaeilge.

(Scannell, 2007)

Chun na focail athbhríocha a imdhealú, bhain sé úsáid as Corpas Comhthreomhar na Gaeilge – bailiúchán mór de théacsanna Béarla in éineacht lena n-aistriúcháin Ghaeilge. Tá fáil ar líne ar an gcorpas ina bhfuil 591,527 abairt ailínithe faoi láthair ar shuíomh http://borel.slu.edu/corpas/index.html. Is féidir focal Gaeilge nó Béarla a chuardach agus faightear go leor samplaí den fhocal sin á n-úsáid i gcomhthéacsanna éagsúla. Luaitear na foinsí as a dtagann na samplaí agus tá liosta cuimsitheach de na foinsí sin ar leabharliosta an tsuímh.

2.6.3  Sainmhínithe don LSG

Anois tá Scannell i mbun céim eile a fhorbairt don LSG trí shainmhínithe Gaeilge a chur lena cheannfhocail, mar a rinneadh i mBéarla do Wordnet®. Ar  chúis amháin, thiocfadh teasáras agus foclóir saibhir aonteangach as, rud a théadh i bhfeidhm go mór ar lucht na Gaeilge. Agus ar chúis phraiticiúil, chuideodh sé le LSG a neartú mar líonra séimeantach agus idirdhealuithe soiléire a chruthú idir na gaolta séimeantacha. Luaigh sé an fhadhb a bhí ag Princeton nuair a cheap siad ar dtús go raibh léiriú sách maith tugtha ar bhríonna na gceannfhocal lena gcomhchiallaigh amháin, agus nach raibh gá le sainmhínithe a chur leis na ceannfhocail in Wordnet®. Ach d’athraigh siad a n-intinn faoi sin níos déanaí nuair ba léir dóibh go raibh géarghá leis na sainmhínithe chun idirdhealuithe caolchúiseacha a dhéanamh idir comhchiallaigh. Seo mar a rinne Stiúrthóir an Tionscadail, George Miller cur síos faoi i mbrollach a scríobh sé don leabhar Wordnet: an electronic lexical database.

‘As the number of words in Wordnet increased, it became increasingly difficult for us, purely on the basis of synonyms, to keep all the different word senses distinct. In short, we learned the hard way what any lexicographer could have told us, namely that definition by synonmy is not adequate. At first we kept our explanatory glosses as short as possible. Only after we had enjoyed the luxury of definitions for a year or so did we begin to write fuller glosses, even including (in quotation marks) illustrative phrases or sentences.’

(Fellbaum, 1998: xx)

Tá an obair chéanna á moladh ag Scannell don LSG chun an fhadhb thuasluaite a sheachaint. De réir mar a thagann méadú ar líon na bhfocal in LSG, ní mór go gcuirfí sainmhínithe sách docht orthu mar ní leor na comhchiallaigh sa tacar chun idirdhealú caolchúiseach a dhéanamh idir bríonna. Chomh maith leis sin, dar leis, beifear in ann an deis a thapú agus abairtí samplacha agus comhlogaíochtaí a chur le gach iontráil freisin trí shamplaí úsáide a bhaint as Corpas Comhthreomhar Gaeilge Béarla.

Cuireann an tráchtas seo tús leis an obair a chuirfidh sainmhíniú Gaeilge le gach ceannfhocal. Teastaíonn cuid mhaith oibre ó ghluaiseanna Béarla Wordnet® a láimhseáil agus a oiriúnú don Ghaeilge chun an tasc seo a chur i gcrích. Is chuige sin a rinne an taighdeoir obair aistriúcháin don tionscadal (Caibidil 4), agus tráchtaireacht air (Caibidil 5).

Advertisements

Freagra

Líon amach do chuid faisnéise thíos nó cliceáil ar dheilbhín le logáil isteach:

Lógó WordPress.com

Is le do chuntas WordPress.com atá tú ag freagairt. Logáil Amach / Athrú )

Peictiúr Twitter

Is le do chuntas Twitter atá tú ag freagairt. Logáil Amach / Athrú )

Pictiúr Facebook

Is le do chuntas Facebook atá tú ag freagairt. Logáil Amach / Athrú )

Pictiúr Google+

Is le do chuntas Google+ atá tú ag freagairt. Logáil Amach / Athrú )

Ceangal le %s