Aguisín 1: Agallamh

Agallamh le Kevin Scannell 19/4/2010

EW: Thosaigh tionscadal Líonra Séimeantach na Gaeilge in 2002 nuair a chruthaigh tú teasáras samplach Gaeilge go huathoibríoch, faoi mar a scríobh tú i do pháipéar don chomhdháil TALN: Automatic thesaurus generation for minority languages: an Irish example. Más fís don LSG a bhí bunaithe ar theasáras a chruthú ar dtús, an bhfuil an fhís sin athraithe ó shin?

KS: Bhuel tá plean i bhfad níos fearr agam anois – foclóir Gaeilge-Gaeilge a chruthú as sonraí an LSG. Ní dóigh liom go mbeadh sé ródheacair caithfidh mé a rá. Tá an PDF feicthe agat – saghas foclóir atá ann cheana, ach ba bhreá liom sainmhínithe Gaeilge a chur le gach iontráil. Bhuel, tá gach iontráil nasctha le hiontráil in WordNet Princeton, agus tá sainmhínithe Béarla ar fáil mar chuid de na hiontrálacha WordNet. Mar shampla, tá “cluiche cothrom” in LSG nasctha le “draw, standoff, tie” in WordNet Béarla, agus tá an sainmhíniú “the finish of a contest in which the score is tied and the winner is undecided” ann chomh maith. Ní gá ach an sainmhíniú seo a aistriú go Gaeilge – agus a lán eile ar ndóigh! An smaoineamh atá agam ná an obair seo a “sluafhoinsiú”. Nó, ar a laghad, ceathrar nó cúigear le Gaeilge mhaith a earcú chun na haistriúcháin a dhéanamh. Tionscadal an-tábhachtach é seo, dar liomsa.  Níl aon phlean ag an nGúm ná Foras na Gaeilge foclóir mór Gaeilge-Gaeilge a chur ar fáil, agus dá bharr sin mura ndéanaim é, ní dócha go dtarlódh sé riamh!  Ba mhór an trua é sin.

EW: Cén fáth? Cén tábhacht atá le foclóir aonteangach Gaeilge a bheith ann, dar leatsa?

KS: Ceapaim go dteastaíonn foclóir aonteangach go géar ó fhoghlaimeoirí agus ó scríbhneoirí na Gaeilge. Ó mo thaithí féin mar fhoghlaimeoir na Gaeilge, déarfainn go gcuireann sé isteach go mór ar chumas nádúrtha na teanga a fhoghlaim agus tú ag déileáil go dátheangach leis an mBéarla beagnach an t-am ar fad. Bheadh sé i bhfad níos fearr dá mbeadh tú sáite sa Ghaeilge agus ag foghlaim le hacmhainní aonteangacha. Nuair a bhíonn tú ag brath ar acmhainní dátheangacha, an bhfuil a fhios agat, foghlaimíonn tú gach rud trí scagadh éigin, trí pheirspictíocht an Bhéarla, agus cailleann tú an smaointeoireacht agus an friotal dúchais. Chomh maith leis sin, treisíonn úsáid na n-acmhainní dátheangacha tionchar an Bhéarla ar an nGaeilge. Ceapaim go bhfuil sé sin le feiceáil go láidir anois i scríobh na Gaeilge an lae inniu. Tá caillteanas ag tarlú i réimsí na teanga nádúrtha ag an am céanna. Dá mbeadh daoine ag foghlaim agus ag cleachtadh na Gaeilge go haonteangach, b’fhéidir nach mbeadh na fadhbanna sin chomh dona agus atá.

Rud eile atá an-tábhachtach agus a chreidim go domhain ann, is ea gur fearr foclóir mór aonteangach mar seo a chur ar fáil saor in aisce mar thionscadal foinse oscailte. Is sa chaoi sin a dtiocfadh an fhorbairt is mó agus an toradh is fearr air – meitheal oibre á dhéanamh ag siúd a bhfuil fíorshuim acu i bhfoclóir aonteangach. D’fhéadfaí foclóir d’ardchaighdeáin a chur ar fáil agus é a nuashonrú agus a fheabhsú go rialta. Cuidíonn an t-idirlíon le tionscadail mhóra mar seo a thabhairt chun críche ar bhealach an-éifeachtach – ‘Crowdsourcing’ nó ‘sluafhoinsiú’ a thugtar air, mar a luaigh mé cheana, sílim.

EW: Ach níl tú ag rá go mbeidh tionscadal LSG chomh hoscailte don phobal mar atá Wikipaedia nó a leithéid? Ní dóigh liom go mbeadh mórán muiníne ag aistritheoirí mar shampla i bhfoclóir atá scríofa gan mórán údaráis air. Inis dom cén chaoi ar féidir a bheith cinnte nach scríobhtar botúin nó raiméis de drochGhaeilge ann. Cén próiseas rialaithe a chuirfear i bhfeidhm lena chinntiú go mbeidh eolas údarásach agus Gaeilge chaighdeánach ann?

KS: Tá an ceart agat, ní oirfeadh cur chuige de chineál na Vicipéide do thionscadal foclóireachta (cé go bhfuil a leithéid ar siúl ar mórscála in áiteanna éagsúla, mar shampla Wiktionary (http://wiktionary.org/) agus fiú i gcomhair na Gaeilge tá Irishionary ann (http://www.irishionary.com/).  Nuair a labhraím faoi “shluafhoinsiú” sa chomhthéacs seo, tá mé ag smaoineamh ar aistriúchán ar na gluaiseanna den chuid is mó. Tiocfaidh struchtúr na n-iontrálacha ón phróiseas uathoibríoch atá agam cheana féin – an próiseas a d’úsáid mé chun LSG a chruthú. É sin ráite, tá go leor fadhbanna leis an bpróiseas céanna – rudaí a bhí pléite againn le bliain anuas: bearnaí séimeantacha in WordNet Princeton, naisc neamhfhoirfe idir na synsets Béarla agus ceannfhocail Ghaeilge a thagann ó easpa sonraí dátheangacha.  Feicfimid na fadhbanna seo san fhoclóir Gaeilge-Gaeilge, ach b’fhearr liom iad a cheartú ag an mbunleibhéal – bearnaí séimeantacha a líonadh isteach sa WordNet, na halgartaim a fheabhsú, agus an rud is tábhachtaí – cur go mór leis an gcorpas comhthreomhar atá agam.  Seo é mo phlean, seachas mé féin nó grúpa sluafhoinsithe ag iarraidh na hiontrálacha féin a chur in eagar go díreach.

EW: Cad a cheapann tú faoin bhFoclóir Beag, an leabhar a d’fhoilsigh an Gúm, agus an leagan leictreonach de atá ar an idirlíon?

KS: Níl ach 13,000 ceannfhocal (nó mar sin) san Fhoclóir Beag, agus níl a lán focail “deacra” ann. Ceapaim gurb é sin an rud is tábhachtaí i bhfoclóir aonteangach! Mar sin níl go leor úsáid ann, dar liomsa, go háirithe más cainteoir líofa nó foghlaimeoir ardleibhéil thú – sin é an lucht a d’úsáidfeadh foclóir aonteangach. Chomh maith leis sin, beidh saibhreas go léir an “teasárais” ar fáil san fhoclóir freisin, rud as an ngnáth in aon teanga.

EW: Cé mhéad ceannfhocal a bheidh i bhfoclóir LSG meas tú?

KS: Tá breis is 36,000 ceannfhocal in LSG faoi láthair ach beidh sé an-éasca an líon seo a mhéadú, go dtí timpeall 45,000, an méid atá i bhfoclóir Uí Dhónaill. Sin é an aidhm atá agam leis. Ach rud atá níos fearr ná gnáthfhoclóir – foclóir, teasáras, agus líonra séimeantach measctha le chéile. Níl a leithéid ar fáil in aon teanga eile, go bhfios dom. Tá an leagan mór PDF atá agam faoi láthair i ngar don rud atá uaim, ach níl sé inúsáidte go hiomlán toisc nach féidir a bheith cinnte faoi chiall ar leith mura bhfuil focail chomhchiallacha ar fáil, nó mura bhfuil ach ceann amháin ann.

Luaigh na taighdeoirí Princeton an fhadhb seo ina bpáipéir ar WordNet. I dtosach báire, bhí siad ag iarraidh an WordNet a thógáil gan gluaiseanna ar chor ar bith – bhí siad ag súil go ndéanfadh comhchiallaigh agus struchtúr an WordNet féin sainmhíniú soiléir ar gach synset, ach ní raibh sé fíor. Bhí sé ródheacair obair éifeachtach a dhéanamh sa tslí sin, agus chinneadar gluaiseanna a chur leis an mbunachar sonraí. B’fhéidir liom na sainmhínithe Béarla a chur sa PDF gan aistriú, agus réiteodh sé sin an fhadhb, ach tá mé ag iarraidh acmhainn aonteangach a chur ar fáil i ndeireadh an lae.

Maidir leis an LSG mar sin, beidh na gluaiseanna go díreach cosúil leis na sainmhínithe in aon fhoclóir aonteangach eile. Anois is arís, ní bhainfidh an gnáthúsáideoir aon tairbhe astu is dócha ach den chuid is mó beidh siad ina gcabhair mhór, go háirithe nuair a bheidh difríochtaí caolchúiseacha i gceist.

EW: Léigh mé i bpáipéar a d’fhoilsigh focal.ie gur chinn siad gan sainmhínithe a chur ar fáil d’úsáideoirí mar – agus is athfhriotal é seo: ‘Ní bhaineann an gnáthúsáideoir nach saineolaí é nó í úsáid as téarma i dtuiscint dhocht, eolaíochtúil, shonrach ar aon chuma’.  Cad é do thuairimí faoi sin?

KS: Ní aontaím leis sin!  Déanann aistritheoirí an t-am ar fad é.

EW: An féidir a rá gur saineolaithe teanga iad aistritheoirí?

KS: (Ag gáire!) B’fhéidir go bhfuil an ceart agat agus is saineolaithe teanga iad aistritheoirí.

EW: B’fhéidir é! Inis dom cá bhfuil tú i do chuid oibre ar Líonra Séimeantach na Gaeilge anois.

KS: Bhuel tá 90% den obair tugtha chun críche ó thaobh struchtúir an bhunachair sonraí agus naisc idir fhocail a dhaingniú. Táim ag súil leis an 10% eile a dhéanamh le linn an tsamhraidh i mbliana. Ag an bpointe sin bheadh LSG feabhsaithe agus nuashonraithe mar theasáras leictreonach. Ach chun dul ar aghaidh chuig an gcéad chéim eile, is é sin an foclóir aonteangach, teastaíonn obair aistriúchán a dhéanamh ar 33,500 gluais Béarla. Tuairim is idir 320,000 focal atá i gceist leis an obair aistriúcháin sin.

EW: Cén chaoi a ndéanfar an obair aistriúcháin don LSG?

KS: Bhuel, mar is eol duit agus tú féin páirteach ann – tá creatlach oibre á thástáil faoi láthair. Seoltar pacáiste de cheannfhocail i bhfoirm comhad PoEdit chuig an aistritheoir trí ríomhphost. Is ríomhchlár saor in aisce é PoEdit atá an-éasca le húsáid. Tá cuimhne aistriúchán mar chuid de agus tá sé fíoráisiúil don aistritheoir aistriúcháin a dhéanamh ar na gluaiseanna, an comhad a shábháil agus é a sheoladh ar ais.

Táim ag smaoineamh ar bhealach eile freisin – b’fhéidir go mbeadh sé níos fearr an tionscadal aistriúcháin a óstáil ar shuíomh Gréasáin, mar shampla, tá Transifex ann. (http://www.transifex.net/). Tá sé an-éasca le húsáid chomh maith, tá gach rud sa bhrabhsálaí agus ní gá aon ríomhchlár a íosluchtú agus a shuiteáil.

EW: Cé a bheidh ag obair ar an aistriúchán?

KS: Níl an maoiniú ann fós chun foireann aistritheoirí a earcú. Tá an obair ag brath ar m’obair dheonach féin agus ar obair dheonach ó chúntóirí a bhfuil suim acu a bheith ag obair ann. Sluafhoinsiú agus meitheal oibre atá i gceist leis an obair i láthair na huaire.

EW: Cé mhéad am a thógfadh sé chun obair ar na sainmhínithe a thabhairt chun críche, agus an foclóir aonteangach a bheith ann meas tú?

KS: Bhuel, cinnte is féidir an rud iomlán a dhéanamh i bhfad níos tapúla le foireann lánaimseartha.  Tá 100,000 focal san aistriúchán OpenOffice agus rinne mé an chuid is mó i mbliain amháin as mo stuaim féin. Le foireann deichniúr lánaimseartha, ag aistriú thart ar 2000 focal sa lá don LSG, bheadh sé críochnaithe i mí amháin! Bheadh deontas de chineál éigin de dhíth ar ndóigh agus nílim cinnte gurb é seo an tslí is fearr – b’fhearr liom cur chuige oscailte, deonach, chomh fada agus is féidir aistritheoirí den chéad scoth a earcú.

EW: Bhí preasráiteas le déanaí i nGaelsceal (eagrán 26/3/2010) faoi ‘Anois’ – teasáras leictreonach (bunaithe ar do chuid oibre ar Líonra Séimeantach na Gaeilge) a bheidh foilsithe ag Cruinneog. Inis dom faoi sin?

KS: Sea. Is é sin obair atá ar siúl ag Diarmaid Mac Mathúna ó Chruinneog. Bainfear úsáid as na sonraí in LSG mar atá sé faoi láthair agus tiocfaidh teasáras Gaeilge as. Is socrú é “Anois” atá cosúil leis an gcaidreamh atá ann idir An Gramadóir (leagan foinse oscailte, saor in aisce) agus Ceart (leagan do chórais oibriúcháin tráchtála Windows/Apple). Fanfaidh Líonra Séimeantach na Gaeilge mar fhoinse oscailte agus saor in aisce. Beidh “Anois” oiriúnaithe ag Cruinneog do chóras oibriúcháin tráchtála agus is dóigh go mbeidh costas íseal i gceist leis san fhoirm sin.

EW: Abair, nuair a bheidh LSG forbartha amach anseo mar fhoclóir aonteangach agus sainmhínithe Gaeilge ar na ceannfhocail, an mbeadh an obair sin ceangailte go huathoibríoch le leagan nuashonraithe Anois a thiocfadh amach sa todhchaí?

KS: Is dóigh go rachadh aon fheabhsúchán ar LSG i bhfeidhm ar Anois tamall ina dhiaidh.

EW: Tá tú ag obair mar shaineolaí seachtrach ar an bhFoclóir nua Béarla Gaeilge agus is dóigh go bhfuil tú ar an eolas faoina struchtúr agus céard a bheidh ann. Cad iad na buanna a bheidh ag LSG nach mbeidh san fhoclóir sin?

KS: Bhuel arís is é an rud céanna – Áis dhátheangach cosúil le de Bhaldraithe a bheidh san Fhoclóir Nua Béarla Gaeilge. Foclóir aonteangach a bheidh i gceist le Líonra Séimeantach na Gaeilge.

EW: An mbeidh comhchiallaigh agus frithchiallaigh á léiriú san fhoclóir nua?

KS: Ní dóigh liom go mbeidh.

EW: Maidir le Foclóir Mór lánGhaeilge tá sé molta ag duine amháin liom le déanaí “gur ceart sciar ollmhór d’aon mhaoiniú a bheadh ar fáil a chaitheamh ar Fhoclóir Stairiúil Acadamh Ríoga na hÉireann, agus é bheith déanta sa tslí go bhféadfaí gach eolas a nascadh go leictreonach le gach áis foclóireachta eile.” Cad a cheapann tú faoi sin?

KS: Is obair agus maoiniú ollmhór atá i gceist leis an bhfoclóir sin, ní dóigh liom gur féidir é a thabhairt chun críche go ceann blianta fada amach anseo. Teastaíonn foclóir lánGhaeilge i bhfad níos luaithe ná sin.

EW: A Dhochtúir Scannell, go raibh míle maith agat as ucht caint liom inniu.

KS: Tá míle fáilte romhat, agus go n-éirí leat i do chuid oibre ar do thráchtas.

Advertisements

Freagra

Líon amach do chuid faisnéise thíos nó cliceáil ar dheilbhín le logáil isteach:

Lógó WordPress.com

Is le do chuntas WordPress.com atá tú ag freagairt. Logáil Amach /  Athrú )

Pictiúr Google+

Is le do chuntas Google+ atá tú ag freagairt. Logáil Amach /  Athrú )

Peictiúr Twitter

Is le do chuntas Twitter atá tú ag freagairt. Logáil Amach /  Athrú )

Pictiúr Facebook

Is le do chuntas Facebook atá tú ag freagairt. Logáil Amach /  Athrú )

w

Ceangal le %s