Itzulpen automatikoaren dimentsioak
Wikipedia(e)tik
![]() |
Artikulu honek ez ditu Wikipediaren formatu hitzarmenak betetzen edo ez du sintaxi egokia. Mesedez, aldatu ezazu bete ditzan. Ez ezabatu ohar hau wikitu arte. |
Itzulpen automatikoaren dimentsioak
Atal hau Abaitua (2002) lanean oinarrituta dago.
Itzulpengintza automatiko erabiltzean hainbat alderdi hartu behar ditugu kontuan. Sei dimentsio hartuko ditugu kontuan.
- Testu motak: generoak, estiloak, erregistroak eta eremuak.
- Dentsitatea: pikortatzea eta dentsitatea.
- Alde: linguistiko eta kulturala.
- Garapena: normalizazioa eta baliabideak.
- Hedabideak: ahoz, idatziz edo bytez.
- Helburuak: berreskuratzea, informatzea eta argitaratzea.
Testu motak:
Itzulpen bakoitza mundu desberdin bat da. Testu asko daude eta bakoitzak baditu bere berezitasunak. Ezberdintasun horiei aurre egiteko kontzeptu batzuetara jo beharra daukagu, halonola: genero, estilo, erregistro edo mota. Kontzeptu hauek ezinbestekoak dira eskuz edo mekanikoki itzultzeko. Hona hemen erregistro hauen azalpenak:
- Generoa: testu bakoitzak duen funtzio pragmatikoaren arabera, ezberdintzeko aukera ematen du: eleberria, poesia, antzerkia, saiakera, etab. Azpigeneroak ere badira, alegia, kazetaritza generoaren barruan hauek ezberdindu daitezke: agentziako berriak, erreportajeak, teletipoak, kirol kronikak, iritzi artikuluak, zutabeak, dibulgazio artikuluak, albiste laburrak, flashak, iragarkiak, taula-datuak, etab.
- Estiloa: kontzeptu hau, batzuetan erregistro kontzeptuarekin nahasten da. Nahasketa hau erraz argitu dezakegu; erregistro bakar batean estilo bat baino gehiago egon daiteke, hots: hotsandikoa edo xumea, zuzena edo zeharkakoa, formala edo informala, etab. Estilo kontzeptuak testuak dituzten hizkuntza ezaugarriei esker ezberdindu daitezke: perpausen luzera, aditz perifrastikoen erabilera, lexikoaren dentsitatea, lokailuen erabilera, etab.
- Erregistroa: jerga izango lirateke erregistroaren sinonimoa. Hartzailearekin zerikusia dauka, bera izango delako erregistroa erabiliko duena. Egoera maila sozial edo profesional bakoitzerako erregistroak daude.
- Mota: kontzeptu honek testuak funtzio komunikatibaoren arabera bereizten ditu. Esate baterako: informazioa ematea, eztabaida sortzea, arauak finkatzea, etabar. Estrategia pragmatikoak edo HizketakoEgintzak (ikusiwikipedia) bezala definitu dira testu mota hauek ere.
Lexikoaren dentsitatea:
Hizkuntza berezituak eta hizkuntza arruntaren arteko ezberdintasuna beste bi nozio garrantzitsurekin zerikusia du, pikortatzea. Pikortatzearen definizioa testua bana daitekeen unitate lexikalen tamainan oinarrituta dago. Pikortatze handiagoa duten testuak hitz konbinaketa gehiago dutenak dira: formulak, esaldi eginak, izen bereziak, termino konposatuak. Testu baten dentsitatea alderantziz proportzionala da pikortatzearekiko. Zenbat eta dentsitate handiagoa orduan eta pikortatze txikiagoa. Dentsitate altuadaukaten testuak normalean eremu berezietakoak dira. Aldizkari ofizialetan argitaratzen diren arau eta agindu askoren pikortatzea eta dentsitatea 100ekoa da.
Laburbilduz esan dezakegu,
- Hizkuntza berezituak dentsitate handiagoa du.
- Hizkuntza arruntak dentsitate gutxiago du.
Pikortatze nozioak itzulpenaren munduaren barruan oso ezaguna den arazo batekin zerikusia du, hain zuzen ere, testua itzulpen unitateetan banatzearena. Garrantzitsua da unitateak ezberdintzea duten luzera kontuan izanik, alegia, osatzen duten hitz kopurua eta duten kohesioa edo elkarrekin zein banatuta interpretatzeko den aukera:
- Kategoria morfosintaktikoak: itzulpen automatikoaren sistema guztietako oinarrizko unitatea hitza izan ohi da. Kategoria morfosintaktikoek hitzen gaineko abstrakzioak ezartzeko aukera ematen dute eta egitura sintagmatikoetako gramatiken oinarri dira.
- Azpi-kategoriak: Kategorien barruan konpartimendu asko daude, gehienak hizkuntza ezberdinen artean dibergente. Azpi-kategoriak dibergentzia horiek zehazteko aukera ematen dute.
- Kokapenak: Kategoriek eta azpi-kategoriek kokapen sintagmatiko bereziak azaltzen dituzte sarritan: fast waltz, rapid movement, quick action, speedy recovery.
Lexia konplexuak (hitz konposatuak): hitzen konbinaketa, comida rápida/ fast food; begietako mugimendu azkarrak /rapid eye movement,alegia.
- Lokuzioak: preposizio multzoak edo lotura finkoak: after all/ när allt kommeromkring, still / a pesar de todo.
- Esapide idiomatikoak: Malgutasun sintaktikoa duten multzo sintagmatikoak dira: estaba más loca que una cabra / she was as nutty as a fruitcake,alegia.
- Formulak: atsotitzak, arte lanen izenburuak eta diskurtsoaren elementu finkoak.
Alde linguistiko eta kulturala
Itzultzeak duen zailtasun bat hizkuntzen arteko alde linguistiko eta kulturala da. Itzultzaile mekaniko baten diseinurako ezinbestekoa den dimentsio hau, hala ere, ez da kontuan hartu orain dela urte gutxi batzuk arte. Egun baino ezin uler dezakegu EUROTRAproiektua (ikusi wikipedia) eta honelako hainbat proiektu sekulako porrota pairatu dute izandako diseinugileen sineskortasunagatik, ez baitziren dimentsio hori ikusteko gai, edo euren metodologian zuten fede itsuagatik (euren harrotasun zientifikoagatik alegia). Urteak pasa ahala, ulertezina dirudi sistema bakarra ez bazen, gutxienez bi azpi-sistema erabilgarri, Batasunean ordezkaturiko europar hizkuntza familia handi bietara egokituak, gauzatu ez izana: latinoa (italiera, frantsesa, espainola eta portugesa) eta germaniarra (alemana, holandarra eta ingelesa). Grekoa eta daniarra kanpoan ziren, baina azpi-sistema bietara, latinoa eta germaniarrera hurrenez hurren, arazorik gabe egokitzeko aukera izan zezaketen.
Garapen linguistikoa eta baliabidea
Hizkuntza asko daude mundu osoan. 6.700 inguru direla kalkulatzen da, nahiz eta kopuru zehatza ez den. 400 hizkuntza baino gehiago desagertzear daudela uste da, hizkuntza gehienak Australian eta Amerikan hitz egiten dira. Hala ere Europan badaude desagertzear dauden hizkuntzak. Horietako lau Saami-ren aldaerak dira, Errusia, Norvegia eta Suediatik banatuta dauden laponiarren hizkuntza, hamarkada gutxi batzuek baino hitz egiten ez dutena.
Munduko hizkuntzetatik ehun baino baten bat gehiagotan baino ez dago zazpi milioi hiztun baino gehiago. Baina askoz gutxiago dira Interneten azaltzen direnak. Google direktorioa erabil dezakegu hizkuntza horien presentzia neurtu eta egiaztatzeko. Google-en 66 hizkuntza baino ez direla azaltzen. Deigarria da hiztun ugari duten hizkuntzek, vietnamera adibidez, 68 milioi pertsonek hitz egiten dutena, direktorioan 80 orrialde besterik ez izatea (hots, orrialde bat baino zerbait gehiago hiztun bakoitzeko), eta hiztun gutxiago duten hizkuntzek, milioi bat pertsonek baino gutxiagok hitz egiten duten euskara besteak beste, 4.278 orrialde izatea. Horrek esan nahi du euskara hitz egiten duen pertsona bakoitzeko, vietnamera hitz egiten duen bakoitzeko baino 4.532 orrialde gehiago dagoela bere hizkuntzan. Hau da, hizkuntza bat nahiz eta hiztun gutxiago eduki, beste hizkuntza batzuk baino orrialde gehiago dituzte sarean.
Arrazoi asko dago alderdi horren garrantzia azpimarratzeko, baina bakar batean eman daitezke: itzultzaile automatikoa bezalako tresna informatikoak sortu ahal izateko baliabide linguistikoak behar dira: hiztegiak, gramatikak, analizatzaileak, ezagutza baseak eta batez ere, korpora. Baliabideak izateko, lehenago garapen fase askotatik igaro beharra dago, idazkera baten estandarizatzetik hasi, erabilera ahalik eta eremu gehienetan normalizatzetik pasa, eta hizkuntza ingeniaritzan ikertze talde aurreratuak sustatu arte.
Google bezalako direktorioek hizkuntzen garapen eta bideragarritasun mailaren nolabaiteko ideia eman diezagukete. Itzultzeko (mekanikoki nahiz eskuz), hizkuntzek garapen maila baliokidea izatea funtsezkoa da, itzultzailearen lana bikoiztu egingo da, lehenengo normalizatu eta gero itzuli. Arazoa era argiago batean emateko, oso ondo ezagutzen dugun kasu bat azal dezakegu.
Normalizazioak mugak ditu. Hizkuntza baten garapena mailarik gorenenetara igotzea zilegi izan arren (tekniko edo zientifikoak), ez dauka inolako zentzurik hizkuntza guztiek ingelesak duen mailara iritsi nahi izatea. Hizkuntza bakoitzak bere erabilera eremu naturalak ditu, hizkuntza bakoitzak bere posibilitateak ditu. Hizkuntza minoritario bat ez du kaltetzen hizkuntza maioritario bat.
Hedabidea eta modua
Itzulpen azterketetan bi jarduera ongi bereizten dira. Lehenengoa InterpretaziorenItzulpena (ikusi wikipedia) izango zen. Bigarrena, testu idatzien itzulpena da. Biak oso ezberdinak dira. Interpreteek normalean pentsatzeko eta testua prestatzeko edo hiztegietan ezer begiratzeko astirik gabe itzultzen dute. Halaber, ez dute euren itzulpenak birpasatu edo zuzentzeko aukerarik. Haien lana bat-batekoa da, atxera bueltatzeko aukerarik gabe. Interpretea bere lana burutzen den testuinguruaren menpe dago erabat, protokolo eta arau batzuei lotuta dago. Horretaz gain, ahozko hizkuntzak idatziak ez dituen ezaugarriak ditu; bat-batekoa da, testuinguruari lotura, etenak ditu eta askotan ez-gramatikala. Testu idatzien itzultzailea aldiz, oro har era landuan idatzi diren testuen aurrean izango da, batzuetan balio literarioak ere izan ditzaketenak. Normalean badu hiztegietan edo bestelako iturrietan kontsultak egiteko aukera, bai eta itzulpenak birpasatu eta zuzentzeko ere.
Askotan ahozko testuen itzulpenak eta idatzien itzulpenaek mota desberdinetako arazoak azaltzen dituzte. Gero eta gehiago dira modu automatikoan sortzen diren testuak. Hizketaren itzulpenerako programak direla (C-STAR, JANUS , VERBMOBIL, EUTRANS) eta merkatal interes handia egonagatik ere, eta industriak testu idatzien ohiko itzulpen programak hobetzen segitzen duen arren, etorkizuna testuen tratamendu automatikoa euskarri elektronikoetan egitera bideratuta dago. Zeregin horrek lokalizatze izena hartu izan du eta horretan arituko gara tartetxo batean.
Laburbilduz, itzultzeko hiru modu ezberdin daude:
- Hedabidea ahozkoa bada, interpretazioa; - Hedabidea idatzia bada, itzulpena; - Hedabidea elektronikoa bada, lokalizatzea.
Bereizketa eginda, esan beharra dago bitarteko elektronikoa batik bat MultiMedia (ikusi wikipedia) dela, aipaturiko hiru bitarteko eta motak batera izateko gaitasuna duena.
Abaitua (2002) * Itzulpengintza Automatikoa: hamar orduko sarrera * http://sirio.deusto.es/abaitua/konzeptu/ta/mt10h_eu
Egilea: Eider Amutxastegi Sainz-Maza