Peizazhe të fjalës

ose natyra jo aq të qeta
Gjuhësi / Komunikim

CENSUSI I FJALËS

CAPTCHAJetojmë në një epokë kur fjala komunikim po rimon gjithnjë e më tepër me fjalën Internet, sidomos ngaqë ashtu e duam të na rimojë.

Për këtë epokë, mënyra si shkruhet një fjalë, ose fytyra e saj drejtshkrimore, përbën edhe dokumentin e saj identifikues, pasaportën e saj.

Fjala e shkruar “keq”, ose në kundërshtim me rregullat përndryshe arbitrare të drejtshkrimit, dënohet ta çojë jetën në periferitë e errëta të rrjetit, në shoqëri të ujqërve.

Për ne, që nuk reshtim të diskutuari, me nge, rreth thelbit të drejtshkrimit shqip, ose për kundërvënien metafizike mes yin-it të gegërishtes dhe yang-ut të toskërishtes, epoka e Internetit është gjithnjë e të tjerëve.

Nga njëra anë, prakticiteti i Google-it; nga ana tjetër, idealizmi romantik i shekullit XIX, që sheh si te fjala, ashtu edhe te forma e fjalës, ose mveshja shkronjore, rezultatin e kalimit të pandërprerë vetë kombit nga mosqenia në qenie.

Të mençurit ndër ne ende përqeshin, me hoka folklorike, ë-të e shumta të standardit; në një kohë që na duhej kushedi të shqetësoheshim si po e interpretojnë fjalën shqipe motorët e kërkimit.

Trajta grafematike e fjalës, si njëpasnjëshmëri shenjash vizuale, vjen e zë vendin qendror në “inteligjencën” bruto të uebit.

Të hollët ndër ne ende na shpjegojnë pse shtatzanë tingëllon më bukur se shtatzënë; pa çka se kushedi do të na duhej të fillonim të përsosnim, qoftë edhe për shqipen në Google, algoritme të tilla, që ta lejonin fjalën shqipe të shihej jo thjesht si një varg grafemash si në anglishte, por edhe si familje formash të eptuara – ose si bashkësi të formave të lakimit (të emrit) dhe të zgjedhimit (të foljes).

Kështu do t’i mësonim motorit të kërkimit se rri dhe ndenja janë dy forma të së njëjtës fjalë; ndërsa rri dhe (i) ri janë dy fjalë të ndryshme.

Mënyra si shkruhet një fjalë nuk shpreh më, pra, ndonjë ideologji drejtshkrimore dhe kulturore; por vjen më shumë si detyrim drejtpërdrejt i lidhur me dukshmërinë dhe, për pasojë, ligjshmërinë e fjalës në qarkullim.

Dukurinë e sheh, të shembëllzuar, në luftën mes filtrave e-postarë dhe mesazheve të spam-it; nëse filtri yt do t’i ndalë të gjitha ato mesazhe që kanë fjalën Viagra në titull ose në trup të tekstit, atëherë kjo fjalë duhet shkruar keq, Vaiagra ose Viiagara, që ta “gënjejë” filtrin.

Filtri, që mishëron ligjshmërinë e Internetit si hapësirë publike, mbështetet mbi identitetin grafematik të fjalës; që këtej edhe maskimi që bëjnë spammer-ët, nëpërmjet keqshkrimit të qëllimshëm.

Kjo edhe sepse ne i njohim fjalët kryesisht në kontekst, ndërsa për një motor kërkimi që nuk di shqip, mësoj është më e afërt me mëshoj ose pësoj, sesa me mësofsha – sikurse do ta kemi vënë re të gjithë ne që përdorim korrektorin drejtshkrimor shqip të Microsoft Office.

Gjithsesi, falë luftës – të pamëshirshme – mes filtrave të spam-it dhe spammer-ëve, tani mund të flasim deri edhe për artin e gabimit drejtshkrimor, ose edhe strategjinë përkatëse.

Aq e vërtetë është kjo, sa njeriun operator në Internet mund ta quanim edhe “agjenci të gabimit.”

Gjithnjë në kontekstin e leximit të fjalëve nga makinat, dallimi mes trurit dhe softuerit (IA) u ka hyrë në punë të gjithë atyre që merren me digjitalizimin e librave për llogari të Google Books.

Shpesh, gjatë skanimit të librave të vjetër ose të dëmtuar, lexuesit elektronikë (që përdorin OCR) nuk janë në gjendje të “deshifrojnë” një fjalë të caktuar – për shkak të një pleshti që mund të jetë ekzekutuar në faqe nga një murg këtu e katër shekuj më parë, ose një kokrrize pjalmi që ka rënë nga këmba e bletës dhe është përtharë aty.

Këto fjalë të palexueshme do të kërkonin vëmendjen dhe kohën e mijëra redaktorëve, të cilët kushtojnë.

Kush është marrë ndonjëherë me OCR, do ta mbajë mend se çfarë ndeshtrashash arrin të gjejë e të “lexojë” softueri, në një imazh me cilësi të keqe.

Inxhinierët e Google kanë sugjeruar një zgjidhje shumë më elegante: t’i marrin imazhet e fjalëve që nuk e lexohen dot, dhe t’ua ofrojnë përdoruesve të Internetit, në kuadrin e protokolleve identifikuese CAPTCHA.

Kjo ngaqë ne i njohim fjalët ndryshe nga si i njeh softueri; ne nuk na ngatërrojnë pleshtat, ose kokrrizat e pjalmit.

Kijeni parasysh, herën e ardhshme që do t’ju kërkohet të futni një CAPTCHA, kur shkruani një koment për Temën: gjasat janë se po merrni pjesë në një operacion kulturor madhështor, aq sa brezat e ardhshëm do t’ju jenë mirënjohës përjetë.

Diçka si puna vullnetare dikur, por tashmë në nivel planetar.

E gjithë kjo, në emër të një census-i të përgjithshëm të teksteve të shkruara, së paku në Perëndim; provë që, megjithë kultin dhe mistikën e imazhit, Interneti mbetet një vegël e mbështetur në shkrimin.

Çfarë e dallon këtë dekadë, nga të tjerat më parë, nuk është vetëm teknologjia e harduerit, por edhe ndërveprimi, gjithnjë e më i padukshëm, i njeriut me makinën, në hapësirën virtuale.

Lexojmë ne, lexojnë edhe “ata”, cilëtdo qofshin. Deri dje, prej standardit gjuhësor prisnim që të na lejonte komunikim më të mirë mes nesh; që këtej edhe konflikti epik mes ranës dhe rërës, shtatzanisë dhe shtatzënisë, ë-ve të shumta, dhe atyre të pakta, etj.

Sot në këtë komunikim mes nesh janë futur, si palë të treta, edhe makinat – që ti të gjesh ç’kam shkruar unë për pulën e Hindit, duhet që të çojë atje një motor kërkimi; dhe motori i kërkimit s’mund ta bëjë këtë, pa e pasë lexuar më parë tekstin tim.

Edhe pse softuerin e kanë shkruar njerëz prej mishi dhe gjaku, mënyra si operon kodi, sidomos në trajtimin e teksteve, nuk i ngjan sonës.

Në shah, sa për të sjellë një shembull, ndodh e njëjta gjë – kompjuteri luan shumë më mirë se njeriu, por në një mënyrë krejt tjetër.

Për ta thënë ndryshe: ne dimë si luan pikërisht makina (meqë e kemi ndërtuar vetë), por nuk dimë me siguri si luajmë ne, ose të zotët e punës.

Pikat e takimit mes nesh dhe këtyre krijesave tonat janë të pakta; aq sa duhen mirëmbajtur.

Provoni të komunikoni me një PC, po të jetë prishur tastiera…

Provoni edhe të komunikoni me buddy-n tuaj në Internet, nga një PC me tastierë të prishur.

Duam s’duam, Interneti i ka bërë makinat (dhe softuerin) palë të treta në komunikim; dhe kur flasim për standarde, të të gjitha llojeve përfshi edhe gjuhën, nuk duhet të kemi parasysh vetëm dialektet e njerëzve, por edhe ato të makinave.

Këtu, krejt papritur, drejtshkrimi vjen e merr atribute protokollare; si e vetmja bazë që kemi, për t’u dhënë identitet të qëndrueshëm elementeve të tekstit (fjalëve).

Pa çka se ne ende s’kemi mbaruar së debatuari nëse gurët e shahut tonë kombëtar do t’i kemi prej abanozi apo prej fildishi.

Pa Komente

  1. Tek “Shën Mëria e Parisit” e Hygoit gjenden disa faqe të mrekullueshme për shkrimin, fillimisht prej guri e monopol i një elite të arsimuar, kryesisht fetare dhe impaktin që shkaktoi nga gjysma e shekullit të shkuar në kujtesën kolektive Gutenbergu.
    Dikur të lexuarit u mundësohej vetëm shkruesve. Me shpikjen e shumëfishimit këtyre të fundit u mbetej ende arra, ndonëse gurin e morën në dorë lexuesit.
    Interneti, ose teknologjitë e reja të komunikimit, nisur me shpikjen e radios dhe televizionit, e barazpeshojnë edhe më raportin autor-lexues.
    Që vetë fjala, e shkruar a e folur qoftë, të humbë në vlerë e të të kujtojë problemet që solli me vete zbulimi i plastikës (ndotja e ambjentit etj.) kjo nuk ka pse të të habisë ndokënd, pasi, nëse deri para pak dekadash të shkruaje ishte luks i një pakice, tash këtë luks e ka çdokush; për pasojë nuk është më i tillë: luks pra.
    Jo vetëm fjala pëson një fat të tillë; por edhe pamja (imazhi), apo tingulli.
    Nëse po disa dekada më parë ishte luks të dëgjoje muzikë a të shihje një pikturë, sot është luks të kesh mundësinë të shplodhësh sytë, veshët e, jo së fundmi, gojën.
    Në fillim qe fjala, në fund heshtja.
    Buzëqesh me vete këtu: një botë shurdhmemece, ja ç’na duhet, të paktën për disa ditë a orë në ditë.

  2. Mendoj se ka disa vite tashme qe nuk jemi krejtesisht ne meshire makinave te kerkimit. Cfare na ndihmojne sot jane sistemet sociale. Nje rrjet social i nje njeriu mund te shihet si nje algoritem per te zbuluar informacione te reja, (une rekomandoj nje film/liber/disk nje shoku, ai nje shoku tjeter duke i shtuar dicka rekomandimit nga vetja etj). Pra rrjetet sociale nese perdoren mire jane forme kerkimi e zbulimi social efikas. Jo me kot beteja e madhe e kerkimit sot ne luginen e silikonit eshte beteja midis google, facebook dhe twitter. Eshte nje beteje paradigmash teknologjike e sociale pikesepari qe duket se rrjetet sociale po e fitojne. Bile edhe per vete Google fillimisht algoritmi qe i mundesoi suksesin ne rradhe te pare (PageRank) ishte nje algoritem social bazuar ne “reputacion”.

    Ka nje levizje te gjere ne industrine e softuereve sot qe ta shohe boten nen nje prizem kryesisht statistikor. Filtrat e spamit perdorin metoda thellesisht statistikore. Algoritmet e perkthimit jane krejtesisht injorante ndaj gramatikes dhe ne pergjithesi vetem shohin probabilitetin e nje fjale te jete krah nje fjale tjeter. Algoritmet e klasifikimeve te teksteve jane poashtu statistikore. Te gjitha keto analiza statistikore mund te behen sot fale te dhenave masive qe nxirren nga interneti. Nese para 30 vitesh ne IA fjala statistike ishte herezi qe te kushtonte rende profesionalisht (atehere “logjika” mbreteronte si displine) tani statistika eshte mainstream. Statistika ne algoritme i lejon gabimet njerezore, e jo vetem kaq por edhe meson nga ato. Edhe pse algoritmet statistikore kane te metat e veta ato jane nje kercim i madh ne krahasim me botekuptimin “logjik” te inteligjences para pak dekadash. Nje femije nuk e meson gjuhen e nenes duke perdorur logjike e duke manipuluar simbole por duke perdorur kryesisht statistike. Algoritmet me te fuqishme sot, rrjetet neuronale artificiale jane modele te asaj cfare dime se si funksionojne neuronet dhe jane algoritme me doza te hatashme statistike. E njejta gje mund te thuhet per algoritmin e algoritmeve doren vete, evolucionin dhe seleksionin natyral qe eshte poashtu thelle thelle nje algoritem statistikor me mekanizma feedbacku. Pra jemi me afer te kuptuarit se ceshte inteligjenca dhe pyetjeve e aplikimeve te tjera qendrore.

    E megjithate nje femije nuk i duhet i gjithe interneti, mijera servera e MW ne energji per te mesuar nje gjuhe, shume shume vetem nena. Pra jemi akoma shume larg e kemi akoma kohe per te kuptuar se cdo te bejme me njohurite e reja mbi inteligjencen, gjuhen e menyren e mesimit te saj.

  3. Perqendrimi tek menyra e te mesuarit te gjuhes eshte nje reduktim i madh qe i behet sferes simbolike (jo thjesht logjike), aq me teper kur merret si shembull i vogli qe hyn ne gjuhe. Kjo skema e perfaqesimit te dyshes femije-nene, vjen pothuajse ne trajte shembelltyre te ikonave krishtere, Jezusi i vogel e Shen Meria dhe ngelet e prekur thellesisht nga sfera imagjinare e cila eshte iluzive, e manget ne trajtimin e sferes simbolike te gjuhes pra. Femija nese hyn ne gjuhe (s’eshte e thene se hyn gjithmone, rasti i autizmit) nuk meson gjuhen e ‘nenes’ por meson gjuhen e ‘Tjetrit’ pra jo te nje ‘personi’ te gjalle edhe pse ketu kjo mund te ngaterrohet nga njerezit (qeniet folese). Fatkeqesisht kjo paradigme statistikore e aplikuar kudo, nga politika deri tek tregu i mallarave te konsumit e demton botekuptimin e njeriut apo qofte edhe te inteligjences. Nuk e di pse mistifikohet kaq shume ‘metoda statistikore’ qe arrin te depertoje deri ne hamendesimin e ‘hyrjes ne gjuhe’ te te voglit e fill pas tij njeriut vete. Statistikat e perdorura ne botekuptimin psikik te individit ndeshin veshtiresi kur vjen puna tek gjuha, vete google i mban te fshehta metodat e tij te perpilimit te algoritmeve duke marre prej internet perdoruesve te te gjithe botes elemente gjuhesore (qofshin keto zanore apo te shkruar) p.sh. nga youtube por duke mos i bere te njohura per ne, kontribuesit e database-ve madhor te ketyre algoritmeve. Sigurisht pas kesaj fshihen interesa financiare e konurenciale madhore te google-t e ja pra ku dalim ne perkufizimin e vete algoritmit aq te mistifikuar, i cili eshte thjesht nje proçedure perllogaritese (ku hyjne shifrat te cilat qendrojne ne parimin e perseritjes se se njejtes, apo perseritjes se 1-shave) ne perpjekje te zgjidhjes se problemit. Por nga perpjekja tek zgjidhja e ‘problemit’ rruga nuk eshte gjithnje e drejte, imazhore apo shifrore eshte edhe simbolike.

  4. Kur flasim per simbole flasim ne kuptimin matematikor. Une vete jam skeptik ndaj prizmit statistikor sidomos te atij qe mbizoteron sot ne Luginen e Silikonit sepse ai ka te metat e kufizimet e veta por nuk jam aspak dakort qe ky prizem e demton botekuptimin per njeriun e inteligjencen. Perkundrazi, mendoj se na ndihmon jashtezakonisht qofte per botekuptimin mbi njeriun e qofte ate te inteligjences. Fakt eshte qe paradigma mbizoteruese e inteligjences artificiale deri para 25 e kusur vitesh e shihte inteligjencen pikerisht si nje manifestim te aftesise per te bere “logjike” (aka. manipulim simbolesh nen kuptimin matematikor) nuk coi kerkund dhe endrrat e pioniereve te kesaj fushe ne vitet 60 per te arritur bile tejkaluar inteligjencen njerezore brenda pak vitesh u zhgenjyen rende.

    Sot shohim triumfin e pales tjeter, te asaj qe e sheh inteligjencen jo me si manipulim simbolesh por si nje aftesi e lidhur pazgjithshmerisht me ambientin ku kjo inteligjence aplikohet, si nje efekt rrjetesh ku statistika ose edhe me sakte probabilizmi luan rol te dores se pare. Fatmiresisht sot ky debat nuk na eshte lene per tu zhvilluar ne shkallen metafizike. Kemi rezultate shume konkrete te te dy ketyre paradigmave dhe ato flasin vete, (algoritmet e klasifikimit te teksteve, ato te perkthimit automatik, makina qe ngiten vete etj etj).

  5. Ja një rezultat konkret – për ironi, i Google-it mbi “vetveten”, në një farë mënyre 🙂
    Të paktën në këtë degë paradigma ka dalë krejt bllof dhe nuk hidhet poshtë, siç do të duhej mbi bazën e logjikës së thjeshtë, vetëm sepse loja me paradigmat është në modë, dhe ngaqë është më lehtë ta lësh Google Translator-in në atë derexhe qesharake, se sa të vihesh kundra gazetarëve të paditur dhe njerëzve që ngjiten si mizat mbi nocione modash të përkohshme. Të pohosh që GT-ja është një budallallëk do të ulte vlerën e aksioneve të Google-it mandej…
    Dhe ja ku jemi përpara kësaj shakaje teknologjike të pashoqe. Mendoni një automobil që, në vend të shkojë nga një pikë A në një tjetër B, vjen anës vetes. Ose në vend që të bartë dikë nga pika A në B, e gremis nga kurrizi në gjysmë të rrugës. Kush do ta merrte seriozisht një shpikje të tillë?!?
    Kurse GT-në, falë paradigmash ku di unë se çfarë, e kemi kandidat për të zëvendësuar logjikën.

  6. Nuk e kuptova bujk per cfare rezultati konkret te translator po flisje? Translator ben shpesh gafa por eshte permiresuar goxha vitet e fundit. Nuk ben per te perkthyer Shiller natyrisht por per shume aplikime eshte “aq i mire sa duhet” (mireseerdhet tek mantra kryesore e inxhiniereve). Me aplikimet e bazuara ne paradigma logjike perkthimi automatik nuk eshte fare i mundur as me, as pa gafa. Me kujton pak ate punen e njerezve qe nuk e mesojne/flasin nje gjuhe te huaj sepse kane frike se do te bejne gafa.

    Paradigmat per te cilat flas nuk jane mode. Ato jane pikenisja kerkimore pergjate dekadave ne IA. Paradigma logjike ka mbizoteruar te pakten qe nga vitet 50 e deri ne fillim te viteve 80. Nga fillimi i viteve 90 kemi paradigmen probabilistiko/statistikore qe sidomos tani me te dhenat e Internetit ka nje dominance te padiskutueshme ne rezultate kerkimore dhe aplikime. I bie te jene 25-30 vjet mode pra.

  7. Google Translator u pru, para ndërhyrjes sime, si shembull përparimi. Si sukses i një metodologjie zhvillimi ndaj një tjetre. Për mua ky sukses është flluskë. Teksti te i cili të shpie lidhja e prurë prej meje, pasi kalon një a dy paragrafët e parë të bërë nga dora e njeriut, është krejtësisht i papërdorshëm. Nuk bëhet fjalë të përmbajë “ndonjë gafë”. Kemi një përrua fjalësh pa lidhje.
    Tani, të kërkosh që ky të pranohet si rezultat i barasvlershëm me atë që prodhon metodologjia tjetër, është e padrejtë.

    Urdhëro e shih se si ma përktheu GT-ja komentin tënd të fundit:

    Did not understand what concrete results farmer translator talk? Translator makes gafa often but has improved quite recent years. No makes to translate Shiller course but for many applications it is “good enough” (Welcome to the main mantra of engineers). Applications based on logical paradigm automatic translation is not at all possible either with or without gafa. With less that recalls the work of people who do not learn / speak a foreign language because they fear they will make gafa.

    Paradigms for which I speak are not mode. They are what started research along decades in IA. Logical paradigm has prevailed at least since the 50s until the early 80s. From the beginning of the 90 have paradigm probabilistiko / statistical especially now with the data of the Internet has an indisputable dominance in research results and applications. I fall to be 25-30 years ie mode.

    Teoritë e paradigmave në këtë fushë nuk i njoh, sepse nuk është zanati im. Por, si përdorues kompjuteri, nuk më duket se zëvendësimi i njërës me tjetrën ka sjellë ndonjë ndryshim rrënjësor. Po të heqësh lajle-lulet e anës grafike, ne përdorim në thelb po ato programe që janë krijuar këtu e dhjetëvjeçarë më parë – koha kur mbizotëronte logjika. Linux-i gjëja më e avancuar teknikisht është një “derivat” i Unix-it, dhe ky është i datëlindjes 1969. Android – produkt i Google-it – është një sendërtim i Linux-it gjithashtu.

    Ti flet për triumf të anës tjetër, duke nënkuptuar me këtë “Google, Facebook dhe Twitter”. Dhe unë po e marr të mirëqenë që me këto ti nënkupton shërbimet përkatëse, jo kompanitë. Pasi të jetë sqaruar kjo, duhet thënë se këtu padashur ngatërrohen gjërat. Që të tre shërbimet, duke filluar që nga më i hershmi kronologjikisht, Google-i, u ngritën mbi infrastrukturën e deriatëhershme, hardware dhe software, produkte të paradigmës logjike. Krejt sa mund të bëjë njeriu me Facebook-un ose me Twitter-in bëheshin edhe para lindjes së tyre, pra pa u krijuar ende baza statistikore që sot kompanitë pas tyre e përdorin për qëllimet e veta. Nga ana tjetër, unë nuk di që prej këtyre tri kompanive të ketë lindur gjë që mund të klasifikohet si produkt paradigmash të reja. Përhapja e tyre masive nuk përbën produkt, njësoj si përhapja e këpucëve Nike nuk i jep të drejtën Nike-ut të pretendojë se me ndonjë paradigmë të re revolucionarizoi këpucët, sa për një analogji.

    Pra, tabloja, sipas meje, është kjo:

    Paradigma e vjetër, logjikja, me produktet e veta i ka shërbyer lindjes dhe rritjes së vetë përfaqësuesve më famëmëdhenj të “paradigmës së re”. Pa to, Google, Facebook dhe Twitter vdesin që nesër.

    1. Nuk mendoj se nje gjuhe ekzotike si shqipja eshte test i mire i translator. Nuk ka te dhena te mjaftueshme ne Internet per shqipen ashtu sic ka fjala vjen per anglishten. Translator duhet matur me gjuhet e medha, anglisht, spanjisht gjermanisht, mandarin etj. Me sa e kam perdorur une nga gjermanishtja ne anglisht apo anasjelltas ka rezultate te pranueshme. Dhe te jemi te qarte perkthimi automatik eshte nder problemet me te veshtira sot per IA.

      Kur flasim per paradigmen logjike flasim per kete paradigme ne shpjegimin e inteligjences ku futet dhe si mund te mesohet nje gjuhe automatikisht (si e meson gjuhen nje femije, si mund ta mesoje nje kompjuter etj) e jo per rolin qe logjika si fushe ka luajtur ne dege te tjera.

Zbuloni më tepër nga Peizazhe të fjalës

Pajtohuni tani, që të vazhdoni të lexoni dhe të përfitoni hyrjen te arkivi i plotë.

Vazhdoni leximin