Erion::Blog

Programimi, kompjuterat, njerezit, dhe vogelsira te tjera si keto…

Shkrime Te Reja

Kategorite

Shkrime Te Kaluara

Erion Elmasllari

Diplomuar ne 2001 per Shkenca Kompjuterike ne AUBG. Programues per aplikime desktop, LAN, Web, dhe per faqe Interneti, me 6 vjet pervoje ne punen me kompani private, shteterore dhe OJQ. Kjo faqe mbledh mendimet dhe pervojen time, me shpresen se se bashku do te ndryshojme dicka nga gjendja e tanishme e informatikes shqiptare.

Ide per tema diplome ne Informatike

21/01/2007 nga Erion Elmasllari

U be ca kohe qe nuk kam shkruar gje, kryesisht ngaqe kur kam une frymezim nuk ka drita, dhe kur vijne dritat duhet te shfrytezoj kohen dhe te punoj (qe, midis te tjerave, te paguaj dhe faturen e dritave - cfare ironie!). Sidoqofte po hap nje teme te re, dhe dua dhe ndihmen tuaj per kete: Te sugjerojme tema diplome qe studentet qe lexojne kete faqe te mund te zgjedhin dicka qe ju pelqen. Do ishte mire qe bashke me titullin e temes, apo nje pershkrim se cfare duhet te bejne, t’u jepnim edhe nje pike fillimi - nje faqe web ku shpjegohet ndonje teknike qe hyn ne pune, a ndonje liber a tutorial. Po e filloj une atehere, dhe mos me lini vetem! :)

Tema: Ndertimi i nje programi klasifikues automatik te skedareve sipas permbajtjes tekstuale

Pershkrimi: Problemi kryesor i emaileve sot eshte SPAM-i, qe perben edhe deri ne 80-90% te emaileve qe na vijne. Ka vite qe per te luftuar SPAM-in perdoret klasifikimi automatik nepermjet filtrave, qofshin keta filtra qe kerkojne vetem fjale te caktuara (keyword-based spam filters), ose filtra qe mesojne te dallojne emailet SPAM ne varesi te permbajtjes (bayesian filter). Filtrat keyword-based kane humbur rendesine e tyre sepse spamistet kane gjetur menyra per ti anashkaluar, ndersa filtrat bayesiane jane teknologji qe sot perdoret gjeresisht. Kjo teme zgjeron perdorimin e filtrave bayesiane, duke i perdorur ata per klasifikimin e cdo permbajtjeje tekst ne dy kategori - psh jo vetem “spam” dhe “jo spam”, por edhe “kerkesa” dhe “oferta”, “personale” dhe “te punes, “hardware”/”software”, “party qe ia vlen”/”party qe s’ia vlen”, “artikull”/”reklame e maskuar si artikull” etj etj.

Te krijohet: Nje program/sistem, ne cfaredo gjuhe programimi te deshironi, qe duke i dhene nje permbajtje teksti (skedar, pipe, etj), te thote ne cilen prej dy kategorive te zgjedhura nga ju hyn ky tekst. Per te trajnuar programin qe ti dalloje tekstet e seciles kategori, programi duhet te kete dhe nje funksion trajnimi, ku ti jepet teksti dhe emri i kategorise, dhe programi ta perdore kete jo per tu pergjigjur, por per te freskuar menyren e vet te kategorizimit te informacionit.
P.sh. ne commandline:

$ klasifiko --trajnohu skedari1.txt=oferte
$ klasifiko --trajnohu skedari2.txt=oferte
$ klasifiko --trajnohu skedari3.txt=kerkese
...
$ klasifiko skedari_panjohur.txt
kerkese

Adrese ndihmese: http://www.paulgraham.com/spam.html (ky eshte nga artikujt e pare qe diskutuan kete teknike, dhe referon edhe materiale te tjera)

Kujdes: Interneti eshte plot me implementime te ketyre koncepteve. Eshte ne nderin dhe krenarine tuaj te paraqitni dicka qe e keni bere vete. Nese e ndieni te nevojshme te paraqisni punen e dikujt tjeter si tuajen, ndoshta keni ngaterruar degen?

Vendosur ne Ide per diplome, Programim |

Komentet jane mbyllur.

copyright © 2006 by Erion::Blog