Pagina documente » Informatica, Matematica » Data mining. Procesul de text mining

Cuprins

lucrare-licenta-data-mining.-procesul-de-text-mining
Aceasta lucrare poate fi descarcata doar daca ai statut PREMIUM si are scop consultativ. Pentru a descarca aceasta lucrare trebuie sa fii utilizator inregistrat.
lucrare-licenta-data-mining.-procesul-de-text-mining


Extras din document

Cuprins :
Data mining 1
Text mining 18
Procesul de text mining 38
Identificarea si regasirea evenimentelor
In articole de presa 51

Alte date

?I. Data mining

Date, de la inanitie la suprasaturatie

În ultimii ani asistam la o crestere exploziva a capacitatii de a genera si colecta date. Progresele realizate in colectarea datelor, computerizarea majoritatii tranzactiilor de afaceri si guvernamentale produc o avalansa de informatii . Se discuta din ce in ce mai mult despre oceanul de date, care in literatura de specialitate se numeste „ubiquitous“ . Acest termen nu are o traducere exacta si nici o semnificatie foarte precisa. El se refera la datele care urmaresc in mod aproape invizibil viata de zi cu zi a omului modern. Originile acestor date sunt diferite, iar existenta lor, aproape insesizabila cu ochiul liber. Ele provin din cele mai diverse surse, de la dispozitivele cele mai simple, cum ar fi telefoanele digitale, automatele de eliberat numerar, si pana la baze de date complexe, legate de evidenta populatiei, sanatate, circulatie etc.

Astfel, afirmatii ca “ Se consuma cantitati din ce in ce mai mari,dar se digera din ce in ce mai greu cele ingerate“ au intrat de mult in folclorul informaticii economice. Se impune stabilirea unei clare distinctii intre date si informatii, deoarece abundenta de date nu presupune si informatii pe masura.

Aparitia Internetului a dus la o crestere exponentiala a informatiilor. Practic, este foarte greu de imaginat cantitatea de informatii vehiculata intre cele 13.000.000 4 de calculatoare, cate se apreciaza a cuprinde in acest moment Internetul. Tinind seama ca numarul calculatoarelor legate in Internet se dubleaza in fiecare an, se poate estima usor uriasul volum de date care se ascunde in spatele lui.

Excavarea cunostintelor

Pentru luarea unor decizii, sint necesare cunostinte. Drept urmare, o atentie deosebita va trebui acordata extragerii cunostintelor din date.

Daca datele sunt relativ putine, analiza se poate realiza simplu, manual, de catre specialisti din diferite domenii sau statisticieni, adesea numiti „mineri“ sau „excavatori manuali de date“. Adevaratele probleme dint ridicate insa de “muntii de date”.

Pentru astfel de volume de mari dimensiuni continind date amorfe, sunt necesare instrumente speciale pentru extragerea cunostintelor. Este si motivul aparitiei unei noi discipline denumita Data Mining (DM), Knowledge Discovery (KD), Knowledge Discovery in Databases (KDD), Information Discovery (ID), sau Information Archeology (IA) etc., fiecare dintre denumiri avind propria justificare.Se impune precezarea ca unii autori fac deosebire intre unele dintre acestea, de exemplu intre DM si KDD sau KD.

Data mining -scurt istoric

Inca de la inceputurile prelucrarii electronice a datelor, fundamentare automata a deciziilor a reprezentat o adevarata provocare pentru cercetarori, matematicieni sau apartinind altor ramuri corelate intr-o oarecare masura cu lumea in continua expansiune a calculatorului.Rezultatul imediat al cercetarilor sustinute a fost o noua paradigma: “machine learning”. Conform notiunii tocmai nascute, un calculator, “alimentat” cu un numar de observatii despre cazuri cunoscute si rezolvate ar putea dezvolta un set de reguli care sa fie universal valabile.Transpunerea in termeni umani s-ar putea regasi in cazul unui observator care incearca sa stabileasca setul de reguli al unui joc doar asistind la derularea acestuia in conformitate cu regulile specifice.Foarte probabil ca, dupa asistarea unui numar suficient de mare de partide, sa fie capabil stabili setul de reguli.Putin probabil insa, ca aceasta idee sa fi animat mintea lui Frank Rosenblatt, cind, la inceputul anilor 60 a dezvoltat faimosul perceptron, unul dintre precursorii retelelor neuronale moderne.Desi o realizare pentru acel moment, perceptronul se dovedeste limitat de tipurile de probleme carora le poate oferi solutii .In 1969, dupa ce Minsky si Papert realizeaza o retea neuronala cu o arhitectura mult mai complexa si sint stabilite cu certitudine limitarile perceptronului cercetarile in domeniu vor fi dedicate cu precadere unei noi abordari.

Aceasta presupune renuntarea la idee fundamentala a paradigmei anterioare.Nu se va mai pretinde calculatorului descoperirea unui set de regului pe baza unor exemple, ci se va considera ca aceste reguli, existente prin influenta lor in setul de exemple, “hranesc” calculatorul.Aceasta presupune codificarea manualului de regului si realizarea unor programe care sa il consulte intr-un mod inteligent. In acest sens, la inceputul anilor 70 se realizeaza citeva sisteme expert, al caror potential s-a dovedit ulterior mult peste nivelul asteptat de cercetatori.Interesul pentru astfel de produse se mentine si in anii 80, insa criticii devin tot mai sceptici referindu-se la capacitatea acestora de a-si atinge adevaratul potential.Neincrederile erau alimentate in parte de investitia masiva necesara realizarii si mentinerii unei baze de cunostinte, in parte de limitarile existente in realizarea de sisteme expert, care nu au fost nicicind dezvoltate pina la un nivel care sa le permita “emularea” unui expert uman.

In aceste conditii, la mijlocul anilor 80, momentul se dovedea propice unei revitalizari a domeniului, iar noua generatie de cercetatori realizeaza retele neuronale tot mai complexe, crescind corespunzator complexitatea problemelor pentru care se puteau oferi solutii.Apareau ca elemente de noutate retelele cu doua straturi de neuroni si algoritmul backpropagation, ca avantaje solide fata de perceptron.Raspindirea noilor arhitecturi este rapida, aplicatiile se regesesc in variate domenii, astfel ca in 1987 lumea este martora primei Conferinte de Retele Neuronale ce se desfasoara la San Diego, California. Concomitent multe dintre companii isi realizeaza structurarea datelor in baze de date de mari dimensiuni,creind astfel volume impresionante de date, o resursa fundamentala in realizarea prelucrarilor.

Consecinta imediata este aparitia, la sfirsitul anilor 80, a unei noi notiuni -“regasirea cunostintelor in baze de date”- al carei obiectiv era inlocuirea tuturor termenilor vechi ce denumeau tehnicile de determinare a similaritatilor dintre date sau a pattern-urilor.Cercetatorii din domeniile inteligentei artificiale si machine learning adopta rapid noua paradigma si modifica procesul extregerii cunostintelor din baze de date in sensul plasarii in centrul intregului proces analiza si interpretarea rezultatelor obtinute.In acest context, “data mining” referea acea faza a procesului in care erau aplicati algoritmi specifici de regasire a cunostintelor. Aceasta interpretare a fost formalizata la prima Conferinta Internationala asupra KDD, gazduita de Montreal in 1995. Recent, ca urmare a interesului suscitat de notiune in tot mai multe domenii, noi utilizatori ai termenului, apartinind presei de cele mai multe ori, au largit sfera acesteia. Astfel, data minig desemneaza in noua acceptiune procesul de extregere a cunostintelor din baze de date in ansamblu.

Definire

Domeniul fiind in plin proces de conturare, numarul definitiilor este mare, fie ele simpliste si intuitive- „ extragerea informatiilor predictive ascunse din bazele mari de date“ , „torturarea datelor pana cand acestea se confeseaza“ – sau complexe si elaborate.

Se impune necesitatea unui cadru in care sa pozitionam componentele in vederea unei mai bune intelegeri.In figura ... sint redate componentele unui mediu orientat pe data mining si interactiunea dintre ele.

Utilizator

Baza de date Instrumente Instrumente de

data mining vizualizare

Fig1.1 Compomentele unui mediu orientat Data Mining

Urmatoarea definitie poate fi considerata suficient de cuprinzatoare pentru a fi acceptata:

“Data mining reprezinta procesul de extragere a informatiilor anterior necunoscute, valide si operationale din baze de date de mari dimensiuni in scopul utilizarii informatiilor astfel obtinute in fundamentarea deciziilor .”

Cuvintele evidentiate reprezinta esenta procesului de data mining si ajuta la explicarea diferentelor fundamentale dintre acesta si metodele traditionale de analiza a datelor, cum ar fi cererile de regasire, realizarea rapoartelor, metodele din statistica sau OLAP.

Particularitatea esentiala a procesului de mining este data de obiectivul acestuia: descoperirea unor cunostinte fara formularea prealabila a unor ipoteze.

Informatiile descoperite trebuie sa fie necunoscute anterior.Desi aparent conditia pare satisfacuta, adevaratul sens se refera la posibilitatea existentei unor ipoteze anterioare referitoare la date. O astfel de situatie dispare din sfera mining-ului, incompatibil cu verificarea ipotezelor anterior formulate.

Intr-un proces de mining nu sint cautate informatii intuitive, ci poate tocmai acele cunostinte care contravin intuitiei.Potentialul cunostintelor achizitionate este cu atit mai mare cu cit ele sint mai departate de calea fireasca, asteptata, pe care intuitia o putea creiona usor.Se realizeaza astfel impingerea limitelor imaginatiei umane.

Informatiile obtinute trebuie sa fie valide . Acest element al definitiei realizeaza corelatia cu notiunea de “supraoptimism” in data mining:dupa o cautare asidua in colectii de date de mari dimensiuni, informatii de interes vor iesi la iveala mai devreme sau mai tirziu.In aceeasi masura, insa, se pot obtine informatii viciate, continind corelatii inselatoare, a caror utilizare poate induce grave prejudicii. Este si motivul pentru care merita subliniata importanta validarii datelor obtinute prin procesul de mining.

Ultimul atribut al informatiilor obtinute printr-un proces de mining este si cel mai important: vor trebui sa fie operationale.Satisfacerea acestei cerinte asigura “transpunerea” datelor in avantaje.In multe dintre cazuri, insa, obtinerea unor date ce pot fundamenta deciziile nu este deloc simpla.De exemplu, aplicarea unui proces de mining asupra unor colectii de date din trecut poate deduce existenta unor oportunitati pe care utilizatorul le-a sesizat la timpul potrivit, fructificindu-le corespunzator. Este un exemplu care ilustreza un rezultat neasteptat si inutil al procesului, si anume, redundanta.In aceeasi masura, exploatarea unei aparente oportunitati poate necesita utilizarea unor date dificil de achizitionat sau inaccesibile din ratiuni legale.

Succesul implementarii procesului de data mining depinde, in ultima instanta, de abilitatea utilizatorului de a utiliza cunostintele obtinute in fundamentarea deciziilor sale.

Managementul cunostintelor

Dezvoltarea rapida a noilor tenhologii si patrunderea lor in tot mai multe dintre sferele actititatii umane genereaza modificari in modul de generare si utilizare a informatiilor. Atributele esentiale ale informatiilor au capatat noi valente, fie ca este vorba de volumul informatiei, disponibilitatea sau importanta acesteia.” A naviga” printre aceste cunostinte, a desprinde un sens al lor a devenit deja o arta. O solutie pentru utilizarea eficienta a volumului mare de informatii eterogene cu care fiecare organizatie se confrunt isi propune sa ofere Managementul Cunostintelor,( KM) definit ca procesul de “capturare” a intregii experiente acumulate intr-o organizatie si directionarea acesteia catre punctele in care beneficiile aduse pot fi maxime.

Componentele KM

Bazele de cunostinte se refera la cunostintele asimilate de organizatie. Ele pot fi continute de documente, rapoarte de cercetare sause regsesc stocate in baze de date, datawarehouse-uri sau data mart-uri.

Distributia cunostintelor presupune cunoasterea deficientelor informationale ale unui anumit departament si realizeaza orientarea fluxurilor informationale catre aceste puncte.

Descoperirea cunostintelor realizeaza identificarea unor informatii necunoscute si care se pot dovedi folositoare in activitatea organizatiei.