Pagina documente » Informatica, Matematica » Produs program pentru laboratorul de lingvistica

Cuprins

lucrare-licenta-produs-program-pentru-laboratorul-de-lingvistica
Aceasta lucrare poate fi descarcata doar daca ai statut PREMIUM si are scop consultativ. Pentru a descarca aceasta lucrare trebuie sa fii utilizator inregistrat.
lucrare-licenta-produs-program-pentru-laboratorul-de-lingvistica


Extras din document

Cuprins
1. Introducere ..... 1
1.1 Procesarea limbajelor naturale .............. 1
2. Extragerea informatiei ...3
2.1 Introducere.............3
2.2 Extragerea informatiilor si limbajele naturale..5
2.3 Tipuri de sisteme de extragere a informatiei ( IE systems ).6
2.4 Tipuri de sisteme comerciale de extragere a informatiei....11
2.5 Partile componente ale unui sistem de extragere a informatiei............12
2.6 Utilizarea analizei partiale a frazei..............16
2.7 Analiza discursului (textul liber).18
2.8 Sisteme de procesare a limbajelor naturale ..19
2.9 Probleme referitoare la extragerea informatiei 23
2.10 Dezvoltarea de sisteme de extragere a informatiei.........24
3. Modalitati de realizare a unui analizor semantic de texte.........25
3.1 Utilizarea generatoarelor de analizoare lexicale si sintactice..............25
3.2 Utilizarea bazelor de date sub forma de dictionare electronice............52
4. Aplicatie integrata de analiza a textelor pe baza unui dictionar on-line......53
4.1 Prezentare de ansamblu a aplicatiei generale...53
4.2 Prezentarea aplicatiei de analiza de text
in contextul aplicatiei generale...55
4.3 JDBC - Java Database Connectivity............57
4.3.1 Utilizarea JDBC.........58
4.3.2 Tipuri de drivere JDBC.60
4.3.3 Lansarea unui driver.....61
4.3.4 JDBC pentru aplicatii...62
4.3.5 Conectarea efectiva la o baza de date63
5. Analizatorul de text - modalitati de utilizare
a dictionarelor on-line in extragerea informatiei............64
5.1 Prezentare detaliata a
analizorului de text - modalitati de realizare si implementare.........69
5.2 Modalitati de cautare a informatiei in text.......73
5.3 Modalitati de cautare a informatiei in dictionar.78
6. in loc de concluzie83
Bibliografie..85
1

Alte date

?

?

Produs program pentru laboratorul de lingvistica

1. Introducere

1.1 Procesarea limbajelor naturale

Domeniul de actiune al procesarii limbajelor naturale (NLP – Natural Language Processing) s-a schimbat dramatic in ultimii ani. Daca acum cinci ani problemele in acest domeniu se concentrau doar pe aspecte teoretice, cum ar fi reprezentarea cunostintelor, astazi s-a ajuns la aplicatii specifice, sisteme de evaluare si, mai mult, la sisteme de procesare a limbajelor naturale pe scara larga.

Problema care se pune in momentul actual este nevoia de a introduce metode de analiza a limbajului scris si vorbit pe baza unei munci de culegere a acestuia utilizand multitudinea de texte incluse in text-corpora ( o colectie vasta de texte, limbaj scris si vorbit). Acest lucru se poate realiza folosind dictionare electronice in ideea de a dezvolta sisteme rapide de analiza. În acest sens guvernul SUA a demonstrat un interes deosebit nu numai in cazul procesarii de corpora in limba engleza, dar si pentru alte limbi. Procesarea de corpora in limba engleza a devenit, astfel, o baza de dezvoltare pentru aplicatii de interes in diferite limbaje, altele decat cele anglo-saxone.

Interesul pentru acest domeniu s-a materializat intr-o forma institutionalizata, punandu-se astfel bazele “Consortiului Lingvistic ( Linguistic Data Consortium )” la Universitatea Pennsylvania (Pennsylvania University ) si a “Consortiului de Cercetare Lexicala ( Consortium for Lexical Research) ” la Universitatea din New Mexico ( New Mexico State University ) cu ajutorul unor fonduri guvernametale. Prin aceasta s-a dorit consolidarea resurselor teoretice obtinute pana atunci, cooperarea internationala in documentarea si cercetarea in domeniu. Dar, poate cel mai mult, s-a dorit, realizarea si testarea de sisteme de analiza a limbajelor naturale, care puteau astfel fi testate pe scara larga in dorinta de a obtine performante mai bune. S-a dorit, prin aceasta, realizarea de conexiuni cu baze de date ce contin parti de corpora scrisa sau vorbita care sa permita extragerea rapida a informatiei din texte de dimensiuni medii si mari.

Vorbirea libera este, fara nici un dubiu, esenta limbajului natural. Anumiti lingvisti au iterat pericolul pe care il reprezinta privirea pur automatizata asupra limbajului natural, aratand faptul ca vorbirea libera este un proces continuu evolutiv care nu poate fi inclus intr-o rigurozitate totala impusa de un produs program definitoriu. Totusi, firma IBM a reusit sa incorporeze metodologia vorbirii intr-o masina de traducere bazata pe o vasta corpora in mai multe limbi.

Dar aceste aplicatii de anvergura in domeniul analizei limbajelor naturale nu sunt specifice numai Statelor Unite. Astfel, in Japonia, analiza limbajelor naturale sta la baza realizarii proiectului “ Generatia a 5 –a ( the Fifth Generation Project )”. Acest proiect pune accentul pe interpolarea dintre analiza limbajelor naturale si inteligenta artificiala ca un tot unitar. Aceasta abordare este unica, spre deosebire de abordarile europene sau americane. “Centrul de Cercetare Dictionare Electronice ( The Electronic Dictionary Research Center ) “ a fost creat la Tokyo pentru a studia si accentua rolul pe care dictionarele electronice de mare anvergura il au in realizarea unei analize a limbajelor naturale de o acuitate ridicata.

În Europa a existat proiectul Eurotra , o masina de traducere automata finantata de Uniunea Europeana timp de 10 ani, in ideea de a realiza o traducere multilingva cu cel putin calitatea sistemului Systran ( un cunoscut sistem de traducere automata multilingva implementat in SUA ). Totusi, in final, s-a renuntat la proiect chiar daca perioada de “training” – acumulare si invatare - a masinii a fost destul de indelungata.

Mult mai productive au fost proiectele de mare anvergura in domeniul analizei lexicale precum Aquilex si Genelex care au avut ca scopuri aceleasi ca si cele din SUA sau Japonia, dar cu o modalitate diferita de abordare a problemelor, rezultate din cooperarea internationala necesara unui organism ca Uniunea Europeana.

2. Extragerea informatiei

1.1 Introducere

Numarul de texte care se afla la un moment dat in format electronic poate depasi imaginatia celui mai vizionar lingvist sau specialist in domeniul analizei limbajelor naturale, pe baza unei corpora de limba vorbita sau scrisa. Totusi, aceasta imensa cantitate de informatie poate fi ignorata deoarece nici o fiinta umana nu poate citi, intelege si sintetiza megabytes de text dintr-o vasta panoplie de domenii. Informatii neglijate si oportunitati pierdute la un moment dat din cauza marginirii capabilitatilor fiintei umane i-a determinat pe specialisti sa dezvolte diferite strategii de management informational pentru a stabili reguli stricte in “jungla” informationala actuala.

Astfel, cele mai comune strategii sunt captarea informatiei utile ( IR – Information Retrieval ) si filtrare informatiei. O abordare relativ noua a celei din urma poarta numele de extragerea informatiei ( IE – Information Extraction ).

Putem vedea sistemele de captare a informatiei utile ( IR systems ) ca niste combine agricole care “aduna” material folositor din texte din domenii diferite, aflate sub forma electronica. Cu cantitati deosebite de informatie astfel culeasa, un sistem de extragere a informatiei ( IE system ) poate transforma acest vast material, prin rafinare si reducere, la un format asemanator cu textul initial dar cu posibilitati mult mai mari de regasire a informatiei. Sa presupunem ca un analist financiar investigheaza productia de semiconductori a unei companii producatoare de astfel de subansamble. Astfel, el este interesat de anumite lucruri, cum ar fi:

- care sunt produsele chimice care trebuie incluse in procesul de productie aflate in depozitele intreprinderii;

- cat de subtiri sunt semiconductorii obtinuti;

- temperatura de productie;

- cine utilizeaza produsul astfel obtinut.

Astfel de informatii sunt adesea regasite in diverse articole din ziare si reviste de specialitate. În acest moment sistemele de captare a informatiei utile ( IR systems ) pot colecta articolele cu texte relevante in acest domeniu si in acesta problema, in particular. Sistemul de extragere a informatiei ( IE system ) porneste cu o colectie de astfel de texte filtrate dupa domeniul specific al problemei prezentate anterior. Apoi le transforma in informatii care pot fi mult mai bine citite si analizate de catre specialistul in cauza.

Sistemul de extragere a informatiei ( IE system ) “izoleaza” fragmente de text relevante pentru aspectele problemei, extrage informatia relevanta din aceste fragmente si apoi aseaza informatia ceruta intr-o forma coerenta, usor de citit si analizat. De exemplu, un articol poate cuprinde informatii referitoare la diferite substante chimice, temperaturi, procese si specificatii tehnologice, insa, doar una sau mai multe informatii dintre acestea este de interes pentru un specialist. De aceea, scopul sistemului de extragere a informatiei ( IE system) este de a gasi si lega informatii relevante concomitent cu ignorarea celor ce nu sunt relevante sau sunt redundante.

Sistemul de extragere a informatiei ( IE system ) are numeroase posibilitati de utilizare. De exemplu, informatia disponibila intr-un text nestructurat poate fi translatata in baze de date pe care diferiti utilizatori le pot interoga standard, in dorinta de a obtine informatii utile si necesare. De exemplu, dorim sa obtinem informatii referitoare la profitul obtinut de societati de exploatare forestiera dintr-o anumita tara si sa le comparam cu cele din alta tara. Informatia relevanta cuprinde numele companiei, nationalitatea, apartenenta la industria forestiera si marimea defalcata pe domenii a profitului companiei respective. Un sistem de extragere a informatiei ( IE system ) in acest domeniu care studiaza stirile din domeniu poate updata o baza de date odata ce informatiile cautate devin disponibile si satisfac cerintele exprimate anterior. Astfel, acest sistem determina noile aparitii in domeniu, cu informatiile atasate corespunzator referitoare la cerintele respective ale problemei.

Alte sisteme de extragere a informatiei ( IE systems ) pot procesa diferite canale de stiri, agentii de presa, obtinand informatii referitoare la intalnirile dintre diferite personalitati marcante ale momentului, formarea de noi companii, sau anunturile legate de aparitia a noi produse pe piata.

1.2 Extragerea informatiei si limbajele naturale

Din punctul de vedere al analizei limbajelor naturale, extragerea informatiei este atractiva din mai multe motive, printre care se afla si acestea:

- extragerea informatiei este bine definita;

- sistemele de extragere a informatiei ( IE systems ) folosesc texte comune ce contin fragmente de corpora ( limbaj scris si vorbit );

- sistemele de extragere a informatiei ( IE systems ) rezolva o serie de probleme importante si interesante in cadrul analizei limbajelor naturale;

- performata sistemelor de extragere a informatiei ( IE systems ) poate fi comparata cu cea umana, din punct de vedere a realizarii acelorasi sarcini;

Faptul ca perfomantele sistemelor de extragere a informatiei ( IE systems ) pot fi comparate cu cele umane in aceleasi domenii, a atras atentia a numerosi specialisti dar si a diferitelor agentii guvernamentale, care au pus bazele in SUA a proiectului “ ARPA’s Tipster Text Program ”, care coordoneaza numeroase grupuri de cercetatori si agentii guvernamentale in incercarea de a imbunatati performantele sistemelor de colectare si de extragere a informatiei ( IE systems ).

O mica diferenta fata de sistemele de extragere a informatiei ( IE systems ) din text o reprezinta sistemele de extragere a cunostintelor (Knowledge Extraction Systems).

Sistemele de extragere a cunostintelor (Knowledge Extraction Systems) trebuie sa faca fata acelorasi tipuri de probleme intampinate si de sistemele de extragere a informatiei ( IE systems ), dar spre deosebire de acestea din urma, sistemele de extragere a cunostintelor (Knowledge Extraction Systems) cauta sa deduca o regula de baza sau model de domeniu pe baza tehnica a textului analizat. Acest efort include o puternica componenta-masina care poate ”invata” alaturi de componenta standard de analiza a limbajului natural. Sistemul de extragere a cunostintelor (Knowledge Extraction System) se bazeaza pe ideea sistemelor expert sau a sistemelor decizionale. Acest proiect referitor la sistemele de extragere a cunostintelor (Knowledge Extraction Systems) este unul mult mai indraznet decat cel al sistemelor de extragere a informatiei ( IE systems ), in care rezolvarea problemelor implicate de utilizarea lor in analiza limbajelor naturale se leaga, in mare parte, de completarea unui formular rezultat din metodele de “invatare” ale sistemului.

1.3 Tipuri de sisteme de extragere a informatiei ( IE systems )