Apr 18 2021
Sistem de adnotare cu parti de vorbire a unui text in limbaj natural utilizand metode statistice
Postat de licenteoriginale • In Informatica, Matematica
Cuprins
Aceasta lucrare poate fi descarcata doar daca ai statut PREMIUM si are scop consultativ. Pentru a descarca aceasta lucrare trebuie sa fii utilizator inregistrat.
Extras din document
Cuprins:Introducere
1. Parti de vorbire, notatii folosite in diferite corpus-uri
1.1. Clase de cuvinte in engleza
1.2. Adnotari pentru limba engleza
1.3. Procesul de adnotare a partilor de vorbire
2. Algoritmi de adnotare
2.1. Adnotarea pe baza unor reguli (Ruled-Based) a partilor de vorbire
2.2. Gramatici de dezambiguare
2.3. Adnotarea Stochastica a partilor de vorbire
2.3.1. Exemplu de motivare
2.3.2. Algoritmul existent pentru adnotarea HMM
2.3.3. Adnotare pe baza de transformare (Transformation-Based)
2.3.3.1. Cum sunt aplicate regulile TBL
2.3.3.2. Cum se invata regulile TBL
2.4. Alte probleme de discutie
2.4.1. Adnotari multiple si cuvinte multiple
2.4.2. Cuvinte necunoscute
3. Aplicatia Visual C++
3.1. Generalitati
3.2. Realizarea aplicatiilor Visual C++
3.3. Interfata principala
3.4. Functiile aplicatiei
4. Concluzii
Bibliografie
3
5
5
12
14
17
17
19
23
23
25
26
27
28
29
29
30
32
32
33
36
40
53
54
Alte date
?Sistem de adnotare cu parti de vorbire a unui text in limbaj natural utilizand metode statistice
Introducere
Dionysius Thrax din Alexandris a creat o schita gramaticala pentru limba greaca(“techn?”) care continea informatii lingvistice pentru acea perioada. Aceasta lucrare este sursa directa a unei proportii uimitoare a vocabularului nostru lingvistic modern, incluzand printre multe alte cuvinte, sintaxa, diftongi si analogii. De asemenea sunt incluse si descrierile a opt parti de vorbire: substantiv, verb, pronume, prepozitie, adverb, conjunctie, participiu, si articol. Desi au mai fost si altii (ca Aristotle sau Stoics) care aveau listele lor cu parti de vorbire, setul de opt a lui Thrax a devenit practic, baza, pentru urmatorii 200 de ani, a tuturor descrierilor subsecventelor partilor de vorbire grecesti, latine si majoritatii limbajelor europene.
Schoolhouse Rock a fost un serial reusit de 3 minute de clipuri muzicale animate, difuzat pentru prima data la televizor in 1973. Serialul a fost realizat pentru a inspira copii sa invete tabla inmultirii, gramatica, stiinta de baza si istoria. Secventa Grammar Rock, de exemplu, includea cantece despre parti de vorbire. De fapt, Grammar Rock a fost remarcabil de traditional in scrierea gramaticala, cuprinzand exact opt cantece despre parti de vorbire (desi lista a fost usor modificata din originalul Thrax, substituind adjectivul si interjectia la originalul participiu si articol).
Listele de parti de vorbire mai recente (denumite si POS (part of speach), clase de cuvinte, clase morfologice, sau parti lexicale) au un numar mai mare de clase de cuvinte (45 pentru Penn Treebank (autor Marcus, 1993), 87 pentru corpus-ul Brown (autor Francis, 1979; autori Francis and Ku?era, 1982), si 146 pentru setul de adnotari C7 (autor Garside, 1997)).
Importanta partilor de vorbire pentru procesarea limbajului este aceea de a da o semnificativa cantitate de informatie despre cuvant si vecinii acestuia. Acest lucru este adevarat pentru majoritatea categoriilor (verb versus substantiv), dar este adevarat si pentru multe distinctii subtile. De exemplu, aceste adnotari fac diferenta dintre pronumele posesiv (my, your, his, her, its) si pronumele personal (I, you, he, me). Cunoscand faptul ca pronumele este personal sau posesiv, putem afla ce cuvant se afla in vecinatatea acestuia (pronumele posesive sunt de obicei urmate de un substantiv, iar pronumele personale de un verb).
O parte de vorbire a unui cuvant ne arata cum poate fi pronuntat un cuvant. Cuvantul content, se exemplu, poate fi un substantiv sau un adjectiv. Sunt pronuntate diferit (substantivul este pronuntat CONtent si adjectivul conTENT). Partea de vorbire poate produce o pronuntie mai naturala intr-un sistem de sinteza a vorbirii si mai precisa intr-un sistem de recunoastere a limbajului. (Alte astfel de perechi include Object (substantiv) si obJECT (verb), DIScount (substantiv) si disCOUNT (verb)).
Partile de vorbire sunt folosite foarte des in texte “de analiza partiala”, de exemplu pentru aflarea rapida a unor nume sau alte expresii, pentru aplicatii de extractie a informatiei. În concluzie, un corpus ce a fost marcat ca parte de vorbire este foarte folositor in cercetarea lingvistica, de exemplu in ajutarea gasirii unor exemple sau frecvente de constructii particulare in corpus-uri mari.
În cele ce urmeaza, se va face un rezumat a claselor de cuvinte in engleza, urmat de o descriere de diferite seturi de adnotari pentru o codare formala a acestor clase, iar in urmatoarele sectiuni se vor aborda trei algoritmi de adnotare: adnotare rule-based, adnotare stochastica, si adnotare transformation-based.
1. Parti de vorbire, notatii folosite in diferite corpus-uri
1.1. Clase de cuvinte in engleza
Pana acum s-au folosit termeni de parti de vorbire ca substantive si verbe mai mult general. În aceasta sectiune, vom da o definitie mai completa a acestora si a altor clase. Traditional, definitia partii de vorbire a fost bazata pe functii morfologice si sintactice; cuvinte ce functioneaza similar in functie de ce poate aparea in apropiere (“proprietatile lor distributive”), sunt grupate in clase. În timp ce clasele de cuvinte au tendinte spre coerenta semantica (substantivele descriu deseori “oameni, locuri, sau lucruri”, si adjectivele deseori descriu proprietati (insusiri), acesta nu este neaparat adevarat in toate cazurile, si in general nu folosim coerenta semantica ca un criteriu de definire pentru partile de vorbire.
Partile de vorbire pot fi impartite in doua super-categorii: tipuri de clase inchise si tipuri de clase deschise. Clasele inchise sunt cele care au legaturi relativ fixe. De exemplu, prepozitiile sunt o clasa inchisa pentru ca ele, in engleza, sunt un set fix; prepozitii noi sunt inventate rar. Prin contrast substantivele si verbele sunt clase deschise pentru ca substantive si verbe noi sunt descoperite in continuu sau sunt imprumutate din alte limbi (de exemplu, noul verb to fax sau substantivul imprumutat futon). Este posibil ca orice vorbitor sau corpus sa aiba diferite cuvinte din clase deschise, dar toti vorbitorii unei limbi, si grupari, ce sunt destul de mari, partajeaza cuvintele clasei inchise. Cuvintele claselor inchise sunt, in general, si cuvinte functionale; acestea (cuvintele functionale) sunt cuvinte gramaticale ca of, it, and sau you, care tind sa fie foarte scurte, apar frecvent, si joaca un rol important in gramatica.
Sunt patru clase deschise majore intalnite in limbile vorbite in ziua azi in lume: substantive, verbe, adjective si adverbe. Se pare ca in engleza le gasim pe toate patru, desi nu toate limbile vorbite le au. Multe dintre ele nu au adjective. În limba nativa americana Lakhota, de exemplu, si de asemenea posibil in chineza, cuvinte care in engleza corespund adjectivelor, au rol de subclase a verbelor.
Orice limba vorbita pana acum are cel putin cele doua categorii de substantiv si verb (desi in unele limbi, de exemplu in Nootka, distinctia este subtila). Substantivul este numele dat clasei lexicale in care exista cuvinte pentru oameni, locuri, sau lucruri. Dar, cum clasele lexicale, ca substantivul, sunt definite mai mult din punct de vedere functional (morfologic sau sintactic), decat semantic, unele cuvinte pentru oameni, locuri si lucruri s-ar putea sa nu fie cuvinte pentru oameni, locuri sau lucruri. Astfel substantivele includ termeni concreti ca ship si chair,abstracti ca band-width si relationship, si termeni ca verbe, cum este pacing in His pacing to and fro became quite annoying. Ceea ce defineste un substantiv in engleza asadar, sunt lucruri cum ar fi abilitatea lui de a exista cu determinanti (a goat, its bandwidth, Plato`s Republic), de a trece la forme posesive (IBM`s annual revenue), si pentru majoritatea substantivelor, de a exista in forme de plural (goats, abaci).
Traditional, substantivele sunt grupate in substantive proprii si substantive comune. Substantivele proprii, ca Regina, Colorado si IBM, reprezinta numele unei persoane sau a unei entitati. În engleza, ele nu sunt, in general, precedate de articole (de exemplu, the book is upstairs, dar Regina is upstairs). In engleza scrisa, substantivele proprii sunt capitalizate de obicei.
În multe limbi vorbite, inclusiv in engleza, substantivele comune sunt impartite in substantive numarabile si substantive nenumarabile. Substantivele numarabile sunt cele care se pot numara gramatical; deci, ele pot aparea atat in forma de singular, cat si in forma de plural (goat/goats, relationship/relationships) si pot fi si numarate (one goat, two goats). Substantivele nenumarabile sunt folosite atunci cand ceva este vazut ca un intreg. Cuvintele ca snow, slat si communism nu se pot numara (contraexemplu *two snows sau *two communisms). Substantivele nenumarabile pot aparea, de asemenea, si fara articol, spre deosebire de substantivele numarabile la singular (Snow is white dar nu si *Goat is white).
Clasa verbelor include majoritatea cuvintelor ce se refera la actiuni si procese, inclusiv verbe principale cum ar fi draw, provide, differ si go. Verbele in engleza au un numar de forme morfologice (persoana 1 si a 2-a singular (eat), persoana a 3-a singular (eats), progresiv (eating), participiu trecut eaten).
Documente similare
· Sistem de adnotare cu parti de vorbire a unui text in limbaj natural utilizand metode statistice· Proiectarea unui sistem informational (S.C. XYZ S.A.,)
· Realizarea unui sistem OLAP (S.C. XYZ S.R.L.)
· Automatizarea unui sistem de productie a automobilelor
· Sistem distribuit de monitorizare si control a unui proces
· Elaborarea specificatiilor de proiectare ale unui sistem informatic (S.C. XYZ S.R.L.)
· Implementarea unui sistem administrativ pentru un camin de studenti
· Proiectarea unui sistem de actionare electrica intr-o cascada
· ANALIZA NECESITATII IMPLEMENTARII UNUI SISTEM DE ASIGURARE A CALITATII IN SPITALULFINALA
· ANALIZA, PROIECTAREA SI REALIZAREA UNUI SISTEM INFORMATIC PENTRU ACTIVITATEA DE.doc