Pagina documente » Informatica, Matematica » Verificarea vorbitorilor folosind o retea neurala de tip Kohonen

Cuprins

lucrare-licenta-verificarea-vorbitorilor-folosind-o-retea-neurala-de-tip-kohonen
Aceasta lucrare poate fi descarcata doar daca ai statut PREMIUM si are scop consultativ. Pentru a descarca aceasta lucrare trebuie sa fii utilizator inregistrat.
lucrare-licenta-verificarea-vorbitorilor-folosind-o-retea-neurala-de-tip-kohonen


Extras din document

Cuprins:
1. INTRODUCERE
Prezentare generala
Obiectul lucrarii
2. NOTIUNI GENERALE DESPRE VORBIRE
2.1. Mesajul vocal. Semnalul vocal
2.2. Mecanismul producerii vorbirii
2.3. Proprietatile statistice ale semnalului vocal si analiza spectrala a semnalului vocal
2.4. Variabilitatea
2.5. Aplicatii si modele de decizie
CAP. 3 ETAPELE PARCURSE IN PRELUCRAREA SEMNALULUI SI CODAREA INFORMATIEI
3.1. Tehnica ferestruirii
3.1.1. Fereastra Hamming
3.2. Transformata Fourier si analiza Fourier de timp scurt
3.2.1. Transformata Fourier
3.2.2. Calculul transformatei Fourier discrete
3.2.3 Decimare in timp
3.3. Codarea perceptiva
CAP. 4 RETEAUA NEURONALA DE TIP KOHONEN
4.1 Conceptul de autoorganizare
4.2 Motivatii pentru folosirea retelei neurale de tip Kohonen
4.3 Reteaua Kohonen
4.3.1. Principiile ce stau la baza retelei neuronale SOM:
4.3.2. Structura retelei
4.3.3. Instruirea retelei
4.3.4. Rafinarea ponderilor
4.3.5 Algoritmul de instruire al retelei
CAP.5 BAZA DE DATE
4.1. Descrierea sistemului
4.2 Achizitionarea si prelucrarea semnalului vocal
1

Alte date

?

VERIFICAREA VORBITORILOR FOLOSIND O

RETEA NEURALA DE TIP KOHONEN

1. INTRODUCERE

1.1. Prezentare generala

In zilele noastre prelucrarea semnalului vocal se regaseste in tot mai multe domenii de activitate cum ar fi: transmisiuni (pe canale telefonice, canale radio), inregistrari sonore, medicina (patologia laringelui), lingvistica (studierea limbilor straine) si nu in cele din urma in recunoasterea automata a vorbirii.

Prelucrarea semnalului vocal a aparut din necesitatea de comunicare pe distante tot mai mari si de inmagazinare a vocii.

Pornindu-se de la simpla amplificare mecanica print-o palnie (stramosul portavocii), din nevoia de a mari distanta si a micsora timpul in care se face comunicarea au aparut telefonia, radioul, etc.. Aparitia acestora a dus la o cercetare mai atenta a semnalului vocal, la gasirea unor metode noi de prelucrare a acestuia (prelucrare digitala a semnalelor) si implicit la aparitia unor domenii noi de aplicabilitate cum ar fi: studierea limbilor straine (traducere automata), recunoastera automata a vorbirii (recunoasterea mesajelor, recunoasterea vorbitorului).

Recunoasterea vorbirii a aparut o data cu aparitia necesitatii comunicarii

om – masina (robot, computer, sisteme de acces personalizat) si consta in extragerea informatiei corespunzatoare identificarii vorbitorului prin masurari efectuate asupra semnalului vocal. Ea s-a dezvoltat in doua directii: recunoasterea vorbitorului si cea a cuvintelor.

Sistemele de recunoastere a vorbitorului pot lucra in modul de identificare a vorbitorului sau in modul de verificare a identitatii vorbitorului.

Modul identificare a unui vorbitor necunoscut consta in analiza unei propozitii rostite de persoana necunoscuta si compararea ei cu modele ale unor vorbitori cunoscuti. Vorbitorul cunoscut este identificat cu cel al carui model seamana cel mai bine cu modelul de intrare.

Modul de verificare a identitatii vorbitorului consta in comparatia unei propozitii a necunoscutului cu modelul vorbitorului a carui identitate este reclamata. Daca asemanarea este suficienta, lucru aratat de atingerea unui prag de asemanare, atunci identitatea este verificata.

1.2. Obiectul lucrarii

Subiectul acestei lucrari il reprezinta verificarea automata a vorbitorului.

In tratarea lucrarii nu s-a luat in consideratie verificarea vorbitorului de catre ascultatori umani sau alte tehnici care necesita analize subiective cum ar fi examinarea si compararea spectogramelor de catre experti.

De asemenea s-a tinut cont de faptul ca pentru identificarea vorbitorului nu este necesara explicitarea unor modele lingvistice cum ar fi fonemele sau cuvintele, deoarece identitatea vorbitorului nu depinde de continutul lingvistic al pronuntiei test.

Fonemul este totusi considerat ca furnizor de informatie asupra unui aspect al vorbitorului si anume configuratia pronuntiei.

Anumite foneme pot corespunde de la o persoana la alta . Pentru a elimina impostorii si a avea un tablou cat mai exact al vorbitorului este necesara studierea unor foneme diferite.

In prima parte a lucrarii se prezinta problemele generale legate de sistemul de recunoasterea automata a vorbitorului cu functionare in modul verificare identitate pentru sistemele dependente de text. Sunt descrise apoi etapele parcurse in prelucrarea semnalului vocal, tehnicile de analiza folosite impreuna cu modelul de decizie si antrenare a sistemului . In incheiere s-au prezentat rezultatele experimentale si concluziile.

2. NOTIUNI GENERALE DESPRE VORBIRE

2.1. Mesajul vocal. Semnalul vocal

Mesajul vocal este rezultatul fluctuatiilor presiunii aerului, generate si apoi emise de catre aparatul fonator. Aceste fluctuatii constituie semnalul vocal.

Vibratiile aerului sunt detectate de catre aparatul auditiv (ureche, in cazul omului, microfon in cazul robotului) analizate si interpretate de creier sau de Unitatea Centrala de Prelucrare in cazul robotului.

Mesajul vocal e o suita de imagini auditive si de elemente minimale lipsite de sens, care asociate permit obtinerea unor elemente fonetice de nivel superior: silabe, cuvinte, fraze.

Semnalul vocal este insotit de o mare redundanta care permite acestuia sa reziste perturbatiilor mediului ambiant. Elementele redundante ale unui mesaj vocal maresc debitul informational al acestuia de circa 50-60 de ori.

Consideram un mesaj X, cu elementele componete simbolurile xi:

X=[x1, x2, …, xi, …,xl ].

Notam p(xi)=probabilitate de aparitie a simbolului xi in mesajul X. selectia acestui simbol aduce informatia:

[biti] .

Informatia medie asociata la producerea unui mesaj X este:

.

Intr-o vorbire normala sunt pronuntate in jur de 10 foneme/s . Rezulta ca informatia medie asociata mesajului rezultat va fi de 50-60 biti/s.

2.2. Mecanismul producerii vorbirii