Vježba 1
Govorni signal

1.1 Uvod

Ispitivanja govornog signala (provedena na većem broju ispitanika) pokazala su da je veći dio snage govora sadržan u nižim frekvencijama, a da razumljivosti više doprinosi viši dio spektra. Na Sl. 1.1. prikazana je spektalna gustoća govornog signala promatrana u dužem vremenskom razdoblju.


pict

Slika 1.1: Spektralna gustoća govornog signala


Tako je frekvencijsko područje koje se standardno prenosi u telefoniji (300-3400 Hz) posljedica kompromisa kod kojeg se prenosi dovoljna snaga, a razumljivost ostaje zadovoljavajuća. Dinamika govora (razlika volumena glasa najglasnijeg i najtišeg govornika) iznosi oko 62 dB. Kod analogno digitalne–A/D pretvorbe za ovaj raspon amplituda potrebno je 12 bitova/uzorku. Govorni signal sadrži mnogo redundancije. Redundanciju zbog neravnomjerne amplitudne raspodjele koristi standardni PCM sustav (μ i A zakon) i tako reducira potrebnih 12 bitova/uzorku na 8 bitova/uzorku. To uz frekvenciju uzorkovanja od 8 kHz, odnosno 8000 simbola/s daje standarnih 8 ksimbola/s 8 bita/uzorku = 64 kbit/sec. Velika korelacija između susjednih uzoraka (do 0.85) koristi se u Diferencijalno impulsno kodiranoj modulaciji – DPCM. Kod DPCM-a, prenosi se razlika susjednih uzoraka, a ne sami uzorci što smanjuje potreban broj bitova po kodnoj riječi za kodiranje. Moguće su uštede od 1 do 2 bita/uzorku u odnosu na standardni PCM signal.


pict

Slika 1.2: Valni oblik zvučnog glasa



pict

Slika 1.3: Valni oblik bezvučnog glasa


Redundancija, neravnomjerna amplitudna kao i frekvencijska raspodjela su svojstva karakteristična i za niz drugih signala dok govorni signal ima i neka svojstva tipična isključivo za govor, a posljedica su samog njegovog mehanizma nastanka. Sa stanovišta nastanka govorni signal može biti zvučni i bezvučni. Razlika u načinu na koji zvučni i bezvučni glas nastaju očituje se u valnom obliku. Sl. 1.2 prikazuje valni oblik zvuc  nog (samoglasnici i kraj nekih suglasnika), a Sl. 1.3 valni oblik bezvučnog (suglasnici) glasa. Pitch interval, koji karakterizira određenu periodičnost zvučnog glasa, traje 5 do 20 ms kod muškaraca a 2.5 do 10 ms kod žena (žene dakle imaju kraći pitch period odnosno veću frekvenciju - "viši glas", a muškarci duži period odnosno manju frekvenciju - "dublji glas"). Osim toga govor se može promatrati zajedno s mogućnostima ljudskog uha (slušnog aparata). Tako npr. ljudsko uho ne pravi razliku između faza pojedinih frekvencija. U suštini, uho je osjetljivo na iznos energije po pojedinoj frekvenciji, a ne na fazni odnos među frekvencijama. Taj efekt prikazan je na Sl. 1.4. Prvi valni oblik prikazuje dva tona (frekvencije) s istom početnom fazom, a drugi valni oblik iste tonove ali je jedan ton fazno pomaknut za 90 . Iako su valni oblici različiti uho oba signala čuje jednako. Može se zaključiti da za prijenos govornog signala nije nužno točno prenositi valni oblik, već trenutni frekvencijski spektar. Ove su karakteristike govornog signala iskorištene za kodere čija je osnovna značajka da govorni signal ne kodiraju kao valni oblik već kao niz parametara pa je dekodirani govor sintetički (umjetni). Jedna od takvih metoda je linearno prediktivno kodiranje – (linear predictive coding LPC) koja koristi model generiranja ljudskog govora prikazan na Sl. 1.5.


pict

Slika 1.4: Ilustracija efekta neosjetljivosti ljudskog uha na fazu zvučnog signala



pict

Slika 1.5: Model generiranja ljudskog govora


Zadaci
  1. Učitati (vidi upute točku 1.) i grafički prikazati (upute točka 2.) zvučni zapis govornog signala.
  2. Povećavajući segment po segment pronaći zvučni dio signala. Proračunati funkciju autokorelacije (upute točka 4.) zvučnog signala i grafički je prikazati. Iz slike autokorelacije izračunati pitch interval (vidi napomenu).
  3. Ponoviti proračun pod točkom 2. za bezvučni signal bez računanja pitch intervala. Može li se izračunati pitch interval za bezvučni signal? Objasni.
Upute za rad
  1. Učitavanje audio filea (wav format) u matricu <signal> funkcijom <wavread>.
     
    >> [signal fs b] = wavread(’audio1.wav’);
    <’audio1.wav’>
    - ime filea u wav formatu u kojem su zapisani uzorci audio signala.
    <fs>
    - frekvencija uzorkovanja.
    <b>
    - broj bitova s kojim je audio signal kvantiziran.
  2. Grafičko prikazivanje signala funkcijom <plot>.
     
    >> plot(signal)
    <signal>
    - matrica čiji elementi su uzorci audio signala.
    <plot>
    - funkcija koja grafički prikazuje vrijednosti elemenata matrice na ekranu
  3. Pronaći na grafičkom prikazu signala zvučni dio signala (povećavajući po volji odabrane djelove signala) i pohraniti taj dio zapisa u matricu <zvucni>.
     
    >> zvucni = signal(a:b);
    <a> i <b>
    - uzorci (čitaju se s grafičkog prikaza signala) između kojih se nalazi zvučni dio signala.
  4. Proračun i grafičko prikazivanje funkcije autokorelacije zvučnog dijela signala
     
    >>autokorelacijaZ = xcorr(zvucni); 
    >>plot(autokorelacijaZ)

Napomena: 1. Na grafičkom prikazu govornog signala u matlabu na x - osi nalaze se uzorci a ne vrijeme. Vremenski interval između dva uzorka računa se tako da se pomnoži broj uzoraka između dva promatrana uzorka s vremenom između dva susjedna uzorka. Vrijeme između dva susjedna uzorka je recipročna vrijednost frekvencije uzorkovanja koja se može učitati iz filea u kojem je pohranjen audio zapis (vidi funkciju <wavread>, izlazni parametar <fs>).