AUDIO DIGITAL

Fonaments del so digital

Natura Del So

 

Per comprendre les característiques del so digital, primer es farà una petita introducció de les característiques del so i els seus conceptes més bàsics.

El so són vibracions de les partícules d'aire que es propaguen a través de l'aire, gràcies a aquestes partícules de l'aire que es mouen, les vibracions arriben a les nostres oïdes.

 

L'audició en els éssers humans, passa sempre que una vibració tingui una freqüència compresa entre uns 15 i 20.000 hertzs, i la seva intensitat sigui la suficient per arribar a l'oïda interna. Quan les vibracions passen aquests marges es parla d'ultrasons i no són perceptibles a l'ésser humà.´

 

Les característiques del so es pot mesurar i per això es fa servir les unitats de hertzios (Hz) que mesuren la freqüència d'un so o sigui quantes vegades vibra en un segon, i els decibels (Db) que mesura la intensitat (amplitud) d'una ona.´

 

L'oïda i un micròfon incorporat a la targeta de so tenen un funcionament similar.
Tots dos transformen les vibracions de l'aire en un senyal elèctric que pot ser compresa i emmagatzemada pels seus respectius cervells.
Aquesta senyal pot ser guardada, manipulada o reproduïda pels mitjans electrònics adequats.

 

Mostra de quatre sons amb diferent freqüència

Mostra d'un mateix so a tres diferents intensitats

Taula de freqüències

Tècniques de compressió


Les tècniques de compressió són objecte d'un altre dels treballs de l'assignatura, però estan molt relacionades amb els formats d'àudio digital per la qual cosa les tractaré de forma molt general i breu.


Les tècniques de compressió són l'eina fonamental de la qual es disposa per assolir el compromís adequat entre capacitat d'emmagatzematge i de processament requerides.


Les tècniques de compressió més elaborades proporcionen una reducció molt important de la capacitat d'emmagatzematge, però requereixen també d'un important processat tant per compressió com per a la descompressió (sobretot a la compressió). Les tècniques més simples ofereixen reduccions moderades amb poc processament. Les característiques del sistema digital implicat i l'aplicació determinaran el compromís entre aquests factors i permeten seleccionar les tècniques de compressió adequades. Les tècniques més avançades analitzen la resposta de l'oïda al senyal i simplifiquen aquells elements irrellevants per a la sensació sonora, aconseguint taxes de compressió molt més grans

Algunes tècniques de compressió rellevants:

 
ADPCM (Adaptative Differential Pulse Code Modulation).
Es tracta d'una codificació diferencial: en lloc de representar les mostres del senyal, s'emmagatzemen la diferència entre mostres consecutives, que per senyals àudio, sol ser petita. ADPCM s'articula en els estàndards CCITT G.721, CCITT G.723 i en el CCITT G.726, que va reemplaçar als dos anteriors definint estàndards per 16, 24, 32 i 40 kbits per segon (que corresponen a mides de mostra de 2, 3, 4 i 5 bits respectivament).


LPC-10E (Linear Predictive Coder). Aquest algoritme fa correspondre el senyal àudio amb un model lineal simple i obté els paràmetres que millor ajusten el model a la senyal. El senyal generada és poc fidel a l'original. S'utilitza en alguns serveis de veu.

CELP (Code Excited Linear Prediction). És similar a LPC-10E, però a més d'assignar els paràmetres del model, té en compte l'error entre el senyal original i la aproximada, creant una taula d'errors. El senyal es compon dels paràmetres del model més l'índex de l'error en cada mostra. La taula és comú a codificador i descodificador.

GSM 06.10. És una modificació de LPC anomenada RPE-LPC (Regular Premeu Excited - Linear Predictive Coder).
La compressió és molt elevada però requereix també de molt processament.

MPEG. És un estàndard tant per àudio com per vídeo. Aconseguiu alta compressió en les dades i requereix de molta potència de càlcul, sobretot en la codificació. Hi ha definits tres layers per a les versions MPEG-1 i MPEG-2:

 

o Layer I: des de 32 a 448 kbps
o Layer II: des de 32 a 384 kbps
   Layer III: des de 32 a 320 kbps

 

DirectSound

DirectSound és un component de programari de la biblioteca de DirectX, proveït per Microsoft, que resideix en un ordinador amb el sistema operatiu Windows. Proporciona una interfície directa entre les aplicacions i els drivers de la targeta de so, permetent a les aplicacions produir sons i música. A més de proporcionar el servei essencial de passar dades d'àudio a la targeta de so, proporciona moltes capacitats necessàries com gravació i barrejat de so; addició d'efectes al so com reverberació, eco, flanger; usant maquinari controlat per buffers per velocitat extra; posicionar sons en espai 3D (espaiament d'àudio 3D), captura de sons d'un micròfon o d'una altra entrada i controlar la captura d'efectes durant la captura d'àudio. D'aquests, el barrejat de só i el control de volum d'àudio són els més essencials.


DirectSound també permet a diverses aplicacions d'una forma convenient compartir l'accés a la targeta de so al mateix temps. La seva capacitat per reproduir el so en 3D va afegir una nova dimensió als jocs. També li proporciona la capacitat als jocs de modificar una seqüència musical en resposta a esdeveniments del joc en temps real, per exemple: el ritme de la música podria accelerar quant l'acció augmenta.


Després de molts anys de desenvolupament, DirectSound és avui un API molt madur, i proveeix moltes altres capacitats útils, com la capacitat de reproduir el so multicanal i sons d'alta resolució. Mentre que DirectSound va ser dissenyat per ser utilitzat en els jocs, un nombre de professionals d'àudio aprofiten ara de les seves molt diverses capacitats