Novi audio kodek kompanije Meta obećava 10 puta bolju kompresiju nego MP3

od strane | nov 3, 2022 | Tech | 0 Komentara


Novi audio kodek kompanije Meta obećava 10 puta bolju kompresiju nego MP3

Predstavnici kompanije Meta navode da ova tehnika može značajno da unapredi kvalitet glasa na konekcijama sa malim protokom poput telefonskih poziva u zagušenim okruženjima. Ova tehnologija takođe funkcioniše i sa muzikom.

Meta je predstavila novu tehnologiju 25. oktobra u dokumentu koji je nazvan Neuralna audio kompresija visokog kvaliteta, a na kojem je radilo nekoliko istraživača Meta AI tima. Kompanija je posle toga sumirala pomenuto istraživanje na svom blogu, prenosi ArsTechnica.

Zvuk.jpg

Meta opisuje svoj metod kao trodelni sistem koji je treniran da kompresuje audio na željenu ciljnu veličinu. Prvo, enkoder transformiše nekompresovane podatke u verziju sa manjem brojem frejmova. „Kvantizer“ zatim kompresuje te podatke na ciljnu veličinu dok vodi evidenciju o najvažnijim informacijama koje će se kasnije koristiti za rekonstrukciju originalnog signala. Ovaj kompresovani label je ono što se šalje kroz mrežu ili čuva na disku. Konačno, dekoder pretvara kompresovane podatke nazad u audio u realnom vremenu koristeći neuronsku mrežu na jednom CPU-u.

Meta koristi diskriminator koji se pokazao kao ključna stvar za stvaranje metoda za kompresiju zvuka što je više moguće, bez gubitka ključnih elemenata signala koji ga čine prepoznatljivim.

„Ključ kompresije sa gubicima je da se identifikuju promene koje ljudi neće moći da primete, pošto je savršena rekonstrukcija nemoguća pri niskim brzinama prenosa. Da bismo to uradili, koristimo diskriminatore da poboljšamo perceptivni kvalitet generisanih uzoraka. Ovo stvara igru mačke i miša, gde je posao diskriminatora da pravi razliku između stvarnih uzoraka i rekonstruisanih uzoraka. Mannequin kompresije pokušava da generiše uzorke kako bi prevario diskriminatore tako što gura rekonstruisane uzorke da budu perceptivno sličniji originalnim uzorcima.“

312631767_820469602333729_4265486792384109107_n.png

Vredi napomenuti da je korišćenje neuronske mreže za audio kompresiju i dekompresiju daleko od novog, posebno za kompresiju govora, ali Meta istraživači tvrde da su oni prva grupa koja je primenila tehnologiju na stereo zvuk od 48 kHz (malo bolje od brzine uzorkovanja CD-a od 44,1 kHz), što je tipično za muzičke fajlove koji se distribuiraju na Internetu.

Što se tiče aplikacija, Meta kaže da bi ova „hiperkompresija zvuka“ zasnovana na veštačkoj inteligenciji mogla da podrži „brže pozive boljeg kvaliteta“ u lošim mrežnim uslovima. I, naravno, budući da rade u kompaniji Meta, istraživači nisu propustili priliku da pominju korišćenje EnCodec tehnologije u metaverzumu.

hypercompression_graph_2.jpg

Osim toga, možda ćemo jednog dana dobiti i zaista male muzičke audio datoteke. Za sada, nova Meta tehnologija ostaje u fazi istraživanja, ali ukazuje na budućnost u kojoj će visokokvalitetni zvuk moći da koristi manje propusnog opsega, što bi bila odlična vest za provajdere mobilnih širokopojasnih usluga sa preopterećenim mrežama od strimovanja video materijala.

Opširnije

Izvor: Benchmark.rs