MPEG standardit

1.11.1999

Pyry Grönholm
Anne Ryynälä

Tietotekniikka

Teknillinen Korkeakoulu

pgronhol@cc.hut.fi
aryynala@cc.hut.fi

 

 

Tiivistelmä

Multimedian mukanaan tuomat paljon tilaa vievät video- ja äänitiedostot asettavat vaatimuksia tehokkaalle tiedon varastoinnille ja siirtämiselle. Pakkaamalla tiedostoja tehokkailla algoritmeilla saadaan tiedostojen kokoa pienennettyä huomattavasti. Näin säästetään levytilaa ja siirtoteiden kapasiteettia.

Videokuva pitää sisällään paljon "turhaa" informaatiota, jota ihmissilmä ei huomaa. Esimerkiksi pienet värisävyn muutokset voidaan pakattaessa jättää pois ilman että kuvan laatu huomattavasti kärsisi. Koska peräkkäiset kuvakehykset sisältävät paljon samaa tietoa, voidaan ne koodata pelkästään kuvassa tapahtuneiden muutosten avulla ja saavuttaa näin huomattava tilansäästö. Ääntä pakattaessa taas voidaan tiedostosta jättää pois ne taajuudet, joita ihmiskorva ei kuule. Koodauksessa voidaan käyttää mm. diskreettiä kosinimuunnosta (DCT) ja Huffman-koodausta.

MPEG standardit ovat videon ja audion pakkausta varten luotuja kansainvälisiä standardeja, jotka on suunniteltu useisiin eri käyttötarkoituksiin. MPEG-1 standardi on tarkoitettu videon ja audion pakkaamiseen digitaaliselle tallennusmedialle kuten CD-ROMille. MPEG-2 standardi suunniteltiin digitaalitelevisiota varten ja MPEG-4 kuvapuhelinta varten. MPEG-7 standardi on vielä kehitteillä ja se on suunniteltu audiovisuaalisen tiedon hakuun.

MPEG standardi määrittää kuvaryhmän, joka koostuu seuraavista kuvatyypeistä: Intra eli I-kuvista, Predictional eli P-kuvista ja Bi-directional eli B-kuvista. I-kuvat koodataan käyttämällä kuvassa itsessään olevaa tietoa, P-kuvat käyttämällä lähteenä edellistä I -tai P-kuvaa ja B-kuvat taas käyttämällä sekä edellisiä että tulevia kuvia referenssikohteena.

Johdanto

Nopeasti kehittyvä multimediatekniikka ja sen mukanaan tuomat uudet sovellukset asettavat vaatimuksia tehokkaalle tiedon varastoinnille ja siirtämiselle. Multimediasovellukset kuten video- ja äänitiedostot vievät tallennettaessa paljon levytilaa ja niiden siirtämiseen verkon yli tarvitaan suuri kaistanleveys. Jotta siirtoteiden rajoitettua kapasiteettia kulutettaisiin mahdollisimman vähän ja datan siirtämisestä ja tallentamisesta aiheutuvat kustannukset saadaan pienemmiksi sekä siirtoon kuluva aika lyhyemmäksi, täytyy data ensin pakata tiivimpään muotoon.

Videokuva sisältää paljon sellaista tietoa, jota ihmissilmä ei huomaa. Lisäksi peräkkäiset kuvat eroavat vähän toisistaan. Pakattaessa turhaa informaatiota voidaan jättää pois pienentämällä kuvan resoluutiota ja koodaamalla vain kuvassa tapahtuneet muutokset. Ääntä pakattaessa voidaan tiedostosta jättää pois ne taajuudet, joita ihmiskorva ei kuule. [2]

Moving Picture Experts Group (MPEG) on International Standards Organisation eli ISOn perustama ryhmä, jonka tehtävänä on kehittää standardeja videokuvan ja audion pakkausta varten. MPEG standardeja on useita ja ne on luotu eri käyttötarkoituksia varten.

MPEG standardit

MPEG jakautuu 4 eri standardiin, jotka ovat MPEG-1, MPEG-2, MPEG-4 ja MPEG-7. Näistä kolme ensimmäistä ovat jo valmistuneet ja viimeisin on vielä kehitteillä. MPEG-3 standardia suunniteltiin HDTV (High Definition TeleVision) -sovelluksia varten, mutta se menetti merkityksensä kun huomattiin, että MPEG-1 ja MPEG-2 syntaksit toimivat pienten muutosten jälkeen hyvin HDTV:n kanssa [2].

MPEG standardit koostuvat useista eri osista, joita ovat järjestelmä, video, audio, testaus ja toteutus. Järjestelmäosa määrittelee datavirtojen syntaksin ja semantiikan sekä synkronoinnin. Video-osa määrittelee videon pakkaus menetelmän ja audio-osa äänen pakkausmenetelmän. [7]

MPEG-1

MPEG-1 standardi valmistui vuonna 1992. Standardi on tarkoitettu videon ja audion pakkaamiseen digitaaliselle tallennusmedialle kuten CD-ROMille. Koska CD-soittimien rajattu nopeus täytyy ottaa huomioon, eivät MPEG tiedostot voi olla kovin korkealaatuisia. Tavallinen nopeus on 1,5 Mb/s, joka vastaa laadullisesti analogisen VHS videokuvan tasoa. MPEG-1 voidaan kuitenkin käyttää eri nopeuksisiin (jopa 4-5 Mb/s) sovelluksiin . [1]

MPEG-1 videokuvan pakkauksessa suositeltu kuvakoko mustavalkoiselle kuvalle on 320*240 pikseliä ja värikuvalle 180*120 pikseliä. Videokuva voidaan pakata suhteessa 50:1, jolloin kuvan laatu säily kohtalaisena. Suurempaa pakkaus- kerrointa (200:1) voidaan käyttää silloin kun laadusta voidaan tinkiä.

MPEG-1 audio-ominaisuudet mahdollistavat äänen koodauksen joko yhdelle (mono) tai kahdelle kanavalle (stereo). Näytteenottotaajuus voi olla 32 kHz, 44.1 kHz tai 48 kHz. Tavalliset pakkauskertoimet ovat 5:1-10:1.

Esimerkkejä MPEG-1 sovelluksista ovat Video-CD, VOD (Video On Demand) ja videokioski.[3]

MPEG-2

MPEG-2 standardi suunniteltiin digitaalitelevisiota varten ja se valmistui vuonna 1994. MPEG-2 sovellukset vaativat korkeamman kuvan ja äänen laadun kuin MPEG-1 sovellukset, joten MPEG-2 suunniteltiin käsittelemään suurempia siirtonopeuksia. MPEG-2 pystyy pakkaamaan videota ja audiota 2-20 Mb/s siirtonopeuksia varten. MPEG-2 käyttöalueita ovat lomitettu digitaalinen video, kaapeli- ja satelliittitelevisio sekä HDTV. [2]

MPEG-2-koodatun kuvan HDTV-tasoinen maksimikoko on 1920x1152 pikseliä [4]. Audiokanavia MPEG-2:ssa on 5 kappaletta ja lisäksi yksi matalan taajuuden kanava. MPEG-2 tarjoaa myöskin MPEG-1 standardia matalampia näytteenottotaajuuksia (22.05 kHZ ja 24 kHz).

MPEG-2 määrittää useita eri profiileja ja tasoja, jotka on suunniteltu erilaisia resoluutiota, kuvanlaatua ja siirtonopeutta vaativille sovelluksille.

MPEG-4

MPEG-4 standardi valmistui vuoden 1998 lokakuussa ja virallisesti siitä tuli kansainvälinen standardi vuoden 1999 alussa. MPEG-4 standardia voidaan käyttää seuraavilla sovellusalueilla: digitaalinen video, interaktiiviset grafiikkasovellukset ja interaktiivinen multimedia.

MPEG-4 poikkeaa suuresti aikaisemmista standardeista. MPEG-1 ja MPEG-2 standardien kehysajattelusta on siirrytty oliopohjaiseen kuvan ja äänen pakkaukseen. Kuvasta pyritään löytämään sen eri osat (objektit: pöytä, tuoli, ihminen, ääni) ja niitä käsitellään erikseen. [2]

MPEG-7

MPEG-7 standardi (Multimedia Content Description Interface)on suunniteltu valmistuvaksi vuonna 2000. MPEG-7:n tarkoituksena on mahdollistaa audiovisuaalisen tiedon haku internetistä, digitaalikirjastoista tai muista tietokannoista, mikä tällä hetkellä ei ole vielä mahdollista. Useimmat tämänhetkiset hakutekniikat perustuvat tekstin hakemiseen.[1]

MPEG-7 standardia voidaan hyödyntää esimerkiksi seuraavissa sovelluksissa: [6]

  • Digitaaliset kirjastot
  • Multimedia hakemistopalvelut
  • Broadcast-median valinta
  • Multimedian editointi

Taulukko 1. Yhteenveto MPEG-standardeista [4]

Standardi

MPEG-1

MPEG-2

MPEG-4

Suurin resoluutio

360 x 288

1920 x 1125

176 x 144

Kompressoitu bittinopeus

1,5 Mb/s

2-15 Mb/s

8-64 Kb/s

Käyttötarkoitus

CD-Rom

Digitaalinen TV,

HDTV,

videotallennus

Kuvapuhelin,

Videoneuvottelut,

Interaktiiviset sovellukset

Kompressiomenetelmät

DCT, liikkeen kompensointi, vaihtuvanpituinen koodaus

DCT, liikkeen kompensointi,

vaihtuvanpituinen koodaus

Objektien mukaan valittavissa:

liikkeen estimointi (MVQ)

Kuvan koodaus

Kuvan sisäinen, ennustava,

kaksisuuntainen enustava

Kuvan sisäinen,

ennustava,

kaksisuuntainen ennustava

Kompensointi,

vaihtuvanpituinen koodaus

Kuvaryhmä

MPEG standardi määrittää kuvaryhmän, joka koostuu välikuvista ja viittauskuvista. Kuvatyyppejä on kolme:
  • Intra eli I-kuvat
  • Predictional eli P-kuvat
  • Bi-directional eli B-kuvat

Kuva 1: Kuvatyypit [5]

I-kuvat

Intra-kuvat koodataan käyttäen pelkästään kuvassa itsessään olevaa tietoa. Intra-kuvien pakkaussuhde on vaatimaton muihin kuvatyyppeihin nähden, jotka koodataan Intra-kuvien pohjalta. Koodattua pikseliä kohden käytetään I-kuvissa tyypillisesti 2 bittiä. Intra-kuvien välissä on P- ja B-kuvia ja kahden Intra-kuvan väliä kutsutaan kuvaryhmäksi (GOP, group of pictures). Tavallisesti I-kuvien väli on 10-15 kuvakehystä. [5]

P-kuvat

P-kuvat koodataan käyttäen hyväksi lähinnä olevaa aikaisempaa I-kuvaa tai P-kuvaa. Tätä tekniikkaa kutsutaan eteenpäin ennustamiseksi. P-kuvien välissä on tavallisesti kaksi B-kuvaa.

B-kuvat

B-kuvien koodauksessa käytetään sekä eteenpäin että taaksepäin ennustamista. Kuva muodostetaan lähimmän edellisen ja seuraavan I- tai P-kuvan avulla. B-kuvat tarjoavat parhaan pakkaussuhteen, sillä ne sisältävät vähiten tietoa.

Kuvien koodaus

Koska suuren kuvatiedoston koodaaminen olisi monimutkainen prosessi, kuva jaetaan ensin pienenpiin lohkoihin. Näitä lohkoja kutsutaan makrolohkoiksi ja ne koostuvat neljästä 8 x 8 pikselin perusyksiköstä. Kukin makrolohko sisältää luminanssi- (kirkkaus) ja krominanssiarvot (värikkyys). [4]

Kuvien koodauksessa voidaan käyttää seuraavia menetelmiä: diskreettiä kosinimuunnosta (DCT), kvantisointia, RLE -koodausta (Run Lenght Encoding) ja Huffman-koodausta.

Diskreetti kosinimuunnos (DCT)

Diskreetti kosinimuunnos on häviöllinen algoritmi, jonka avulla videokuvasta voidaan karsia ylimääräistä informaatiota. Videokuvaa pakattaessa käytetään kaksiulotteista muunnosta, joissa muuttujina ovat korkeus- ja leveyskoordinaatit. Kullekin 8*8 pikselin perusyksikölle lasketaan DCT-kertoimet ja kuvalohko esitetään näistä kertoimista koostuvana matriisina. Koska ihmissilmä ei erota tarkasti pieniä värin muutoksia, voidaan eri kuvalohkoja koodata samalla värikkyys- arvolla ja korvata kertoimia keskiarvoilla. Lopuksi kertoimet järjestellään sopivaan järjestykseen Huffman-koodausta varten. [2]

Huffman-koodaus

Huffman-koodauksessa käytetään hyväksi sitä, että siirrettävässä datassa tietyt merkit esiintyvät tiheämmin kuin toiset. Usein esiintyvät merkit ilmaistaan lyhyempien koodisanojen avulla kuin harvemmin esiintyvät.

Huffman koodauksessa lasketaan ensin siirrettävien merkkien esiintymistodennäköisyys ja tämän jälkeen luodaan näiden pohjalta binaaripuu, jota kutsutaan Huffmanin koodipuuksi. Koodipuussa jokaisella haaralla on arvo 0 tai 1, ja lyhimmät haarat vastaavat suurimmilla todennäköisyyksillä esiintyviä merkkejä eli lyhinpiä koodisanoja.

Äänen koodaus

MPEG audiokoodaus on idealtaan samankaltainen videokoodauksen kanssa eli äänitiedostosta karsitaan se informaatio, jota ihmiskorva ei havaitse. Ihminen kuulee herkimmin 2-6 kHz taajuudella olevat signaalit, joten sitä korkeampia tai matalampia taajuuksia voidaan karsia ilman, että äänenlaatu radikaalisti huononee. Tähän on MPEG audiokoodauksessa kaksi menetelmää: samanaikainen sekä ajallinen naamiointi. Samanaikaisessa naamioinnissa voimakkaampi signaali naamioi heikomman ihmisen kuulumattomiin. Ajallisessa naamioinnissa voimakkaan signaalin molemmin puolin esiintyy naamioivaa vaikutusta. [2]

Lähdeluettelo

[1] Halsall, F, Data Communications, Computer Networks and Open Systems, 4, Addison-Wesley Publishing Company, Harlow, 1996, 907 s., [viitattu 1.11.1999]

[2] Hietala, M. & Vartiainen, R., Videokuvan pakkaaminen ja siirtäminen verkossa, 14.4.1998, [viitattu 1.11.1999]
<http://www.ee.jytol.fi/henkunta/hauja/materiaalia/tietokoneverkot/hartyot/mpeg.htm>

[3] IVidea, Digital Video, 18.10.1998, [viitattu 1.11.1999]
<http://asyst.net/ividea/dvmpeg.htm>

[4] Lehtinen, K., MPEG, 16.4.1998, [viitattu 1.11.1999]
<http://www.hit.fi/~klehtine/tkte/mpeg.html>

[5] Lo, V., A Beginners Guide for MPEG-2 Standard, 8.4.1997, [viitattu 1.11.1999]
<http://www.fh-friedberg.de/fachbereiche/e2/telekom-labor/zinke/mk/mpeg2beg/beginnzi.htm>

[6] Perämäki, P., MPEG-7, 20.5.1999, [viitattu 1.11.1999]
<http://www-user.lut.fi/~peramaki/mpeg.html>

[7] Powell, P., The MPEG Standards, 1.6.1999, [viitattu 1.11.1999]
<http://philippowell.future.easyspace.com/docs/mpegdoc.html>

 

Lisätietoja

MPEG-7
MPEG-7 standardista kertova sivusto

MPEG compression standard
Kooste MPEG standardista

MPEG video compression technique
Tietoa MPEG pakkauksesta

The MPEG Home Page
Yleiskatsaus MPEG standardeihin

MPEG Informations, Questions and Answers
MPEG standardista kysymyksiä ja vastauksia

Various Methods of Video Compression by Ruth Juliebo
Kooste videonpakkausmenetelmistä

MPEG Audio
MPEG Audio standardeja käsittelevä sivu

MPEG Video
MPEG Video sivusto

mp3 audiopakkaus
Essee MP3 standardista