TopΛεξικό τεχνικών όρωνH.264 - πρότυπο κωδικοποίησης εικόνας

H.264 - πρότυπο κωδικοποίησης εικόνας

Το 2003 εγκρίθηκε το πρότυπο H.264, γνωστό και ως AVC (Advanced Video Coding), ως το 10. μέρος του προτύπου MPEG-4.

 

Το πρότυπο H.264, ομοίως όπως και στα προηγούμενα MPEG-2 και MPEG-4, χρησιμοποιεί την διαφορική συμπίεση, δηλαδή η τρέχουσα εικόνα δημιουργείται βάση μίας ή μερικών εικόνων καθώς και διαφορών που προέκυψαν μεταξύ τους σε αυτό τον χρόνο. Ωστόσο στο H.264 έχει εφαρμοστεί μια σειρά από βελτιώσεις. Από τη μια πλευρά αυξάνει σημαντικά την ανάγκη για υπολογιστική ισχύ κατά την κωδικοποίηση, ενώ από την άλλη μειώνει σημαντικά τον ρυθμό μετάδοσης με αμετάβλητη την ποιότητα της εικόνας.

 

Ένα σημαντικό στοιχείο της συμπίεσης H.264 είναι η πρόβλεψη των εικόνων (πρόβλεψη μεταξύ εικόνων). Αυτή βασίζεται στην πρόβλεψη της επόμενης κωδικοποιημένης εικόνας με βάση τις εικόνες που κωδικοποιούνται και αποκωδικοποιούνται στο παρελθόν. Λειτουργεί ακριβώς με τον ίδιο τρόπο όπως και στον κωδικοποιητή και αποκωδικοποιητή, έτσι ο αποκωδικοποιητής μπορεί να ανακτήσει μια κωδικοποιημένη εικόνα με βάση το σφάλμα πρόβλεψης εικόνας, που ορίζεται στον κωδικοποιητή ως η διαφορά μεταξύ της αρχικής κωδικοποιημένης εικόνας και της πρόβλεψής της. Δεν αποστέλλει επομένως διαδοχικές εικόνες αλλά μόνο σφάλματα πρόβλεψης, τα οποία με καλούς αλγόριθμους δεν περιλαμβάνουν πολλές πληροφορίες και μπορούν να κωδικοποιηθούν με την χρήση μερικών bits.

 

Στην συμπίεση H.264 μπορούμε να διακρίνουμε 3 είδη πλαισίων: I – Intra Coded, P – Predictive, B – Bi-predictive.

 

Εικ. 1. Παράδειγμα εγγραφής συγκεκριμένων πλαισίων ακολουθίας, στην οποία υπάρχουν τρία είδη πλαισίων

 

t - Χρόνος

Τα πλαίσια τύπου I περιέχουν πλήρεις πληροφορίες σχετικά με την εικόνα. Τα πλαίσια τύπου P περιέχουν πληροφορίες σχετικά με τις αλλαγές μεταξύ των γειτονικών πλαισίων P ή I (η προκύπτουσα εικόνα δημιουργείται με βάση αυτές τις πληροφορίες). Τα πλαίσια B είναι εικόνες που κωδικοποιούνται με την χρήση δυο εικόνων αναφοράς, δηλαδή μία πριν την κωδικοποιημένη εικόνα και μια που υπάρχει στην αλληλουχία μετά με την κωδικοποιημένη εικόνα. Σε εικόνες τύπου B τα πιο ανάλογα τμήματα (μακροτμήματα) δειγμάτων, επιλέγονται από δυο εικόνες αναφοράς ή προσδιορίζονται ως μέσες από τα τμήματα και από τις δύο εικόνες αναφοράς. Το μέγεθος κάθε πλαισίου εξαρτάται φυσικά από πολλούς παράγοντες. Μπορεί να θεωρηθεί, ότι τα πλαίσια P αποτελούν περίπου το 60% του μεγέθους των πλαισίων τύπου I, ενώ τα πλαίσια B μπορούν να έχουν μόνο το 10% του όγκου τους. Επομένως, μπορεί εύκολα να γίνει κατανοητό, ότι όσο περισσότερα πλαίσια τύπου B, υπάρχουν σε μια δεδομένη αλληλουχία, τόσο μεγαλύτερη είναι και η συμπίεσή της. Αυτό δεν συνεπάγεται κατ' ανάγκη με την υποβάθμιση της ποιότητας της εικόνας.

 

Παρακάτω παρουσιάζεται ένα παράδειγμα σύγκρισης της ποιότητας για τρία πρότυπα συμπίεσης ως τιμή κορυφής της σηματοθορυβικής σχέσης (PSNR — Peak Signal-to-Noise Ratio) ανάλογα με τον ρυθμό μετάδοσης των bit.

 

Εικ. 2. Σύγκριση προτύπων H.264, MPEG-4 και JPEG

 

X - Ρυθμός μετάδοσης δυαδικών ψηφίων

Y - Τιμή κορυφής της σηματοθορυβικής σχέσης (PSNR)

Παρακάτω παρατίθενται μερικές από τις βελτιώσεις και τις τροποποιήσεις που ξεχωρίζουν στο H.264 σε σύγκριση με τα παλαιότερα πρότυπα που χρησιμοποιούν την υβριδική κωδικοποίηση με πρόβλεψη μεταξύ εικόνων με αντιστάθμιση κίνησης.

 

1. Μεταβλητό μέγεθος μπλοκ για αντιστάθμιση κίνησης. Η αντιστάθμιση κίνησης μπορεί να γίνει όχι μόνο σε σχέση με ολόκληρα τα μακρο-μπλοκ, αλλά επίσης και για κάποιο μέρος τους. Τότε τους εκχωρούνται ξεχωριστά διανύσματα κίνησης. Τα μικρότερα μπλοκ έχουν μέγεθος (4x4) σημεία φωτεινότητας. Αυτό έχει ως αποτέλεσμα να υπάρχουν λιγότερα σφάλματα πρόβλεψης, τα οποία μπορούν να παρουσιάζονται μόνο με μερικά δυαδικά ψηφία.


2. Πρόβλεψη κίνησης με ακρίβεια διαστήματος δειγματοληψίας έως και 1/4 πίξελ. Η υψηλή ακρίβεια των διανυσμάτων κίνησης επιτρέπει σε μια πιο ακριβή πρόβλεψη με αντιστάθμιση κίνησης.


3. Χρήση πολλαπλών εικόνων αναφοράς - η χρήση μακροπρόθεσμης μνήμης, χρήσιμης για την πρόβλεψη εικόνων ακάλυπτων περιοχών.


4. Κατευθυντική ενδο-πλαισιακή πρόβλεψη για μακρομπλόκ κωδικοποιημένα ενδο-πλαισιακά.


5. Το φίλτρο απεμπλοκής αφαιρεί τις επιδράσεις των μπλοκ, που εμφανίζονται στις εικόνες πρόβλεψης υπό ισχυρή συμπίεση.


6. Ο συνημιτονοειδής μετασχηματισμός λειτουργεί σε μικρά μπλοκ - (4x4) δείγματα φωτεινότητας και (2x2) δείγματα χρωμικότητας, κάτι που επιτρέπει την καλύτερη προσαρμογή στις τοπικές ιδιότητες της εικόνας.


7. Προσαρμοστική εντροπική κωδικοποίηση: CAVLC (Context-Adaptive Variable Length Coding) – με μεταβλητό μήκος λέξης και CABAC (Context-Based Binary Arithmetic Coding) – η πιο περίπλοκη προσαρμοστική αριθμητική κωδικοποίηση, που επιτρέπει την απόκτηση μιας ισχυρότερης συμπίεσης.

Για την πλήρη χρησιμοποίηση των δυνατοτήτων του προτύπου H.264, θα πρέπει να γίνονται στον κωδικοποιητή οι βέλτιστες επιλογές μεταξύ διαφόρων πιθανών τρόπων κωδικοποίησης. Η χρήση του H.264 έχει μεγάλη σημασία για τα συστήματα CCTV, καθώς η μείωση της ταχύτητας μετάδοσης εικόνων χωρίς απώλεια ποιότητας, επιτρέπει την μετάδοση για τα περισσότερα κανάλια σε καλύτερη ποιότητα.