next up previous
Next: Σύστημα αναγνώρισης φωνής Up: mythesis Previous: mythesis

Εισαγωγή

Τα τελευταία χρόνια είμαστε όλοι μάρτυρες μιας έκρηξης στο χώρο των δικτύων, σε επίπεδο τόσο software όσο και hardware, που οδήγησε στην ραγδαία εξάπλωση του παγκόσμιου δικτύου (World Wide Web). Αυτή η αλλαγή συνετέλεσε στο να αλλάξει ο κόσμος των υπολογιστών όπως τον ξέραμε. Έτσι, όχι μόνο θα εμφανισθεί μια ολόκληρη νέα γκάμα εφαρμογών για να εκμεταλλευτεί την ιντερνετική τεχνολογία, αλλά γίνεται επιτακτική η ανάγκη να ενσωματωθεί και σε υπάρχουσες εφαρμογές.

Ανάλογες ραγδαίες εξελίξεις βλέπουμε να συντελούνται και στο χώρο των ασύρματων τηλεπικοινωνιών, καθιστώντας δυνατή την επικοινωνία από οπουδήποτε οποτεδήποτε. Τα συμβατικά τηλέφωνα αντικαθίστανται από κινητά τηλέφωνα με εντυπωσιακές δυνατότητες και νέες πρωτοπόρες υπηρεσίες τα καθιστούν πολύτιμα εργαλεία σε αντιστοιχία με τους προσωπικούς υπολογιστές. Η τάση αυτή γίνεται όλο και πιο εμφανής καθώς πλησιάζει η εμφάνιση της νέας 3ης γενεάς συστημάτων κινητής τηλεφωνίας.

Σε αυτό το συναρπαστικό κόσμο της επικοινωνίας, η τεχνολογία αναγνώρισης φωνής καλείται να εξέλθει από τα ερευνητικά εργαστήρια και να διαδραματίσει το ρόλο που της αναλογεί, ο οποίος δεν είναι και μικρός, αν αναλογιστεί κανείς ότι η φωνή αποτελεί τον πιο φυσικό τρόπο επικοινωνίας. Προκειμένου όμως να συμβεί κάτι τέτοιο, επιβάλλεται η προσαρμογή των ήδη υπαρχόντων τέτοιων εφαρμογών στις νέες συνθήκες. Κάτι τέτοιο δεν είναι πάντα εύκολο και συχνά μια τέτοια μετάβαση απαιτεί να λυθούν πολλά προβλήματα και να βρεθούν νέες καταλυτικές μέθοδοι που να καταστήσουν κάτι τέτοιο δυνατό.

Σήμερα, η πιο ευρεία χρησιμοποιούμενη εφαρμογή αναγνώρισης φωνής, είναι η ανάκτηση πληροφοριών μέσω τηλεφωνικού δικτύου. Με σκοπό να καταστήσουμε εύκολη, δυνατή, και με ελάχιστο κόστος την χρήση της αναγνώρισης φωνής μέσω τόσο του διαδικτύου, όσο και ασύρματων δικτύων, ερευνούμε κατάλληλους τρόπους κωδικοποίησης της φωνής, με στόχο οι απαιτήσεις εύρους ζώνης να μην ξεπερνούν τα 2kbps. Κάτι τέτοιο, θα αποτελέσει καταλυτικό παράγοντα για την εκμετάλλευση εφαρμογών αναγνώρισης φωνής στο περιβάλλον που μόλις περιγράψαμε.

Για τις εφαρμογές αυτές αναγνώρισης φωνής, προτείνουμε το μοντέλο πελάτη - εξυπηρετητή. Ο πελάτης είναι οποιαδήποτε συσκευή ικανή να παράγει και να αποστείλει τις κωδικοποιημένες παραμέτρους της φωνής στον εξυπηρετητή ο οποίος αναλαμβάνει το ``δύσκολο'' έργο της αναγνώρισης. Η εργασία αυτή επικεντρώνεται στην εύρεση βέλτιστων τρόπων μείωσης της απαιτούμενης πληροφορίας που απαιτείται για την αναπαράσταση των παραμέτρων της φωνής, εισάγοντας ένα νέο σχήμα κωδικοποίησης με στόχο την καλλίτερη δυνατή συμπίεση φωνής προς αναγνώριση. Κάτι τέτοιο μειώνει σημαντικά τις απαιτήσεις εύρους ζώνης του διαύλου μεταξύ πελάτη και εξυπηρετητή, τόσο από την πλευρά του πελάτη, όσο κυρίως από την πλευρά ενός εξυπηρετητή. Μειώνοντας το απαιτούμενο bandwidth σε μόλις 2kbps, καθιστούμε δυνατή την εφαρμογή της αναγνώρισης φωνής στο διαδίκτυο και παρουσιάζουμε μια τέτοια υλοποίηση, όπου ο πελάτης είναι ένα Java applet.

Η τεκμηρίωση της εργασίας χωρίζεται σε 5 κεφάλαια :

Κεφάλαιο 1
Γίνεται μια σύντομη εισαγωγή στα συστήματα αναγνώρισης φωνής. Δίνεται η συνολική εικόνα ενός τέτοιου συστήματος με όλα τα υποσυστήματα που το αποτελούν, ενώ στη συνέχεια μελετώνται τα σημαντικότερα τέτοια υποσυστήματα, όπως ο μηχανισμός δημιουργίας παραμέτρων φωνής, τα ακουστικά μοντέλα καθώς και η κατάλληλη επιλογή αυτών για την περίπτωση αυτής της εργασίας.

Κεφάλαιο 2
Το πρώτο μέρος αυτού του Κεφαλαίου, αρχίζει με το θεωρητικό υπόβαθρο που απαιτείται για την κατανόηση βασικών εννοιών. Γίνεται μια αναλυτική παρουσίαση για τις πηγές και μοντέλα πληροφορίας, την θεωρία πηγής, ρυθμού-απώλειας και κωδικοποίησης πηγής χωρίς απώλειες. Παρουσιάζονται επίσης οι τεχνικές κβαντισμού με έμφαση σε τεχνικές διανυσματικού κβαντισμού, ενώ ακολουθεί μια καταγραφή των τεχνικών κωδικοποίησης φωνής.
Στο δεύτερο μέρος δίνεται μια αναλυτική περιγραφή του σχήματος κωδικοποίησης φωνής αυτής της εργασίας, η οποία αποσκοπεί στην συμπίεση φωνής προς αναγνώριση. Αναλύονται οι αλγόριθμοι και περιγράφονται οι διαδικασίες εκπαίδευσης, κβαντισμού και πειραμάτων. Τέλος παρατίθενται τρόποι επιλογής των παραμέτρων του σχήματος κωδικοποίησης και η αξιολόγηση του. Το σχήμα κωδικοποίησης βασίζεται στην ιδέα της διανυσματικής κβαντοποίησης των διανυσμάτων των παραμέτρων της φωνής. Για την υλοποίηση των παραπάνω χρησιμοποιήθηκαν τα συστήματα φωνής Yarrow και Decipher.

Κεφάλαιο 3
Σε αυτό το κεφάλαιο παρουσιάζεται η υλοποίηση της κωδικοποίησης με το σύστημα Yarrow. Επεκτείνοντας το αρχικό σύστημα Yarrow με το σχήμα κωδικοποίησης που αναπτύξαμε, το καθιστούμε μια ολοκληρωμένη πλατφόρμα ανάπτυξης εφαρμογών κωδικοποίησης φωνής. Σε επίπεδο κώδικα περιγράφονται αναλυτικά οι βιβλιοθήκες που αναπτύχθηκαν καθώς και οι αλλαγές που έγιναν στο σύστημα αναγνώρισης Decipher. Σε επίπεδο εφαρμογής αναλύεται η χρήση του Yarrow για τα πειράματα της αξιολόγησης του σχήματος κωδικοποίησης τα οποία περιγράφονται στο Κεφάλαιο 4.

Κεφάλαιο 4
Στο Κεφάλαιο αυτό παρουσιάζονται τα πειράματα κωδικοποίησης που έγιναν με τα συστήματα φωνής Yarrow και Decipher. Περιγράφονται πειράματα βαθμωτού και διανυσματικού κβαντισμού, ο αλγόριθμος bit allocation για την εύρεση του επιτρεπόμενου ορίου συμπίεσης χωρίς απώλειες στην απόδοση αναγνώρισης και η επίδραση του θορύβου στην κωδικοποίηση. Περισσότερα πειράματα υπάρχουν στο Παράρτημα στο τέλος της εργασίας.

Κεφάλαιο 5
Σε αυτό το Κεφάλαιο παρουσιάζονται οι εφαρμογές αναγνώρισης φωνής σήμερα, ενώ στη συνέχεια γίνεται μια εκτενή ανάλυση για τις εξελίξεις σε θέματα δικτύων δεδομένων (ενσύρματων αλλά κυρίως ασύρματων, όπως κινητής τηλεφωνίας 2.5 και 3ης γεννεάς). Αυτό γίνεται, γιατί τα ασύρματα δίκτυα ιδιαίτερα, αναμένεται να αποτελέσουν ιδανικό περιβάλλον για ανάπτυξη εφαρμογών που θα εκμεταλλεύονται την αναγνώριση φωνής με βάση το μοντέλο που προτείνουμε, κυρίως για εφαρμογές ανάκτησης πληροφοριών από ανάλογες συσκευές ασύρματης ανάκτησης πληροφοριών. Στη συνέχεια παρουσιάζεται μια υλοποίηση του μοντέλου πελάτη - εξυπηρετητή για αναγνώριση φωνής στο διαδίκτυο. Περιγράφεται το Speech Recognition Applet Demo, το οποίο χρησιμοποιεί το σύστημα Yarrow στον πελάτη για την κωδικοποίηση της φωνής και το σύστημα αναγνώρισης φωνής Decipher στον εξυπηρετητή. Η επικοινωνία γίνεται μέσα από ένα δίαυλο εύρους 2kbps.root 2001-02-24