next up previous
Next: Κωδικοποίηση φωνής Up: mythesis Previous: Εισαγωγή

Subsections

Σύστημα αναγνώρισης φωνής

Εισαγωγή

Τα συστήματα αναγνώρισης ομιλίας είναι πολύπλοκα συστήματα που εμπεριέχουν ένα μεγάλο σύνολο γνωστικών πεδίων όπως : στατιστική επεξεργασία σήματος , κατανόηση φυσικής γλώσσας, νευρωνικά συστήματα, αναγνώριση προτύπων, φωνολογία κ.α. Σε αυτό το εισαγωγικό κεφάλαιο πάνω στη αναγνώριση φωνής, θα μελετήσουμε μόνο τα κομμάτια που έχουν να κάνουν περισσότερο με το θέμα αυτής της εργασίας, που είναι η επεξεργασία του σήματος της φωνής (front-end processing) και η αναγνώριση με τη χρήση κρυφών μαρκοβιανών μοντέλων (Hidden Markov Models - HMMs). Πρώτα όμως, θα δούμε τη συνολική εικόνα ενός συστήματος αναγνώρισης ομιλίας.

Συνολική εικόνα ενός συστήματος αναγνώρισης ομιλίας

Τα σύγχρονα συστήματα στηρίζονται στις αρχές της στατιστικής αναγνώρισης προτύπων . Οι βασικές μεθοδολογίες της εφαρμογής των παραπάνω αρχών στο πρόβλημα της αναγνώρισης φωνής μελετήθηκαν και εφαρμόστηκαν στη δεκαετία του 70 στην IBM. Η συνολική εικόνα έχει ως εξής :

Μια άγνωστη κυματομορφή φωνής μετατρέπεται από τον front-end επεξεργαστή σήματος, σε μια ακολουθία από ακουστικά διανύσματα : $Y = y_{1}, y_{2}, \ldots,y_{t}$. Κάθε ένα από τα παραπάνω διανύσματα, αναπαριστά το βραχέως χρόνου φάσμα (short time speech spectrum) μιας περιόδου τυπικής διάρκειας 10 msecs. Έτσι, για παράδειγμα, μια φράση 3 δευτερολέπτων, μπορεί να αναπαρασταθεί από μια ακολουθία 300 τέτοιων διανυσμάτων. Η φράση αποτελείται από μια ακολουθία λέξεων, $ W = w_{1}, w_{2}, \ldots,w_{n}$ και είναι ευθύνη του συστήματος αναγνώρισης να βρει την πιο πιθανή ακολουθία λέξεων W, δεδομένου της ακολουθίας του ακουστικού σήματος Y. Για να γίνει αυτό, χρησιμοποιείται ο κανόνας του Bayes :


\begin{displaymath}
\widehat W = \arg \max_{w} P(W\vert Y) = \arg \max_{w} \frac{ P(W) P(Y\vert W)} { P(Y) }
\end{displaymath} (1.1)

Η παραπάνω εξίσωση δηλώνει ότι η πιο πιθανή ακολουθία λέξεων W, είναι εκείνη που μεγιστοποιεί το γινόμενο των P(W) και $P(Y \vert W)$. Ο πρώτος όρος αντιπροσωπεύει την a-priory πιθανότητα να παρατηρηθεί το W ανεξάρτητα από το ακουστικό σήμα και καθορίζεται από το γλωσσικό μοντέλο (language model). Ο δεύτερος όρος αντιπροσωπεύει την πιθανότητα να παρατηρηθεί η ακολουθία Y, δεδομένου της ακολουθίας W, και αυτή η πιθανότητα, καθορίζεται από το ακουστικό μοντέλο (acoustic model).

Το Σχήμα 1.1 δείχνει πως τα παραπάνω συνδέονται μεταξύ τους. Η ακολουθία λέξεων « This is speech » δίνεται σαν είσοδος και το γλωσσικό μοντέλο υπολογίζει την πιθανότητα P(W). Στη συνέχεια, κάθε λέξη μετατρέπεται σε μια ακολουθία από βασικούς ήχους (phones), χρησιμοποιώντας το λεξικό προφοράς (pronunciation dictionary). Για κάθε φώνημα υπάρχει ένα αντίστοιχο στατιστικό μοντέλο, το HMM. Η ακολουθία των HMMs που χρειάζεται για να αναπαραστήσουμε τη φράση συνενώνονται για να σχηματίσουν ένα σύνθετο μοντέλο, και υπολογίζεται η πιθανότητα αυτό το μοντέλο να παράγει την ακολουθία Y, δηλαδή η πιθανότητα $P(Y \vert W)$.

Στη συνέχεια θα δούμε αναλυτικότερα τα εξής :

Figure: Συνολική εικόνα στατιστικής αναγνώρισης φωνής.Το διάγραμμα δείχνει τον υπολογισμό της πιθανότητας $P(W \vert Y)$ της ακολουθίας λέξεων W δεδομένου του ακουστικού σήματος Y. Η prior πιθανότητα P(W) υπολογίζεται απ' ευθείας από το γλωσσικό μοντέλο (language model ). Η πιθανότητα $P(Y \vert W)$ υπολογίζεται χρησιμοποιώντας το σύνθετο HMM που αναπαριστά το W και κατασκευάζεται από απλά HMM φωνητικά μοντέλα ενωμένα στη σειρά, ανάλογα με τις προφορές των λέξεων που είναι αποθηκευμένες στο λεξικό προφορών.
[scale = 0.62]images/system_images/eps/fig1.eps

O front-end μηχανισμός

Μια βασική υπόθεση στην οποία βασίζονται οι αναγνωριστές, είναι ότι το σήμα της φωνής μπορεί να θεωρηθεί σαν στάσιμο (stationary-δηλαδή τα χαρακτηριστικά του φάσματος μπορούν να θεωρηθούν σταθερά) σε ένα διάστημα λίγων msecs. Το σήμα φωνής χωρίζεται σε ένα σύνολο από διαστήματα (frames) και για κάθε διάστημα υπολογίζεται ένα ομαλοποιημένο φάσμα. Τα διαστήματα έχουν συνήθως μήκος 10 msecs και αλληλεπικαλύπτονται δίνοντας έτσι ένα παράθυρο μεγαλύτερου μήκους. Χρησιμοποιώντας για παράδειγμα παράθυρο Hamming και εφαρμόζοντας ανάλυση Fourier ή γραμμικής πρόβλεψης (LPC) παίρνουμε τις βασικές φασματικές παραμέτρους τις οποίες με διάφορους μετασχηματισμούς μετατρέπουμε σε κάποια κατάλληλη μορφή.

Μια τέτοια μορφή για τα ακουστικά διανύσματα είναι οι mel-frequency cepstral coefficients (MFCCs). Ένας τρόπος για να υπολογιστούν, φαίνεται στο Σχήμα 1.2. Αφού πάρουμε το φάσμα του σήματος εφαρμόζουμε μια κλίμακα (mel-frequency) η οποία σχεδιάζεται ουσιαστικά ώστε να προσεγγίζει την φασματική ανάλυση της ανθρώπινης ακοής, που είναι γραμμική έως τα 1000Hz και λογαριθμική από κει και πέρα. Η κλίμακα αυτή έχει αποδειχθεί πειραματικά ότι βελτιώνει την ακρίβεια αναγνώρισης. Στη συνέχεια, για να κάνουμε την ισχύ του φάσματος περίπου γκαουσιανή εφαρμόζουμε λογαριθμική συμπίεση. Τέλος, αφού εφαρμόσουμε Discrete Cosine Transform, παίρνουμε ένα ακουστικό διάνυσμα που αποτελείται από 12 cepstral συντελεστές και την ενέργεια του σήματος. Αν προσθέσουμε τις πρώτες και δεύτερες παραγώγους έχουμε τελικά ένα διάνυσμα μεγέθους 39.

Figure: Παραγωγή MFCC διανύσματος.Για να γίνει pattern matching, η κυματομορφή μετατρέπεται σε μια ακολουθία ακουστικών διανυσμάτων, τα οποία αντιπροσωπεύουν ένα ομαλοποιημένο λογαριθμικό φάσμα που υπολογίζεται για κάθε 10 msecs φωνής. Χρησιμοποιώντας μια μη-γραμμική mel-frequency κλίμακα και Μετασχηματισμό Διακριτού Συνημιτόνου (Discrete Cosine Transform - DCT) βελτιώνουμε την απόδοση. Το πρώτο, έχει σαν αποτέλεσμα την συμπίεση της πληροφορίας στους πρώτους συντελεστές του διανύσματος, ενώ το τελευταίο, έχει σαν αποτέλεσμα την αποσυσχέτιση (decorrelation ) του σήματος, βελτιώνοντας τις υποθέσεις για στατιστική ανεξαρτησία και επιτρέποντας τη χρήση διαγωνίων πινάκων συνμεταβλητότητας ( Covariance matrices ). Τέλος, για να ενσωματώσουμε δυναμική πληροφορία για το σήμα, προσθέτουμε τις πρώτες και δεύτερες παραγώγους.
[scale = 0.6]images/system_images/eps/fig2.eps

Η διαδικασία κβαντισμού των παραμέτρων του front-end

Το τελικό αποτέλεσμα επομένως, είναι η παραγωγή ενός MFCC διανύσματος για κάθε frame (δηλαδή για κάθε 10 msecs) φωνής. O βασικός σκοπός αυτής της εργασίας, είναι ο βέλτιστος διανυσματικός κβαντισμός των παραπάνω διανυσμάτων. Η διαδικασία αυτή περιγράφεται εκτενώς σε επόμενο κεφάλαιο. Εδώ πολύ σύντομα θα αναφέρουμε απλά την κεντρική ιδέα που είναι η εξής :

Το MFCC διάνυσμα Y χωρίζεται κατάλληλα σε μικρότερα υποδιανύσματα ${ y_{1}, y_{2}, \ldots, y_{L} }$ και κάθε τέτοιο υποδιάνυσμα κβαντίζεται στο πιο κοντινό σε αυτό υποδιάνυσμα $\widehat y_{i}$, από ένα σύνολο από τέτοια κατάλληλα επιλεγμένα υποδιανύσματα (το σύνολο αυτό ονομάζεται codebook)

Το αποτέλεσμα του κβαντισμού είναι η συμπίεση του σήματος (αφού κάθε υποδιάνυσμα αναπαρίσταται από το δείκτη του υποδιανύσματος στο οποίο κβαντίστηκε) και η επιτάχυνση της αναγνώρισης καθώς όπως θα δούμε και σε επόμενη παράγραφο, δημιουργήσαμε μια νέα κατηγορία ακουστικών μοντέλων που εκμεταλλεύεται την ύπαρξη του κβαντισμού των ακουστικών διανυσμάτων στο front-end.

Acoustic Modeling

Τα ακουστικά μοντέλα παρέχουν ένα τρόπο για τον υπολογισμό της πιθανότητας $P(Y \vert W)$. Μονάδα μοντελοποίησης είναι το φώνημα που αναπαρίσταται από ένα HMM (triphone1.1). Ένα ΗΜΜ έχει μία κατάσταση εισόδου, μία κατάσταση εξόδου και 3 ενδιάμεσες καταστάσεις. Οι καταστάσεις εισόδου-εξόδου χρησιμεύουν στην ένωση πολλών διαδοχικών HMMs, τα οποία σχηματίζουν ένα σύνθετο HMM, το οποίο μπορεί να αναπαραστήσει μεγαλύτερες μονάδες , όπως λέξεις ή μια ολόκληρη πρόταση. Το ΗΜΜ μπορεί να θεωρηθεί σαν μια γεννήτρια ακολουθίας συμβόλων (στη περίπτωσή μας, ακουστικών διανυσμάτων) μοντελοποιώντας παράλληλα μια κρυφή ακολουθία καταστάσεων (αποτελούμενων από τις 3 ενδιάμεσες καταστάσεις). Η πιθανότητα μετάβασης από την κατάσταση i στην κατάσταση j καθορίζεται από την διακριτή πιθανότητα $a_{ij}$, ενώ η πιθανότητα παραγωγής ενός συμβόλου στη κατάσταση j, καθορίζεται από τη πιθανότητα εξόδου $b_{j}$.

Στο Σχήμα 1.3 φαίνεται ένα παράδειγμα της παραπάνω διαδικασίας όπου το μοντέλο μεταβαίνει μέσω της ακολουθίας καταστάσεων X = 1, 2, 2, 3, 4, 4, 5, για να παράγει την ακολουθία $y_{1}$ έως $y_{5}$. Η συνδυασμένη πιθανότητα μιας ακολουθίας διανυσμάτων Y και μιας ακολουθίας καταστάσεων X, δεδομένου κάποιου μοντέλου M (πιθανότητες μετάβασης και εξόδου), υπολογίζεται σαν το γινόμενο των πιθανοτήτων μετάβασης και των πιθανοτήτων εξόδου. Για την ακολουθία καταστάσεων X του σχήματος 1.3 έχουμε ότι :


\begin{displaymath}
P(Y, X \vert M) = a_{12}b_{1}(y_{1}) a_{22}b_{2}(y_{2}) a_{23}b_{3}(y_{3}) \ldots
\end{displaymath} (1.2)

Στην γενική περίπτωση που $ X = x(1), x(2), x(3), \ldots, x(T) $ , η παραπάνω πιθανότητα γίνεται :


\begin{displaymath}
P(Y, X \vert M) =a_{x(0)x(1)} \prod_{t=1}^T b_{x(t)} (y_{t}) a_{x(t)x(t+1)}
\end{displaymath} (1.3)

όπου $x(0)$ είναι η κατάσταση εισόδου του μοντέλου και $x(T+1)$ η κατάσταση εξόδου.

Στην πραγματικότητα, εμείς γνωρίζουμε μόνο την ακολουθία $Y$ , ενώ η ακολουθία X μας είναι άγνωστη, για αυτό και μιλάμε για κρυφές Μαρκοβιανές ακολουθίες. Για τον υπολογισμό λοιπόν της $P(Y \vert M)$ αρκεί να αθροίσουμε την  [*] για όλες τις πιθανές μεταβάσεις καταστάσεων. Ένας αποτελεσματικός τρόπος για να γίνει αυτό είναι ο Forward-Backward αλγόριθμος.

Figure: ΗΜΜ μοντέλο.Ένα ΗΜΜ μπορεί να θεωρηθεί σαν μια γεννήτρια ακολουθίας συμβόλων (στη περίπτωσή μας, ακουστικών διανυσμάτων) μοντελοποιώντας παράλληλα μια κρυφή ακολουθία καταστάσεων. Μεταβαίνει μεταξύ των καταστάσεων βάσει των πιθανοτήτων μετάβασης και κάθε χρονική περίοδο παράγει ένα καινούριο ακουστικό διάνυσμα σύμφωνα με την κατανομή εξόδου της παρούσας κατάστασης.
[scale = 0.33]images/system_images/eps/fig3.eps

Είδη HMMs

Η επιλογή της κατανομής εξόδου, παίζει σημαντικό ρόλο αφού μοντελοποιεί την μεταβλητότητα του φάσματος της φωνής , σε αντίθεση με τo μοντέλο μετάβασης καταστάσεων το οποίο έχει να κάνει με την διάρκεια. Ανάλογα λοιπόν με το πως μοντελοποιούνται οι κατανομές εξόδου, έχουμε τρεις κατηγορίες ακουστικών μοντέλων.

Διακριτά HMMs

Τα πρώτα συστήματα αναγνώρισης φωνής χρησιμοποιούσαν διακριτές κατανομές εξόδου σε συνδυασμό με διανυσματικό κβαντιστή (Vector Quantizer - VQ). Έτσι, κάθε ακουστικό διάνυσμα αντικαθίσταται από το index (δείκτη) του πιο κοντινού σε αυτού διανύσματος από ένα σύνολο τέτοιων διανυσμάτων (codebook), ενώ οι κατανομές εξόδου ισοδυναμούν με look-up tables που περιέχουν τις πιθανότητες για κάθε πιθανό δείκτη. Για τη κατανομή εξόδου $b_{j}(y_{t})$ στην κατάσταση j, με $y_{t}$ το ακουστικό διάνυσμα τη χρονική στιγμή t θα ισχύει, δεδομένου της απεικόνισης του $y_{t}$ στο διάνυσμα $y_{m}$ του codebook :


\begin{displaymath}
\sum_{m=1}^M b_{j}(y_{m}) = 1
\end{displaymath} (1.4)

Το μεγάλο πλεονέκτημα με τα διακριτά μοντέλα είναι ότι υπολογιστικά αυτός ο τρόπος είναι αρκετά αποτελεσματικός από άποψη αναγνώρισης, αφού η πιθανότητα εξόδου δεν χρειάζεται να υπολογιστεί, αλλά ανακτάται μέσω ενός look-up table. Αντίθετα το μεγαλύτερο μέρος του χρόνου σπαταλάται στον κβαντισμό, όπου πρέπει να υπολογιστεί η ελάχιστη απόσταση του διανύσματος εισόδου με τα πρότυπα ακουστικά διανύσματα που περιέχονται στο codebook. Βλέπουμε λοιπόν ότι ο μηχανισμός VQ δρα σαν προ-επεξεργαστής αναγνώρισης (recognition preprocessor).

Όμως εκ των πραγμάτων, η ανάλυση του ακουστικού χώρου είναι μικρή (αφού έχουμε πεπερασμένο αριθμό συμβόλων εξόδου) με επιπτώσεις στην ακρίβεια της αναγνώρισης, οι οποίες ενισχύονται και λόγω του κβαντισμού ο οποίος εισαγάγει επιπλέον θόρυβο. Επίσης η χρήση VQ με είσοδο ``ολόκληρο'' το διάνυσμα ως έχει, απαιτεί πολύ μεγάλα codebooks για να καλύψει το ακουστικό χώρο, ακόμα και όταν αυτός παραμένει σχετικά μικρός.

Βέβαια για τις πρώτες εφαρμογές αναγνώρισης φωνής το μοντέλο αυτό λειτουργούσε ικανοποιητικά, αφού εκείνη την εποχή η διαθεσιμότητα σε πόρους όπως μνήμη και υπολογιστική ισχύς ήταν περιορισμένη, ενώ και τα λεξιλόγια ήταν σχετικά μικρά. Καθώς περνούσαν τα χρόνια, με την εισαγωγή όλο και ισχυρότερων υπολογιστικών συστημάτων αλλά κυρίως με τις απαιτήσεις εφαρμογών για πολύ μεγαλύτερο λεξιλόγιο, έγινε φανερό ότι το συγκεκριμένο μοντέλο δεν ήταν πια κατάλληλο.

Συνεχή HMMs - Gaussian Mixture HMMs

Έτσι τα σύγχρονα συστήματα αναγνώρισης χρησιμοποιούν παραμετρικές συνεχείς κατανομές εξόδου που μοντελοποιούν τα ακουστικά διανύσματα απευθείας. Για το σκοπό αυτό συνήθως χρησιμοποιούνται μείγματα γκαουσιανών κατανομών και η πιθανότητα εξόδου (output propability) είναι η εξής :


\begin{displaymath}
b_{j}(y_{t}) = \sum_{m=1}^M c_{jm} N ( y_{t} ; \mu_{jm}, \Sigma_{jm})
\end{displaymath} (1.5)

όπου $c_{jm}$ είναι το βάρος (weight) του μείγματος m στην κατάσταση j και $ N ( y_{t} ; \mu_{jm}, \Sigma_{jm})$ είναι η πολυδιάστατη (multivariate) γκαουσιανή με μέση τιμή $\mu$ και συνδιακύμανση $\Sigma$ για το μείγμα m στην κατάσταση j. Συνήθως «παρόμοιες» καταστάσεις μεταξύ HMMs χρησιμοποιούν κοινές γκαουσιανές, έτσι ώστε να μειώνεται ο συνολικός αριθμός τους. Παρ' όλα αυτά, ο χρόνος που χρειάζεται τόσο για την εκπαίδευση των παραμέτρων τους, όσο και κατά την διαδικασία της αναγνώρισης, είναι αρκετά μεγαλύτερος σε σχέση με τους αντίστοιχους χρόνους με διακριτά HMM μοντέλα.

Μείγματα διακριτών HMMs από κβαντοποίηση συνεχών HMMs

Όπως είναι φανερό από τα παραπάνω, παρουσιάζεται το φαινόμενο τα μειονεκτήματα της μιας κατηγορίας HMMs να αποτελούν πλεονεκτήματα για το άλλο είδος και αντίστροφα. Στο εργαστήριο μας υλοποιήθηκε ένα καινούριο είδος ακουστικών μοντέλων που συγκεντρώνει τα πλεονεκτήματα των 2 μεθόδων και προκύπτει με τον εξής συλλογισμό :

Η ιδέα είναι να εφαρμόσουμε το VQ όχι απ''ευθείας στα ακουστικά μοντέλα αλλά στο front-end. Με την έξοδο του VQ να μην είναι πια ο δείκτης, αλλά το ίδιο το πρότυπο διάνυσμα, μπορούμε να πειραματιστούμε μέχρι να καταλήξουμε σε κάποιο σχήμα κωδικοποίησης που να δίνει υψηλή ακρίβεια αναγνώρισης για το ζητούμενο βαθμό συμπίεσης (με χρήση πάντα των Gaussian Mixture HMMs). Εφαρμόζοντας το σχήμα κωδικοποίησης στο οποίο καταλήξαμε, κβαντίζουμε σε δείκτη τώρα πια και παράλληλα διακριτοποιούμε τα μείγματα των γκαουσιανών. Τώρα, περιμένουμε το ίδιο επίπεδο ακρίβειας αναγνώρισης (λόγω της ικανοποιητικής ανάλυσης του ακουστικού χώρου που διατηρήσαμε) καθώς και επιτάχυνσης του χρόνου αναγνώρισης (λόγω της αντικατάστασης του υπολογισμού της πιθανότητας εξόδου με ένα απλό look-up). Καταλυτικό ρόλο, παίζει το γεγονός ότι το κάθε ακουστικό διάνυσμα ``σπάει'' σε κατάλληλα επιλεγμένα μικρότερα διανύσματα (έστω L). Αυτό έχει σαν αποτέλεσμα την ακόμα μεγαλύτερη επιτάχυνση του χρόνου αναγνώρισης, καθώς αντί να χρησιμοποιείται ένα ``τεράστιο'' codebook κατά τη διάρκεια του κβαντισμού, χρησιμοποιούνται L μικρά codebooks.

Βασιζόμενοι λοιπόν στον διανυσματικό κβαντισμό των MFCC διανυσμάτων του front-end σύμφωνα με τα παραπάνω, η κατανομή εξόδου $b_{j}(y_{t})$, με $y_{t} = [ y_{1t}, y_{2t} \ldots y_{Lt} ]$ το διάνυσμα που περιέχει τα L υποδιανύσματα είναι :


\begin{displaymath}
b_{j}(y_{t}) = \sum_{m=1}^M c_{jm} \prod_{i=1}^L P_{mi}(vq(y_{it}))
\end{displaymath} (1.6)

όπου $c_{jm}$ είναι το βάρος (weight) του μείγματος m στη κατάσταση j και $P_{mi}(vq(y_{it}))$ η πιθανότητα του διακριτού συμβόλου $vq(y_{it})$ για το υποδιάνυσμα i του μείγματος m. Με $vq(y_{it})$ αναπαριστούμε το σύμβολο εξόδου του κβαντισμού του υποδιανύσματος i την χρονική στιγμή t, με άλλα λόγια τον αντίστοιχο δείκτη.

Συγκρίνοντας τις εξισώσεις [*] και [*], βλέπουμε ότι έχουμε αντικατάσταση της γκαουσιανής με ένα γινόμενο πιθανοτήτων, πράγμα που έχει σαν αποτέλεσμα την αντικατάσταση του υπολογισμού των πιθανοτήτων εξόδου των γκαουσιανών με ένα look-up και συνεπώς την επιτάχυνση της αναγνώρισης. Για περισσότερες λεπτομέρειες παραπέμπουμε στην διπλωματική εργασία  [#!Tsak!#].

Συμπεράσματα

Παραπομπές

Σε αυτό το κεφάλαιο δόθηκε μια πολύ σύντομη εισαγωγή στο κεφάλαιο που λέγεται αναγνώριση φωνής. Μια πιο πλήρης αλλά και περιεκτική εισαγωγή δίνεται στην εργασία [#!SRS1!#], η οποία επίσης περιέχεται και στο βιβλίο [#!SRS3!#] για το HTK σύστημα. Πιο ειδικά, μια αναλυτική περιγραφή για επεξεργασία φωνής δίνεται στο [#!SRS2!#]. Ένα αρκετά αξιόλογο και πλήρες βιβλίο είναι το [#!SRS4!#] για το οποίο συνίσταται και το [#!SRS5!#]. Στη [#!SRS4!#] δίνεται μια ολοκληρωμένη εικόνα του τομέα αναγνώρισης φωνής, από τεχνικές για παραγωγή ακουστικών διανυσμάτων και σύγκρισης προτύπων, μέχρι την εκπαίδευση και προσαρμογή μοντέλων, αλλά και πρακτικές λύσεις για την αποτελεσματικότητα ενός συστήματος αναγνώρισης φωνής.


next up previous
Next: Κωδικοποίηση φωνής Up: mythesis Previous: Εισαγωγή
root 2001-02-24