Make your own free website on Tripod.com

ΥΠΟ Δ’ ΑΜΦΙΠΟΛΟΙ ΡΩΟΝΤΟ ΑΝΑΚΤΙ

ΧΡΥΣΕΙΑΙ ΖΩΕΙΣΙ ΝΕΗΝΙΣΙΝ ΕΙΟΙΚΥΙΑΙ,

ΤΗΙΣ ΕΝ ΜΕΝ ΝΟΟΣ ΕΣΤΙ ΜΕΤΑ ΦΡΕΣΙΝ, ΕΝ ΔΕ ΚΑΙ ΑΥΔΗ

ΚΑΙ ΣΘΕΝΟΣ, ΑΘΑΝΑΤΩΝ ΔΕ ΘΕΩΝ ΑΠΟ ΕΡΓΑ ΙΣΑΣΙΝ.

(ΙΛΙΑΔΑ, Σ΄ 418-419)

 

Ο υπολογιστής σας δεν είναι πια παιδί. Μιλήστε του, θα καταλάβει!

 

ΥΠΟΤΙΤΛΟΣ: Κάποτε ο Ήφαιστος διέταζε τις μηχανές του να ανάψουν και να δουλέψουν με μια του λέξη. Σήμερα όμως, με την  τεχνολογία αναγνώρισης φωνής, ο «μύθος» γίνεται πραγματικότητα. Μπορούμε να μιλάμε κι εμείς στις μηχανές μας – και να λέμε πολλά περισσότερα από εκείνο το «άνοιξε σουσάμι»…

Το πρωτοβλέπουμε στον Όμηρο: στο εργαστήρι του Ηφαίστου, αγάλματα χρυσά, όμοια με κοπέλες στην όψη και στη φωνή, εργάζονται υπό τις διαταγές του θεού (Ιλιάδα, Σ΄ 418-419). Το βλέπουμε και στο γνωστό παραμύθι του Αλή Μπαμπά, όταν η σπηλιά με τους θησαυρούς ανοίγει με το σύνθημα «άνοιξε σουσάμι». Στη φαντασία των λαών, η ανθρώπινη φωνή έχει τη δύναμη να ελέγχει τα άψυχα πράγματα και τα στοιχεία της φύσης. Στην εποχή μας όμως, δε χρειάζεται να καταφεύγουμε σε ξόρκια για να το πετύχουμε αυτό. Οι μηχανές μας, που ολοένα και περισσότερο προσαρμόζονται στις ανάγκες μας, έφτασαν πλέον στην εποχή του «ακούω και υπακούω». Η τεχνολογία αναγνώρισης φωνής είναι ήδη εδώ.

 

ViaVoice Text-To-Speech

Πρωτοπόρος στην τεχνολογία αναγνώρισης φωνής είναι, από τα μέσα της δεκαετίας του 1960, η ΙΒΜ. Από τότε, εικοσαετείς και πλέον έρευνες κατέληξαν στην παρουσίαση του πρώτου προγράμματος αναγνώρισης μεμονωμένων λέξεων, του VoiceType. Με περιορισμένο λεξιλόγιο και επιβάλλοντας έναν αφύσικο τρόπο υπαγόρευσης στο χρήστη, το VoiceType αποτελούσε ένα πρωτόλειο που έμελλε γρήγορα να ξεπεραστεί. Σήμερα, με την ταχύτητα των σύγχρονων επεξεργαστών, η τεχνολογία της ΙΒΜ προσφέρει προϊόντα αναγνώρισης συνεχούς ομιλίας, μέσα από ένα λεξιλόγιο που ποικίλει (ανάλογα με την έκδοση) από εξήντα έως εκατό χιλιάδες λέξεις. Το γνωστό πλέον ViaVoice κυκλοφορεί σε περισσότερες από οκτώ γλώσσες, μεταξύ των οποίων και εκδόσεις ξεχωριστές για τα αγγλικά των ΗΠΑ και της Μεγάλης Βρετανίας, καθώς και για τα παραδοσιακά και τα απλοποιημένα κινεζικά.

Τι είναι όμως η τεχνολογία αναγνώρισης φωνής κα σε ποιες αρχές στηρίζεται; Ο ερευνητής της ΙΒΜ και τεχνικός προϊστάμενος του προγράμματος αναγνώρισης φωνής για την ελληνική γλώσσα, κος Λάζαρος Πολυμενάκος, μας εξηγεί: «Η αναγνώριση φωνής δεν έρχεται να υποκαταστήσει, αλλά να συμπληρώσει και να ολοκληρώσει το φάσμα της διάδρασης του χρήστη με τον υπολογιστή. Με ένα πρόγραμμα σαν το ViaVoice μπορεί κανείς να υπαγορεύει κείμενο ή να δίνει φωνητικές εντολές στον υπολογιστή του, αποδεσμεύοντας τα χέρια του από το πληκτρολόγιο ή το ποντίκι, ώστε να μπορεί παράλληλα να κάνει κι άλλα πράγματα. Με την τεχνολογία NLU (Natural Language Understanding), που αποτελεί βασικό μέρος της τεχνολογίας του ViaVoice, ο χρήστης απευθύνεται στο σύστημα σαν να απευθύνεται σε πρόσωπο».

Η τεχνολογία Text-To-Speech του ViaVoice προβαίνει στην αναγνώριση φωνής μέσα από μια διαδικασία σε δύο φάσεις. Η πρώτη αφορά στην πορεία από τη φωνητική αίτηση (υπαγόρευση κειμένου ή εντολών) στην υλοποίηση της αίτησης. Η φωνή λαμβάνεται ως ηχητικό σήμα από τον ειδικό επεξεργαστή, ο οποίος την αποκωδικοποιεί σε ψηφιακό σήμα. Στη συνέχεια, και με την εισαγωγή δεδομένων λεξιλογίου και γλωσσικών προτύπων, το πρόγραμμα εξάγει πιθανές ακολουθίες λέξεων με τη μορφή κειμένου.

Το πρόγραμμα είναι σε θέση να διακρίνει ποια στοιχεία της ομιλίας του χρήστη συνιστούν υπαγόρευση κειμένου και ποια συνιστούν εντολές επεξεργασίας του κειμένου. Για παράδειγμα, έστω ότι υπαγορεύει κανείς τη φράση “John is here”. Όταν ο χρήστης εκφωνήσει τη φράση “select John”, το πρόγραμμα θα «καταλάβει» ότι πρέπει να μαρκάρει τη λέξη John, κι όχι να γράψει τη φράση. Παρόμοια, το πρόγραμμα μπορεί μετά να εκτελέσει εντολές μορφοποίησης του επιλεγμένου κειμένου, όπως “bold”, “italic” κλπ. Ένα άλλο δείγμα της «ευφυΐας» του προγράμματος είναι ότι διακρίνει τις ομόηχες λέξεις με κριτήριο την παρουσία και τη λειτουργία τους σε συγκεκριμένο context.

Οι ακολουθίες λέξεων σχηματίζονται με βάση στατιστικά γλωσσικά πρότυπα που ακολουθούν τη μαθηματική μορφή P (yx) = P (xy) P (y), όπου ως P (yx) ορίζεται η πιθανότητα να ανταποκρίνεται το y (ακολουθία λέξεων) στο δεδομένο x (ακουστικό σήμα). Τα πιθανοτικά μοντέλα αυτού του τύπου συνιστούν τον σκληρό πυρήνα της τεχνολογίας NLU και είναι ιδιαίτερα ευέλικτα και πλησιέστερα στους μηχανισμούς της ανθρώπινης ομιλίας, καθώς ανταποκρίνονται σε πραγματικά δεδομένα της ομιλίας, χωρίς να περιορίζονται από τις αφηρημένες φόρμες των γραμματικοσυντακτικών κανόνων.

Η δεύτερη φάση αφορά στην πορεία από το κείμενο στη φωνητική απόδοση του περιεχομένου του κειμένου. Εδώ κυρίως γίνεται η υλοποίηση της τεχνολογίας NLU. Η πηγή (το επιλεγμένο κείμενο) μπορεί να ακολουθεί οποιαδήποτε φόρμα: κείμενο του Word, σελίδα PDF ή μήνυμα ηλεκτρονικού ταχυδρομείου. Το κείμενο εισάγεται σε έναν parser (αναλυτή-κωδικοποιητή), ο οποίος παράγει ακολουθίες φωνημάτων. Στη συνέχεια το πρόγραμμα επιλέγει τις πιθανότερες από τις ακολουθίες αυτές, με βάση την αντιστοιχία τους στα ακουστικά πρότυπα του προγράμματος. Στο τελικό στάδιο, οι ακολουθίες φωνημάτων συρράπτονται και κανονικοποιούνται σε συνεχή λόγο.

Βασισμένες περισσότερο στη θεωρία  των πιθανοτήτων και στη στατιστική, και λιγότερο στη γλωσσολογία, οι αρχές της τεχνολογίας NLU προσιδιάζουν στις αρχές με τις οποίες ο ίδιος ο άνθρωπος κατακτά τη γλώσσα μέσω του περιβάλλοντός του. Στην αρχιτεκτονική του προγράμματος περιλαμβάνεται βεβαίως ένα σημαντικό γλωσσολογικό κομμάτι (αρκετά μεγάλο λεξιλόγιο και μνήμη λεκτικών και ακουστικών προτύπων), ωστόσο το κομμάτι αυτό έχει πρωτίστως κατασκευαστική κι όχι κανονιστική λειτουργία. Με απλά λόγια, το πρόγραμμα δεν επιβάλλει, αλλά επιλέγει και προτείνει στο χρήστη πιθανές ακολουθίες λέξεων, αφήνοντας τελικά το χρήστη να έχει τον τελευταίο λόγο στην επιλογή.

Ενσωματώνοντας τεχνολογίες αιχμής, το ViaVoice αποτελεί την υλοποίηση μιας σειράς τεχνολογικών επιτευγμάτων που ανέπτυξε η ΙΒΜ τα τελευταία χρόνια. Μαζί με την τεχνολογία NLU, το ViaVoice αποτελεί τη βάση της πλατφόρμας ViaVoice Telephony run-time environment, η οποία επιτρέπει τη διάδραση μεταξύ χρήστη και υπολογιστικού συστήματος μέσω τηλεφωνίας. Με το Telephony run-time environment οι τηλεφωνικές συσκευές αναβαθμίζονται σε εύχρηστα μέσα διάδρασης με τους υπολογιστές, όπως ακριβώς το πληκτρολόγιο και το ποντίκι.

Το ViaVoice κυκλοφορεί, όπως είπαμε παραπάνω, σε αρκετές γλώσσες: αγγλικά ΗΠΑ, αγγλικά Μ.Βρετανίας, γαλλικά, γερμανικά, ισπανικά, πορτογαλικά Βραζιλίας, ιαπωνικά και κινεζικά (παραδοσιακά και απλοποιημένα). Σύντομα θα ολοκληρωθεί η έρευνα πάνω στην ελληνική γλώσσα, μας διαβεβαιώνει ο κος Πολυμενάκος, και μάλιστα στα πλαίσια ενός ευρύτερου project…ολυμπιακών προδιαγραφών.

 

CATCH 2004: ένα έργο… Ολυμπιακών διαστάσεων!

Όπως είδαμε παραπάνω, οι έρευνες της ΙΒΜ πάνω στην τεχνολογία NLU και η ανάπτυξη του Telephony run-time environment, ανοίγουν νέους ορίζοντες στην τηλεφωνία. Εξοικειωμένοι καθώς είμαστε όλοι με τις τηλεφωνικές συσκευές, θα μπορούμε πλέον να αξιοποιήσουμε την άνεση και την απλότητα στη χρήση τους για εργασίες που μέχρι τώρα απαιτούσαν κάποιες ειδικές δεξιότητες και γνώσεις πάνω στα υπολογιστικά συστήματα. Ένα πρωτοποριακό πρόγραμμα συνδυασμού τεχνολογίας δικτύων, τηλεφωνίας και τεχνολογίας πολυμέσων αποτελεί το CATCH 2004.

Το πρόγραμμα CATCH (Converse in AThens, Cologne and Helsinki) 2004 είναι ερευνητικό πρόγραμμα χρηματοδοτούμενο από την Ευρωπαϊκή Επιτροπή. Αποτελεί σημαντικό μέρος του ευρύτερου προγράμματος IST (Information Society Technologies), προϋπολογισμού 3,6 εκατ. Euro, ενός προγράμματος ενοποίησης της τεχνολογίας τηλεπικοινωνιών, επεξεργασίας πληροφοριών και ηλεκτρονικών μέσων ενημέρωσης. Στα πλαίσια του IST, το CATCH 2004, ανοίγοντας το δρόμο προς την ενοποίηση των τεχνολογιών αυτών, στοχεύει στην ανάπτυξη ενός πολυγλωσσικού συστήματος επικοινωνίας βασισμένου στην δικτύωση πληροφοριών, υπηρεσιών και συσκευών. Κέντρα-κόμβοι του CATCH θα είναι η Αθήνα, η Κολωνία και το Ελσίνκι. Η δραστηριοποίηση ιδιωτικών και δημόσιων οργανισμών, όπως εταιρίες τηλεφωνίας, internet providers και εκπαιδευτικά ιδρύματα, θα αποτελέσει τη «ραχοκοκαλιά» ενός εκτεταμένου δικτύου πληροφοριών που θα αφορούν όχι μόνο στις πόλεις αυτές, αλλά και στις χώρες τους, καθώς και σε εκείνες τις ευρωπαϊκές χώρες στις οποίες δραστηριοποιούνται οι εταιρίες αυτές (όπως, για παράδειγμα, ο δικός μας ΟΤΕ, ο οποίος επεκτείνει τις δραστηριότητές του στα Βαλκάνια). Το χρονικό πλαίσιο υλοποίησης του προγράμματος συμπίπτει με την περίοδο διεξαγωγής των ολυμπιακών αγώνων στην Αθήνα το 2004.

Το πρόγραμμα θα παρέχει στους πολίτες πρόσβαση σε πληροφορίες και εφαρμογές, μέσω δημοσίων και ιδιωτικών φορέων παροχής υπηρεσιών, προσφέροντας παράλληλα πολλαπλούς τρόπους πρόσβασης, κυρίως μέσω τηλεφωνίας (σταθερής και κινητής). Οι πληροφορίες θα περιλαμβάνουν ως επί το πλείστον πρόσβαση στο διαδίκτυο μέσω τηλεφώνου, ταξιδιωτικές πληροφορίες, πληροφορίες τηλεφωνικών καταλόγων και τραπεζικών συναλλαγών. Σε κατάλληλα διαμορφωμένα κιόσκια, εκτός από τηλεφωνικές συσκευές, οι πολίτες ελεύθερα θα μπορούν να συμβουλεύονται ηλεκτρονικούς πίνακες και συσκευές touch-screen, οι οποίες όμως θα είναι κι εκείνες δικτυωμένες στο σύστημα CATCH.

Κατά τη διάρκεια των ολυμπιακών αγώνων του 2004, ο ΟΤΕ θα εγκαταστήσει, για τους συμμετέχοντες και όσους παρακολουθούν τους αγώνες, μια σειρά σταθμών από τους οποίους θα μπορεί κανείς να έχει πρόσβαση σε μια πληθώρα πληροφοριών σχετικά με τους αγώνες, με τη διασκέδαση, την ψυχαγωγία, ταξιδιωτικές πληροφορίες, δυνατότητα κράτησης θέσεων και αγοράς εισιτηρίων. Με δυο λόγια, οι πολίτες θα έχουν μπροστά τους συσκευές σαν ζωντανές ιντερνετικές πύλες. Παράλληλα με την παροχή υπηρεσιών, οργανισμοί όπως η ΝΟΚΙΑ και το Εθνικό Μετσόβειο Πολυτεχνείο θα καταγράφουν την πορεία του προγράμματος, την ανταπόκριση του κόσμου σε αυτό, τις τυχόν δυσχέρειες που θα παρατηρηθούν, ώστε το CATCH 2004 να αποτελέσει και ένα ζωντανό πεδίο επιστημονικών παρατηρήσεων, από το οποίο θα προκύψουν γόνιμα συμπεράσματα για το μέλλον των νέων τεχνολογιών που επιστρατεύονται στο πρόγραμμα.

Παράλληλες δράσεις θα λαμβάνουν χώρα στην Κολωνία, περιορισμένες όμως σε ερευνητικό επίπεδο. Ειδικευμένο προσωπικό θα ελέγχει τη λειτουργία της μονάδας NLU του συστήματος και θα δοκιμάζει τις επιδόσεις των σταθμών της Αθήνας, αναπτύσσοντας παράλληλα ένα αντίγραφο του αθηναϊκού δικτύου σταθμών στην Κολωνία. Στη Φινλανδία, στο Ελσίνκι, η ΝΟΚΙΑ θα καταγράφει τις επιδόσεις των τηλεφωνικών συστημάτων και θα παρουσιάζει γραπτές εκθέσεις και παρυσιάσεις σχετικά με την πορεία του προγράμματος.

Μετά τους ολυμπιακούς αγώνες, η υποδομή και ο τεχνικός εξοπλισμός του CATCH 2004 θα παραμείνει στη χώρα μας, ως κεφάλαιο για την αναβάθμιση των τουριστικών υπηρεσιών προς τους ξένους επισκέπτες. Η σταδιακή υποστήριξη περισσότερων γλωσσών, χάρη στην τεχνολογία NLU της ΙΒΜ, θα ανοίξει το δρόμο για την εξάπλωση του συστήματος και σε άλλες χώρες. Εάν μάλιστα κανείς λάβει υπόψη την έντονη δραστηριοποίηση του ΟΤΕ στις βαλκανικές χώρες, οι προοπτικές να γίνει το CATCH ο κοινός δεσμός των Βαλκανίων είναι μεγάλες, ενδιαφέρουσες και, οπωσδήποτε, προσοδοφόρες.

 

Η έρευνα δεν σταματά εδώ…

Από τότε που η ΙΒΜ ξεκίνησε την έρευνα πάνω στην αναγνώριση της ανθρώπινης ομιλίας, έχουν περάσει πάνω από 35 χρόνια. Πολλές εταιρίες έχουν δραστηριοποιηθεί στον τομέα αυτό, μεταξύ των οποίων η Microsoft (λείπει ο Μάρτης;…), η Dragon με το γνωστό της Naturally Speaking v. 5.0, η ρωσική Titan, η Nuance και, στη χώρα μας, η Διάλογος. Οι δύο τελευταίες εταιρίες έχουν μάλιστα μια πολύ ενδιαφέρουσα σχέση, καθώς η δεύτερη αντιπροσωπεύει την πρώτη στην ελληνική αγορά. Η Διάλογος προωθεί τα προϊόντα της Nuance, τα οποία όμως στηρίζονται κατά πολύ μεγάλο μέρος στις προσπάθειες της ερευνητικής ομάδας της Διάλογος.

Ας βάλουμε όμως τα πράγματα σε τάξη: πριν μερικά χρόνια ο καθηγητής του Πολυτεχνείου των Χανίων Κος Βασίλης Διγαλάκης, στα πλαίσια των ερευνών του γύρω από την ψηφιακή επεξεργασία της ομιλίας, βρέθηκε στο Stanford Research Institute. Το Ινστιτούτο βρίσκεται στο Menlo Park της Καλιφόρναι, στην έδρα της εταιρίας Nuance Communications. Οι πρωτοποριακές έρευνες του καθηγητή Κου Διγαλάκη και της ομάδας του είχαν εξαιρετικό ενδιαφέρον για την εταιρία, η οποία αξιοποίησε τις έρευνες αυτές στα δικά της προϊόντα. Η συνεργασία της «ομάδας των Χανίων» με τη Nuance οδήγησε στην ίδρυση της εταιρίας Διάλογος, η οποία δημιουργεί προϊόντα για την ελληνική γλώσσα, στηριγμένη στο σύστημα της Nuance.

Ενδιαφέρον παρουσιάζει το έργο ΛΟΓΟΤΥΠΟΓΡΑΦΙΑ (ο πλήρης τίτλος του έργου: «ΛΟΓΟΤΥΠΟΓΡΑΦΙΑ – Δημιουργία Ελληνικού συστήματος υπαγόρευσης και Εφαρμογή του στη Βελτίωση της Ροής Εργασίας στο Δημοσιογραφικό Χώρο»), το οποίο χρηματοδοτείται από τη Γ.Γ. Έρευνας και Τεχνολογίας και στο οποίο συμμετέχει (από πλευράς κρατικού ερευνητικού φορέα) το Ινστιτούτο Επεξεργασίας του Λόγου (ΙΕΛ). Οι αρχικές έρευνες για το έργο έγιναν από τον καθηγητή Κο Διγαλάκη, ο σχεδιασμός για την ανάπτυξή του έγινε από τη Διάλογος και το ΙΕΛ, ενώ η υλοποίησή του θα γίνει στο δημοσιογραφικό περιβάλλον της Ελευθεροτυπίας. Στόχος του έργου είναι να θέσει τις βάσεις για τη δημιουργία της πρώτης ελληνικής μηχανής υπαγόρευσης και για την ανάπτυξη ενός αμιγώς ελληνικού συστήματος αναγνώρισης φωνής. Με το έργο αυτό οι έρευνες του Κου Διγαλάκη (οι οποίες αφορούν στην ανάπτυξη συστημάτων διαχείρισης μεγάλου λεξιλογίου) θα βρουν εφαρμογή σε έναν ιδανικό φορέα-χρήστη, όπως είναι το περιβάλλον μιας μεγάλης εφημερίδας. Ωστόσο, οι λύσεις που προσφέρει η Nuance και η Διάλογος δεν περιορίζονται μόνο στο δημοσιογραφικό χώρο. Άμεσος επιχειρηματικός στόχος των δύο εταιριών είναι η ανάπτυξη φωνητικής πύλης πρόσβασης στο Internet. Ο ανταγωνισμός λοιπόν κορυφώνεται με την ανάπτυξη συμβατικών και φωνητικών ελληνικών πυλών, καθώς νέες εταιρίες ρίχνονται στο στίβο της «άγρας πελατών». Κι όταν οι πελάτες είναι μεγάλοι δημόσιοι και ιδιωτικοί φορείς και επιχειρήσεις, τότε το πράγμα μιλάει από μόνο του – και δε χρειάζεται και ψηφιακό μεταφραστή!…

 

Ηλεκτρονική βιβλιογραφία

1.       www-4.ibm.com/software/speech (η σελίδα της ΙΒΜ για τα προϊόντα τεχνολογίας αναγνώρισης φωνής)

2.       www.catch2004.org (η επίσημη σελίδα του οργανισμού CATCH 2004)

3.       svr-www.eng.cam.ac.uk/~ajr/SA95 (ολοκληρωμένη τεχνική παρουσίαση της τεχνολογίας αναγνώρισης φωνής)

4.       www.voicerecognition.com (πληροφορίες για τις εξελίξεις στο χώρο)

5.       www.dragonsystems.com

6.       www.speech.gr (η ελληνική εταιρία Διάλογος, αντιπρόσωπος της Nuance και μέλος του ομίλου Intrasoft)

7.       www.research.microsoft.com/research/srg (σελίδα της Microsoft για τις έρευνες της εταιρίας στην τεχνολογία αναγνώρισης φωνής, με παρουσίαση των προϊόντων Whistler, Whisper και DrWho)