Για να μιλήσει η Alexa σαν Δουβλίνος, οι ερευνητές της Amazon έπρεπε να λύσουν ένα πρόβλημα που ενοχλεί τους επιστήμονες δεδομένων εδώ και χρόνια: τη φωνητική αποσύνδεση.
Όπως ο Henry Higgins, ο φωνολόγος από το έργο του George Bernard Shaw «Πυγμαλίων», ο Marius Cotescu και ο Georgi Tinchev έδειξαν πρόσφατα πώς ο μαθητής τους προσπαθούσε να ξεπεράσει τις δυσκολίες στην προφορά.
Οι δύο επιστήμονες δεδομένων, που εργάζονται για την Amazon στην Ευρώπη, δίδασκαν την Alexa , τον ψηφιακό βοηθό της εταιρείας. Καθήκον τους: να βοηθήσουν την Alexa να μάθει αγγλικά με ιρλανδική προφορά με τη βοήθεια τεχνητής νοημοσύνης και ηχογραφήσεων από φυσικούς ομιλητές.
Κατά τη διάρκεια της διαδήλωσης, η Alexa μίλησε για μια αξέχαστη βραδινή έξοδο. «Το πάρτι χθες το βράδυ ήταν υπέροχο,» είπε η Alexa βουρκωμένη, χρησιμοποιώντας την ιρλανδική λέξη για διασκέδαση. «Πήραμε παγωτό στο δρόμο για το σπίτι και ήμασταν χαρούμενοι έξω».
Ο κύριος Τίντσεφ κούνησε το κεφάλι του. Η Alexa είχε ρίξει το “r” στο “party”, κάνοντας τη λέξη να ακούγεται επίπεδη, σαν pah-tee. Υπερβολικά Βρετανός, κατέληξε.
Οι τεχνολόγοι είναι μέρος μιας ομάδας στο Amazon που εργάζεται σε μια προκλητική περιοχή της επιστήμης δεδομένων, γνωστή ως αποσύνδεση φωνής. Είναι ένα δύσκολο ζήτημα που έχει αποκτήσει νέα συνάφεια εν μέσω ενός κύματος εξελίξεων τεχνητής νοημοσύνης, με τους ερευνητές να πιστεύουν ότι το παζλ ομιλίας και τεχνολογίας μπορεί να βοηθήσει να γίνουν οι συσκευές με τεχνητή νοημοσύνη, τα ρομπότ και οι συνθέτες ομιλίας πιο συνομιλητές – δηλαδή ικανοί να τραβήξουν ένα πλήθος τοπικών τόνους.
Η αντιμετώπιση της απεμπλοκής της φωνής περιλαμβάνει πολύ περισσότερα από την κατανόηση λεξιλογίου και σύνταξης. Ο τόνος, η χροιά και η προφορά ενός ομιλητή συχνά δίνουν στις λέξεις διαφοροποιημένο νόημα και συναισθηματικό βάρος. Οι γλωσσολόγοι αποκαλούν αυτό το χαρακτηριστικό της γλώσσας «προσωδία», κάτι που οι μηχανές δυσκολεύτηκαν να κατακτήσουν.
Μόνο τα τελευταία χρόνια, χάρη στην πρόοδο της τεχνητής νοημοσύνης, των τσιπ υπολογιστών και άλλου υλικού, οι ερευνητές έκαναν βήματα προόδου στην επίλυση του ζητήματος της απεμπλοκής της φωνής, μετατρέποντας την ομιλία που δημιουργείται από υπολογιστή σε κάτι πιο ευχάριστο για το αυτί.
Μια τέτοια εργασία μπορεί τελικά να συγκλίνει με μια έκρηξη « γεννητικής τεχνητής νοημοσύνης », μια τεχνολογία που επιτρέπει στα chatbots να δημιουργούν τις δικές τους απαντήσεις, είπαν οι ερευνητές. Τα ρομπότ συνομιλίας όπως το ChatGPT και το Bard ενδέχεται κάποια μέρα να ενεργήσουν πλήρως στις φωνητικές εντολές των χρηστών και να απαντήσουν προφορικά. Ταυτόχρονα, οι βοηθοί φωνής όπως η Alexa και το Siri της Apple θα γίνουν πιο συνομιλητές, αναζωπυρώνοντας πιθανώς το ενδιαφέρον των καταναλωτών για ένα τεχνολογικό τμήμα που φαινομενικά είχε σταματήσει , είπαν οι αναλυτές.
Η απόκτηση φωνητικών βοηθών όπως η Alexa, η Siri και ο Βοηθός Google να μιλούν πολλές γλώσσες ήταν μια δαπανηρή και παρατεταμένη διαδικασία. Οι εταιρείες τεχνολογίας έχουν προσλάβει φωνητικούς ηθοποιούς για να ηχογραφούν εκατοντάδες ώρες ομιλίας, κάτι που βοήθησε στη δημιουργία συνθετικών φωνών για ψηφιακούς βοηθούς. Τα προηγμένα συστήματα τεχνητής νοημοσύνης γνωστά ως “μοντέλα μετατροπής κειμένου σε ομιλία” – επειδή μετατρέπουν κείμενο σε συνθετική ομιλία με φυσικό ήχο – μόλις αρχίζουν να βελτιστοποιούν αυτή τη διαδικασία.
Η τεχνολογία «είναι πλέον σε θέση να δημιουργήσει ανθρώπινη φωνή και συνθετικό ήχο με βάση μια εισαγωγή κειμένου, σε διαφορετικές γλώσσες, προφορές και διαλέκτους», δήλωσε η Marion Laboure, ανώτερη στρατηγός της Deutsche Bank Research.