Για να μιλήσει η Alexa σαν Δουβλίνος, οι ερευνητές της Amazon έπρεπε να λύσουν ένα πρόβλημα που ενοχλεί τους επιστήμονες δεδομένων εδώ και χρόνια: τη φωνητική αποσύνδεση.

Όπως ο Henry Higgins, ο φωνολόγος από το έργο του George Bernard Shaw «Πυγμαλίων», ο Marius Cotescu και ο Georgi Tinchev έδειξαν πρόσφατα πώς ο μαθητής τους προσπαθούσε να ξεπεράσει τις δυσκολίες στην προφορά.

Οι δύο επιστήμονες δεδομένων, που εργάζονται για την Amazon στην Ευρώπη, δίδασκαν την Alexa , τον ψηφιακό βοηθό της εταιρείας. Καθήκον τους: να βοηθήσουν την Alexa να μάθει αγγλικά με ιρλανδική προφορά με τη βοήθεια τεχνητής νοημοσύνης και ηχογραφήσεων από φυσικούς ομιλητές.

Κατά τη διάρκεια της διαδήλωσης, η Alexa μίλησε για μια αξέχαστη βραδινή έξοδο. «Το πάρτι χθες το βράδυ ήταν υπέροχο,» είπε η Alexa βουρκωμένη, χρησιμοποιώντας την ιρλανδική λέξη για διασκέδαση. «Πήραμε παγωτό στο δρόμο για το σπίτι και ήμασταν χαρούμενοι έξω».

Ο κύριος Τίντσεφ κούνησε το κεφάλι του. Η Alexa είχε ρίξει το “r” στο “party”, κάνοντας τη λέξη να ακούγεται επίπεδη, σαν pah-tee. Υπερβολικά Βρετανός, κατέληξε.

Οι τεχνολόγοι είναι μέρος μιας ομάδας στο Amazon που εργάζεται σε μια προκλητική περιοχή της επιστήμης δεδομένων, γνωστή ως αποσύνδεση φωνής. Είναι ένα δύσκολο ζήτημα που έχει αποκτήσει νέα συνάφεια εν μέσω ενός κύματος εξελίξεων τεχνητής νοημοσύνης, με τους ερευνητές να πιστεύουν ότι το παζλ ομιλίας και τεχνολογίας μπορεί να βοηθήσει να γίνουν οι συσκευές με τεχνητή νοημοσύνη, τα ρομπότ και οι συνθέτες ομιλίας πιο συνομιλητές – δηλαδή ικανοί να τραβήξουν ένα πλήθος τοπικών τόνους.

Η αντιμετώπιση της απεμπλοκής της φωνής περιλαμβάνει πολύ περισσότερα από την κατανόηση λεξιλογίου και σύνταξης. Ο τόνος, η χροιά και η προφορά ενός ομιλητή συχνά δίνουν στις λέξεις διαφοροποιημένο νόημα και συναισθηματικό βάρος. Οι γλωσσολόγοι αποκαλούν αυτό το χαρακτηριστικό της γλώσσας «προσωδία», κάτι που οι μηχανές δυσκολεύτηκαν να κατακτήσουν.

Μόνο τα τελευταία χρόνια, χάρη στην πρόοδο της τεχνητής νοημοσύνης, των τσιπ υπολογιστών και άλλου υλικού, οι ερευνητές έκαναν βήματα προόδου στην επίλυση του ζητήματος της απεμπλοκής της φωνής, μετατρέποντας την ομιλία που δημιουργείται από υπολογιστή σε κάτι πιο ευχάριστο για το αυτί.

Μια τέτοια εργασία μπορεί τελικά να συγκλίνει με μια έκρηξη « γεννητικής τεχνητής νοημοσύνης », μια τεχνολογία που επιτρέπει στα chatbots να δημιουργούν τις δικές τους απαντήσεις, είπαν οι ερευνητές. Τα ρομπότ συνομιλίας όπως το ChatGPT και το Bard ενδέχεται κάποια μέρα να ενεργήσουν πλήρως στις φωνητικές εντολές των χρηστών και να απαντήσουν προφορικά. Ταυτόχρονα, οι βοηθοί φωνής όπως η Alexa και το Siri της Apple θα γίνουν πιο συνομιλητές, αναζωπυρώνοντας πιθανώς το ενδιαφέρον των καταναλωτών για ένα τεχνολογικό τμήμα που φαινομενικά είχε σταματήσει , είπαν οι αναλυτές.

Η απόκτηση φωνητικών βοηθών όπως η Alexa, η Siri και ο Βοηθός Google να μιλούν πολλές γλώσσες ήταν μια δαπανηρή και παρατεταμένη διαδικασία. Οι εταιρείες τεχνολογίας έχουν προσλάβει φωνητικούς ηθοποιούς για να ηχογραφούν εκατοντάδες ώρες ομιλίας, κάτι που βοήθησε στη δημιουργία συνθετικών φωνών για ψηφιακούς βοηθούς. Τα προηγμένα συστήματα τεχνητής νοημοσύνης γνωστά ως “μοντέλα μετατροπής κειμένου σε ομιλία” – επειδή μετατρέπουν κείμενο σε συνθετική ομιλία με φυσικό ήχο – μόλις αρχίζουν να βελτιστοποιούν αυτή τη διαδικασία.

Η τεχνολογία «είναι πλέον σε θέση να δημιουργήσει ανθρώπινη φωνή και συνθετικό ήχο με βάση μια εισαγωγή κειμένου, σε διαφορετικές γλώσσες, προφορές και διαλέκτους», δήλωσε η Marion Laboure, ανώτερη στρατηγός της Deutsche Bank Research.

Επίδομα θέρμανσης: Πριν τα Χριστούγεννα η πρώτη πληρωμή

ΔΥΠΑ: Στις 6 Δεκεμβρίου λήγει η υποβολή αιτήσεων για το πρόγραμμα απόκτησης επαγγελματικής εμπειρίας 25.000 νέων

Το Ελληνικό Δημόσιο βγαίνει στις αγορές το 2025 για 11 δισ. ευρώ

Ο Όμιλος ΔΕΗ ανακοίνωσε την εξαγορά 629MW ΑΠΕ από την Evryo Group στη Ρουμανία

Αρνητικά πρόσημα στην Ασία με το βλέμμα στην Nvidia

Bitcoin: Συνεχίζει την κορύφωση ξεπερνώντας για πρώτη φορά τα 95.000 δολάρια

Ford: Μειώνει το 14% του ευρωπαϊκού εργατικού δυναμικού μέχρι το 2027

Volkswagen: Χωρίς λευκό καπνό οι διαπραγματεύσεις με τα συνδικάτα – Όλα δείχνουν απεργία

Quest Holdings: Ενοποιημένες πωλήσεις στα 926 εκατ. και καθαρά κέρδη 32,69 εκατ. στο ενιάμηνο

ΣΥΡΙΖΑ: Ανεξαρτητοποιήθηκαν Θεοδώρα Τζάκρη και Γιώτα Πούλου – Αξιωματική αντιπολίτευση το ΠΑΣΟΚ

Η Thales ενισχύει τις ικανότητες αεράμυνας πολύ μικρής εμβέλειας στην Πορτογαλία

Σ. Φάμελλος: Κάλεσμα συνεργασίας σε ΠΑΣΟΚ, Νέα Αριστερά και άλλα κόμματα

Μικρότητες από ΥΠΕΘΑ σε στρατιωτικό μητέρα βρέφους με συζυγο ΟΥΚΑ

Super Mario Αγάπα με…

Πρωήν “Ποταμίσιος” υπουργός του Μητσοτάκη που σβήνει δάνεια σε ποινικούς

Ο “Νέος Μεταμφιεσμένος σε Έρωτα” του Γιάννη Τσαρούχη δημοπρατήθηκε σε τιμή-ρεκόρ στο Παρίσι

Economist: Τα Γλυπτά του Παρθενώνα ενδέχεται να επιστρέψουν στην Ελλάδα το 2025

Οι Calexico έρχονται στην Αθήνα για μια χειμερινή συναυλία

Πώς η Amazon δίδαξε την Alexa να μιλάει σε μια ιρλανδική Brogue

Για να μιλήσει η Alexa σαν Δουβλίνος, οι ερευνητές της Amazon έπρεπε να λύσουν ένα πρόβλημα που ενοχλεί τους επιστήμονες δεδομένων εδώ και χρόνια: τη φωνητική αποσύνδεση.

Επίδομα θέρμανσης: Πριν τα Χριστούγεννα η πρώτη πληρωμή

Ford: Μειώνει το 14% του ευρωπαϊκού εργατικού δυναμικού μέχρι το 2027

ΣΥΡΙΖΑ: Ανεξαρτητοποιήθηκαν Θεοδώρα Τζάκρη και Γιώτα Πούλου – Αξιωματική αντιπολίτευση το ΠΑΣΟΚ

Volkswagen: Χωρίς λευκό καπνό οι διαπραγματεύσεις με τα συνδικάτα – Όλα δείχνουν απεργία