Το να μπορείς να μιλάς στην ψηφιακή βοηθό σου όπως θα μιλούσες σε οποιονδήποτε άνθρωπο, είναι πλέον ο στόχος πολλών εταιριών τεχνολογίας. Δεν είναι όμως τόσο εύκολο να σε καταλάβει ένας υπολογιστής. Τώρα η IBM ισχυρίζεται πως κατάφερε να πετύχει αναγνώριση ομιλίας με ποσοστό λάθους μόλις 5.5%, πολύ κοντινό σε ανθρώπινες επιδόσεις. Το προηγούμενο ρεκόρ της εταιρίας ήταν 6.9%, ενώ η Microsoft κατάφερε τον Οκτώβριο να φτάσει το 5.9%.
Η ανθρώπινη ακρίβεια στην ομιλία υπολογίζεται από την IBM σε ποσοστό λάθους 5.1%. Η IBM έφτασε το 5.5% συνδυάζοντας Long Short-Term Memory, τεχνητό νευρωνικό δίκτυο και WaveNet μοντέλα γλώσσας με τρία ακουστικά μοντέλα. Έπειτα μέτρησε τα αποτελέσματα χρησιμοποιώντας το “SWITCHBOARD”, μια συλλογή τηλεφωνικών συνομιλιών που εξυπηρετεί ως benchmark για τα λογισμικά αναγνώρισης ομιλίας.
Η ικανότητα να αναγνωρίζεις την ομιλία το ίδιο καλά με τους ανθρώπους είναι μια συνεχιζόμενη πρόκληση, αφού η ανθρώπινη ομιλία, ειδικά η αυθόρμητες συζητήσεις, είναι εξαιρετικά περίπλοκες. Είναι επίσης δύσκολο να ορίσεις τις επιδόσεις των ανθρώπων, αφού και οι ίδιοι ποικίλουν στην ικανότητά τους να κατανοήσουν την ομιλία άλλων.
Tags
Must Read
Ο πρώτος σκληρός δίσκος της IBM ζύγιζε έναν τόνο!
IBM: Παγώνει τις προσλήψεις επειδή θα αντικαταστήσει χιλιάδες θέσεις εργασίας με τεχνητή νοημοσύνη
Η IBM αποκάλυψε το πρώτο chip 2nm στον κόσμο (ΕΙΚΟΝΕΣ+ΒΙΝΤΕΟ)