IBM: Ανθρώπινη ακρίβεια στην αναγνώριση ομιλίας

Νέο επίτευγμα από την εταιρία
12 Μαρτίου 2017 09:43
IBM: Ανθρώπινη ακρίβεια στην αναγνώριση ομιλίας

Το να μπορείς να μιλάς στην ψηφιακή βοηθό σου όπως θα μιλούσες σε οποιονδήποτε άνθρωπο, είναι πλέον ο στόχος πολλών εταιριών τεχνολογίας. Δεν είναι όμως τόσο εύκολο να σε καταλάβει ένας υπολογιστής. Τώρα η IBM ισχυρίζεται πως κατάφερε να πετύχει αναγνώριση ομιλίας με ποσοστό λάθους μόλις 5.5%, πολύ κοντινό σε ανθρώπινες επιδόσεις. Το προηγούμενο ρεκόρ της εταιρίας ήταν 6.9%, ενώ η Microsoft κατάφερε τον Οκτώβριο να φτάσει το 5.9%.

Η ανθρώπινη ακρίβεια στην ομιλία υπολογίζεται από την IBM σε ποσοστό λάθους 5.1%. Η IBM έφτασε το 5.5% συνδυάζοντας Long Short-Term Memory, τεχνητό νευρωνικό δίκτυο και WaveNet μοντέλα γλώσσας με τρία ακουστικά μοντέλα. Έπειτα μέτρησε τα αποτελέσματα χρησιμοποιώντας το “SWITCHBOARD”, μια συλλογή τηλεφωνικών συνομιλιών που εξυπηρετεί ως benchmark για τα λογισμικά αναγνώρισης ομιλίας.

Η ικανότητα να αναγνωρίζεις την ομιλία το ίδιο καλά με τους ανθρώπους είναι μια συνεχιζόμενη πρόκληση, αφού η ανθρώπινη ομιλία, ειδικά η αυθόρμητες συζητήσεις, είναι εξαιρετικά περίπλοκες. Είναι επίσης δύσκολο να ορίσεις τις επιδόσεις των ανθρώπων, αφού και οι ίδιοι ποικίλουν στην ικανότητά τους να κατανοήσουν την ομιλία άλλων.