Jaka jest różnica między mową a tekstem i chatbotami?

Zawartość

P:

Jaka jest różnica między mową a chatbotami?

ZA:

Liczne znaczące różnice między mową a technologiami i chatbotami są częścią tego, co analizuje się w szybkiej ewolucji projektów chatbotów i chatbotów.

Przetwarzanie mowy na technologię to po prostu konwersja mowy werbalnej na stronę cyfrową. To jego pełna funkcja, ale nie taka prosta w projektowaniu. Aby przekonwertować mowę werbalną, technologia musi rozbić słowa i zdania na poszczególne fonemy i pracować z nimi zgodnie ze złożonymi algorytmami, aby stworzyć dokładne i odzwierciedlające to, co powiedział mówca.

Z drugiej strony Chatboty to technologie, które realizują cel komunikacji z człowiekiem. Istnieją dwa rodzaje chatbotów: chatboty i Voiceboty. chatboty działają już znacznie dłużej, ponieważ nie potrzebują mowy na element, z której korzystają.

Główną różnicą między mową a technologiami chatbotów jest zakres. Jak wspomniano, jedyną rzeczą, którą musi wykonać technologia zamiany mowy jest transkrypcja mowy werbalnej. Z drugiej strony chatbot musi zabierać głos w dowolnej formie, rozumieć go i udzielać odpowiedzi, które mają przejść test Turinga - test na to, czy technologia może oszukać człowieka, że jest on lub ona rozmawiać z inną osobą.

Mając to na uwadze, chatboty są znacznie łatwiejsze do utworzenia niż roboty głosowe. Chatbot przyjmuje ludzi i zapewnia odpowiedź. Nawet stosunkowo proste chatboty były w stanie zapewnić interesujące i przyjemne wyniki dla ludzi od przełomu lat 80. i 90.

Z drugiej strony robot głosowy musi przyjmować mowę werbalną, konwertować ją, sprawdzać dokładność, generować odpowiedź i budować odpowiedź z języka maszynowego na mowę słyszalną. Ta duża liczba dość znaczących zadań oznacza, że robot głosowy wymaga dużej mocy obliczeniowej i dużego projektu.

Projekty takie jak Siri, Cortana i Alexa są częścią awangardy technologii VoiceBot. Pokazują również, że ta technologia jest jeszcze w powijakach. Chociaż Alexa i inne technologie mogą ustnie reagować na ludzką mowę, nie są one wyjątkowo zdolne w tym sensie, że ogólnie kojarzą się z ludzką mową słowną. Innymi słowy, istnieje dość ograniczenie odpowiedzi, jakie te technologie mogą zapewnić. Dzisiejsza generacja osobistych asystentów ma nawet ograniczoną zdolność do generowania mowy, na przykład w celu przepisania lub pomocy komuś w napisaniu eseju bez użycia rąk. Niektóre z dostępnych na rynku programów mowy na programy robią to lepiej niż Siri lub Cortana, prawdopodobnie ze względu na alokację zasobów. Istnieją jednak oznaki, że wkrótce rozpocznie się rozwój VoiceBota - na przykład platforma Lex Amazon Amazons, która pozwala środowisku studyjnemu na budowanie tego rodzaju technologii.

W sprytnym i pouczającym eseju na ten temat Tobias Goebel mówi o różnicy między tymi technologiami, przeciwstawiając proces „transkrybowania”, jaką mowę robi, zadaniu zrozumienia, które mają robić chatboty.

„Chociaż wyeliminowanie potrzeby rozpoznawania mowy ułatwia chatbotowi, głównym wyzwaniem do zbudowania funkcjonujących botów jest zrozumienie języka naturalnego”, pisze Goebel.

Goebel identyfikuje również wielu obecnych graczy w branży:

Liderem na rynku rozpoznawania mowy jest Nuance, który stoi za dobrze znanymi systemami, takimi jak Dragon NaturallySpeaking do dyktowania na PC, który istnieje już od lat dziewięćdziesiątych, ale także Siri: zadanie rozpoznawania / transkrypcji mowy realizowane w chmurze Apple Technologia Nuance za kulisami. Inne to LumenVox, Verbio lub Interakcje, ale rozpoznawanie mowy jest teraz oferowane również jako usługa w chmurze za pośrednictwem interfejsów API takich firm jak Amazon, Google, Microsoft i IBM.

W miarę rozwoju chatbotów zakłada się, że ich zrozumienie będzie nadal rosło na niektórych trajektoriach - i w dużej mierze zakłada się, że więcej technologii botów przejdzie z interfejsów na interfejsy werbalne, co wymaga dodatkowej mocy obliczeniowej.