Programų skaičius ir balso sąsajų svarba sparčiai auga
Technologija

Programų skaičius ir balso sąsajų svarba sparčiai auga

Amerikiečių šeima Portlande, Oregone, neseniai sužinojo, kad balso padėjėja Alexa įrašė jų privačius pokalbius ir nusiuntė juos draugui. Namo savininkė, žiniasklaidos pravardžiuojama Danielle, žurnalistams sakė, kad „niekada daugiau nejungs šio įrenginio, nes ja negalima pasitikėti“.

Alexa, kurį teikia „Echo“ garsiakalbiai (1) ir kitos programėlės dešimtyse milijonų JAV namų, pradeda įrašinėti išgirdęs vartotojo vardą arba „šaukimo žodį“. Tai reiškia, kad net jei TV reklamoje paminėtas žodis „Alexa“, įrenginys gali pradėti įrašinėti. Kaip tik taip ir atsitiko šiuo atveju, sako aparatūros platintojas „Amazon“.

„Likusią pokalbio dalį balso padėjėjas suprato kaip komandą išsiųsti pranešimą“, – sakoma bendrovės pranešime. „Vienu metu Alexa garsiai paklausė: „Kas? Tęsiant šeimos pokalbį apie kietmedžio grindis mašina turėjo suvokti kaip elementą kliento kontaktų sąraše. Bent jau taip mano „Amazon“. Taigi vertimas susiveda į daugybę nelaimingų atsitikimų.

Tačiau nerimas išlieka. Nes kažkodėl namuose, kur vis dar jautėmės ramiai, turime įvesti kažkokį „balso režimą“, žiūrėti, ką sakome, ką transliuoja televizorius ir, žinoma, ką šis naujas garsiakalbis ant krūtinės. stalčiai sako . mus.

nepaisant to, Nepaisant netobulų technologijų ir susirūpinimo dėl privatumo, augant tokių įrenginių kaip „Amazon Echo“ populiarumui, žmonės pradeda priprasti prie minties bendrauti su kompiuteriais balsu..

Kaip 2017 m. pabaigoje AWS re:Invent sesijos metu pastebėjo Werneris Vogelsas, „Amazon“ technologijų vadovas, technologijos iki šiol ribojo mūsų sąveiką su kompiuteriais. Raktinius žodžius į Google įvedame naudodami klaviatūrą, nes tai vis dar yra labiausiai paplitęs ir lengviausias būdas įvesti informaciją į mašiną.

Vogelsas pasakė. –

didysis ketvertas

Telefone naudodamiesi Google paieškos sistema tikriausiai seniai ten pastebėjome mikrofono lentelę su kvietimu pasikalbėti. Tai „Google“ dabar (2), su kuria galite padiktuoti paieškos užklausą, įvesti pranešimą balsu ir pan. Pastaraisiais metais „Google“, „Apple“ ir „Amazon“ labai patobulėjo balso atpažinimo technologijos. Balso asistentai, tokie kaip Alexa, Siri ir Google Assistant, ne tik įrašo jūsų balsą, bet ir supranta, ką jiems sakote, ir atsako į klausimus.

„Google“ dabar yra nemokama visiems „Android“ naudotojams. Programa gali, pavyzdžiui, nustatyti žadintuvą, patikrinti orų prognozes ir maršrutus Google žemėlapiuose. „Google“ dabar pokalbio būsenos plėtinys „Google“ padėjėjas () – virtuali pagalba įrangos naudotojui. Jis daugiausia pasiekiamas mobiliuosiuose ir išmaniuosiuose namų įrenginiuose. Skirtingai nei „Google“ dabar, ji gali užmegzti abipusį ryšį. Asistentas debiutavo 2016 m. gegužės mėn. kaip „Google“ pranešimų siuntimo programos „Allo“ dalis, taip pat „Google Home“ balso garsiakalbis (3).

3. „Google“ pagrindinis puslapis

„IOS“ taip pat turi savo virtualų asistentą, "Siri", tai yra programa, įtraukta į Apple operacines sistemas – iOS, watchOS, tvOS homepod ir macOS. „Siri“ debiutavo su „iOS 5“ ir „iPhone 4s“ 2011 m. spalį konferencijoje „Pakalbėkime apie iPhone“.

Programinė įranga yra pagrįsta pokalbio sąsaja: atpažįsta natūralią vartotojo kalbą (su iOS 11 galima ir rankiniu būdu įvesti komandas), atsako į klausimus ir atlieka užduotis. Dėl mašininio mokymosi įdiegimo, laikui bėgant tapo asistentu analizuoja asmeninius pageidavimus vartotojas, kad pateiktų aktualesnius rezultatus ir rekomendacijas. „Siri“ reikalauja nuolatinio interneto ryšio – pagrindiniai informacijos šaltiniai čia yra „Bing“ ir „Wolfram Alpha“. „iOS 10“ pristato trečiųjų šalių plėtinių palaikymą.

Dar vienas iš keturių didžiųjų Cortana. Tai išmanusis asmeninis asistentas, sukurtas Microsoft. Jis palaikomas Windows 10, Windows 10 Mobile, Windows Phone 8.1, Xbox One, Skype, Microsoft Band, Microsoft Band 2, Android ir iOS platformose. „Cortana“ pirmą kartą buvo pristatyta „Microsoft Build Developer“ konferencijoje 2014 m. balandžio mėn. San Franciske. Programos pavadinimas kilęs iš Halo žaidimų serijos veikėjo vardo. „Cortana“ yra anglų, italų, ispanų, prancūzų, vokiečių, kinų ir japonų kalbomis.

Jau minėtos programos vartotojai Alexa jie taip pat turi atsižvelgti į kalbos apribojimus – skaitmeninis asistentas kalba tik angliškai, vokiškai, prancūziškai ir japoniškai.

„Amazon“ virtualusis asistentas pirmą kartą buvo naudojamas „Amazon Lab126“ sukurtuose „Amazon Echo“ ir „Amazon Echo Dot“ išmaniuosiuose garsiakalbiuose. Tai suteikia galimybę bendrauti balsu, atkurti muziką, kurti užduočių sąrašus, nustatyti žadintuvus, transliuoti podcast'us, leisti garso knygas ir teikti realiojo laiko informaciją apie orus, eismą, sportą ir kitą naujienų informaciją, pvz., naujienas (4). Alexa gali valdyti kelis išmaniuosius įrenginius, kad sukurtų namų automatizavimo sistemą. Jis taip pat gali būti naudojamas patogiam pirkimui iš „Amazon“.

4. Kodėl vartotojai naudoja „Echo“ (pagal tyrimus)

Vartotojai gali patobulinti Alexa galimybes diegdami Alexa „įgūdžius“ – papildomas funkcijas, kurias sukūrė trečiosios šalys, dažniau vadinamos programėlėmis, pavyzdžiui, orų ir garso programėlės kituose nustatymuose. Dauguma Alexa įrenginių leidžia suaktyvinti virtualųjį asistentą naudojant pažadinimo slaptažodį, vadinamą pažadinimo slaptažodžiu.

Šiandien „Amazon“ aiškiai dominuoja išmaniųjų garsiakalbių rinkoje (5). 2018 m. kovą naują paslaugą pristačiusi IBM bando patekti į geriausiųjų ketvertuką, Watsono padėjėjas, skirtas įmonėms, kurios nori pačios kurti balsu valdomas virtualių asistentų sistemas. Koks yra IBM sprendimo pranašumas? Įmonės atstovų teigimu, pirmiausia atsiras kur kas didesnės personalizavimo ir privatumo apsaugos galimybės.

Pirma, „Watson Assistant“ neturi primesto prekės ženklo. Įmonės gali kurti savo sprendimus šioje platformoje ir pažymėti jas savo prekės ženklu.

Antra, jie gali mokyti savo pagalbines sistemas naudodamiesi savo duomenų rinkiniais, o tai, pasak IBM, leidžia lengviau pridėti funkcijų ir komandų prie sistemos nei kitos VUI (balso vartotojo sąsajos) technologijos.

Trečia, „Watson Assistant“ neteikia IBM informacijos apie vartotojų veiklą – sprendimų kūrėjai platformoje gali pasilikti vertingus duomenis tik sau. Tuo tarpu kiekvienas, kuris, pavyzdžiui, kuria įrenginius naudodamas „Alexa“, turėtų atsižvelgti į tai, kad jų vertingi duomenys galiausiai pateks į „Amazon“.

„Watson Assistant“ jau turi keletą įdiegimų. Sistemą naudojo, pavyzdžiui, kompanija „Harman“, sukūrusi balso asistentą koncepciniam automobiliui „Maserati“ (6). Miuncheno oro uoste IBM padėjėjas valdo robotą Pepper, kad padėtų lankytojams judėti. Trečias pavyzdys – „Chameleon Technologies“, kur balso technologija naudojama išmaniajame namų skaitiklyje.

6. Watson Assistant Maserati koncepciniame automobilyje

Verta pridurti, kad pagrindinė technologija čia taip pat nėra nauja. „Watson Assistant“ apima esamų IBM produktų, „Watson Conversation“ ir „Watson Virtual Agent“ šifravimo galimybes, taip pat kalbos analizės ir pokalbių API.

„Amazon“ ne tik pirmauja išmaniųjų balso technologijų srityje, bet ir paverčia ją tiesioginiu verslu. Tačiau kai kurios įmonės daug anksčiau eksperimentavo su „Echo“ integravimu. BI ir analizės įrankių pramonės įmonė „Sisense“ pristatė „Echo“ integraciją 2016 m. liepos mėn. Savo ruožtu startuolis Roxy nusprendė sukurti savo balsu valdomą programinę ir techninę įrangą svetingumo pramonei. Anksčiau šiais metais „Synqq“ pristatė užrašų programą, kuri naudoja balso ir natūralios kalbos apdorojimą, kad pridėtų pastabas ir kalendoriaus įrašus, nereikia jų įvesti klaviatūra.

Visos šios mažos įmonės turi didelių ambicijų. Tačiau labiausiai jie sužinojo, kad ne kiekvienas vartotojas nori perduoti savo duomenis „Amazon“, „Google“, „Apple“ ar „Microsoft“, kurie yra svarbiausi žaidėjai kuriant balso ryšio platformas.

Amerikiečiai nori pirkti

2016 m. paieška balsu sudarė 20 % visų Google paieškų mobiliesiems. Kasdien šią technologiją naudojantys žmonės kaip didžiausius privalumus įvardija jos patogumą ir kelių užduočių atlikimą. (pavyzdžiui, galimybė naudotis paieškos sistema vairuojant automobilį).

„Visiongain“ analitikai skaičiuoja, kad dabartinė išmaniųjų skaitmeninių asistentų rinkos vertė siekia 1,138 milijardo dolerių. Tokių mechanizmų atsiranda vis daugiau. „Gartner“ duomenimis, iki 2018 m 30% mūsų bendravimo su technologijomis tai bus per pokalbius su balso sistemomis.

Didžiosios Britanijos tyrimų bendrovė IHS Markit skaičiuoja, kad AI (dirbtinio intelekto) skaitmeninių asistentų rinka iki šių metų pabaigos pasieks 4 milijardus įrenginių, o iki 2020 metų šis skaičius gali išaugti iki 7 milijardų.

Remiantis „eMarketer“ ir „VoiceLabs“ ataskaitomis, 2017 m. 35,6 milijono amerikiečių valdymą balsu naudojo bent kartą per mėnesį. Tai yra beveik 130% daugiau nei praėjusiais metais. Tikimasi, kad vien skaitmeninių asistentų rinka 2018 m. išaugs 23 proc. Tai reiškia, kad jūs jau naudosite juos 60,5 milijono amerikiečių, dėl ko jų gamintojai gaus konkrečius pinigus. „RBC Capital Markets“ apskaičiavo, kad „Alexa“ sąsaja iki 2020 m. atneš „Amazon“ pajamas iki 10 mlrd.

Nuplaukite, kepkite, valykite!

Balso sąsajos vis dažniau patenka į buitinės technikos ir buitinės elektronikos rinką. Tai jau buvo galima pamatyti per praėjusių metų parodą IFA 2017. Amerikiečių kompanija „Neato Robotics“ pristatė, pavyzdžiui, robotą dulkių siurblį, kuris jungiasi prie vienos iš kelių išmaniųjų namų platformų, tarp kurių yra „Amazon Echo“ sistema. Kalbėdami su „Echo“ išmaniuoju garsiakalbiu galite nurodyti aparatui valyti visus jūsų namus tam tikru dienos ar nakties metu.

Kiti demonstruojami balsu valdomi gaminiai – nuo ​​išmaniųjų televizorių, kuriuos su Toshiba prekės ženklu parduoda Turkijos „Vestel“, iki šildomų antklodžių iš Vokietijos „Beurer“. Daugelį šių elektroninių įrenginių galima aktyvuoti ir nuotoliniu būdu naudojant išmaniuosius telefonus.

Tačiau, anot „Bosch“ atstovų, kol kas anksti pasakyti, koks namų asistento pasirinkimas taps dominuojančiu. Vokietijos technologijų grupė parodoje IFA 2017 demonstravo skalbimo mašinas (7), orkaites ir kavos aparatus, jungiamus prie Echo. „Bosch“ taip pat norėtų, kad jos įrenginiai ateityje būtų suderinami su „Google“ ir „Apple“ balso platformomis.

7. Bosch skalbimo mašina, kuri jungiasi prie Amazon Echo

Tokios įmonės kaip „Fujitsu“, „Sony“ ir „Panasonic“ kuria savo dirbtinio intelekto pagrindu sukurtus balso asistento sprendimus. „Sharp“ šią technologiją prideda prie į rinką ateinančių orkaičių ir mažų robotų. Nippon Telegraph & Telephone samdo aparatūros ir žaislų gamintojus, kad pritaikytų balsu valdomą dirbtinio intelekto sistemą.

Sena koncepcija. Ar pagaliau atėjo jos laikas?

Tiesą sakant, balso vartotojo sąsajos (VUI) koncepcija gyvuoja dešimtmečius. Kiekvienas, kuris prieš daugelį metų žiūrėjo „Žvaigždžių kelią“ arba „2001: Kosminė odisėja“, tikriausiai tikėjosi, kad maždaug 2000-aisiais mes visi valdysime kompiuterius balsu. Be to, tokio tipo sąsajos potencialą matė ne tik mokslinės fantastikos autoriai. 1986 m. Nielsen mokslininkai paklausė IT specialistų, koks, jų nuomone, bus didžiausias vartotojo sąsajos pokytis iki 2000 m. Jie dažniausiai nurodė balso sąsajų kūrimą.

Yra priežasčių tikėtis tokio sprendimo. Galų gale, žodinis bendravimas yra pats natūraliausias būdas žmonėms sąmoningai keistis mintimis, todėl jo naudojimas žmogaus ir mašinos sąveikai šiuo metu atrodo geriausias sprendimas.

Vienas pirmųjų VUI vadinamas batų dėžė60-ųjų pradžioje sukūrė IBM. Tai buvo šiandieninių balso atpažinimo sistemų pirmtakas. Tačiau VUI įrenginių kūrimą ribojo skaičiavimo galios ribos. Žmogaus kalbos analizavimas ir interpretavimas realiuoju laiku reikalauja daug pastangų ir prireikė daugiau nei penkiasdešimties metų, kad pasiektume tašką, kur tai iš tikrųjų buvo įmanoma.

Įrenginiai su balso sąsajomis pradėjo pasirodyti masinėje gamyboje devintojo dešimtmečio viduryje, tačiau nesulaukė populiarumo. Pirmasis telefonas su balso valdymo (rinkiklio) funkcija buvo Philips Spark, išleistas 1996 m. Tačiau šis naujoviškas ir lengvai naudojamas įrenginys nebuvo laisvas nuo technologinių apribojimų.

Rinkoje nuolat pasirodydavo ir kiti telefonai su balso sąsajos formomis (kurių sukūrė RIM, Samsung ar Motorola), leidžiančius vartotojams balsu rinkti numerį arba siųsti teksto žinutes. Tačiau visos jos reikalavo įsiminti konkrečias komandas ir jas tarti priverstine, dirbtine forma, pritaikyta to meto prietaisų galimybėms. Tai sukėlė daug klaidų, kurios savo ruožtu sukėlė vartotojų nepasitenkinimą.

Tačiau dabar įžengiame į naują kompiuterijos erą, kurioje mašininio mokymosi ir dirbtinio intelekto pažanga atveria pokalbio, kaip naujo būdo sąveikauti su technologijomis, potencialą (8). Įrenginių, palaikančių balso sąveiką, skaičius tapo svarbiu veiksniu, turėjusiu didelę įtaką VUI plėtrai. Šiandien beveik 1/3 pasaulio gyventojų jau turi išmaniuosius telefonus, kurie gali būti naudojami tokiam elgesiui. Panašu, kad dauguma vartotojų pagaliau pasiruošę pritaikyti savo balso sąsajas.

8. Šiuolaikinė balso sąsajos raidos istorija

Tačiau prieš laisvai kalbėdami su kompiuteriu, kaip tai darė „Kosminės odisėjos“ veikėjai, turime įveikti daugybę problemų. Mašinos vis dar nelabai sugeba susidoroti su kalbiniais niuansais. Be to daugelis žmonių vis dar jaučiasi nepatogiai duodami balso komandas paieškos varikliui.

Statistika rodo, kad balso asistentai dažniausiai naudojami namuose arba tarp artimų draugų. Nė vienas iš apklaustųjų neprisipažino, kad naudojosi paieška balsu viešose vietose. Tačiau ši blokada greičiausiai išnyks, kai ši technologija išplis.

Techniškai sudėtingas klausimas

Problema, su kuria susiduria (ASR) sistemos, yra išgauti naudingus duomenis iš kalbos signalo ir susieti juos su konkrečiu žodžiu, turinčiu konkrečią reikšmę asmeniui. Tariami garsai kiekvieną kartą skiriasi.

Kalbos signalo kintamumas yra jo prigimtinė savybė, kurios dėka, pavyzdžiui, atpažįstame akcentą ar intonaciją. Kiekvienas kalbos atpažinimo sistemos elementas turi tam tikrą užduotį. Remiantis apdorotu signalu ir jo parametrais, sukuriamas akustinis modelis, kuris susiejamas su kalbos modeliu. Atpažinimo sistema gali veikti remdamasi nedideliu arba dideliu modelių skaičiumi, o tai lemia žodyno, su kuriuo ji veikia, dydį. Jie gali būti mažieji žodynai atskirus žodžius ar komandas atpažįstančių sistemų atveju, taip pat didelės duomenų bazės kuriame yra kalbos rinkinio atitikmuo ir atsižvelgiama į kalbos modelį (gramatiką).

Iššūkiai, su kuriais susiduria balso sąsajos, yra visų pirma teisingai suprasti kalbą, kuriose, pavyzdžiui, dažnai praleidžiamos ištisos gramatinės sekos, yra kalbinių ir fonetinių klaidų, klaidų, praleidimų, kalbos defektų, homonimų, nepagrįstų pasikartojimų ir tt Visos šios AKR sistemos turi veikti greitai ir patikimai. Bent jau toks lūkestis.

Sunkumų kyla ir dėl kitų nei atpažįstamos kalbos akustinių signalų, kurie patenka į atpažinimo sistemos įvestį, t.y. visų rūšių trukdžių ir triukšmo. Paprasčiausiu atveju jums jų reikia išfiltruoti. Ši užduotis atrodo įprasta ir lengva – juk filtruojami įvairūs signalai ir kiekvienas elektronikos inžinierius žino, ką daryti tokioje situacijoje. Tačiau tai turi būti daroma labai atsargiai ir atsargiai, jei kalbos atpažinimo rezultatas atitiks mūsų lūkesčius.

Šiuo metu naudojamas filtravimas leidžia kartu su kalbos signalu pašalinti išorinį mikrofono skleidžiamą triukšmą ir paties kalbos signalo vidines savybes, dėl kurių sunku jį atpažinti. Tačiau kur kas sudėtingesnė techninė problema iškyla, kai analizuojamo kalbos signalo trukdžiai yra... kitas kalbos signalas, tai, pavyzdžiui, garsios diskusijos aplinkui. Šis klausimas literatūroje žinomas kaip vadinamasis. Tam jau reikia naudoti kompleksinius metodus, vadinamuosius. dekonvoliucija (išnarpliodamas) signalą.

Kalbos atpažinimo problemos tuo nesibaigia. Verta suprasti, kad kalba neša daug skirtingų informacijos rūšių. Žmogaus balsas sufleruoja savininko lytį, amžių, skirtingus charakterius ar jo sveikatos būklę. Yra didelė biomedicinos inžinerijos šaka, skirta diagnozuoti įvairias ligas pagal būdingus akustinius reiškinius, randamus kalbos signale.

Taip pat yra programų, kuriose pagrindinis kalbos signalo akustinės analizės tikslas yra identifikuoti kalbėtoją arba patikrinti, ar jis yra tas, kas sakosi esąs (balsas vietoj rakto, slaptažodžio ar PUK kodo). Tai gali būti svarbu, ypač išmaniosioms pastatų technologijoms.

Pirmasis kalbos atpažinimo sistemos komponentas yra mikrofonas. Tačiau mikrofono paimamas signalas dažniausiai lieka mažai naudingas. Tyrimai rodo, kad garso bangos forma ir eiga labai skiriasi priklausomai nuo žmogaus, kalbos greičio ir iš dalies nuo pašnekovo nuotaikos – nors šiek tiek atspindi patį tariamų komandų turinį.

Todėl signalas turi būti tinkamai apdorotas. Šiuolaikinė akustika, fonetika ir kompiuterių mokslas kartu suteikia gausų įrankių rinkinį, kuris gali būti naudojamas kalbos signalams apdoroti, analizuoti, atpažinti ir suprasti. Signalo dinaminis spektras, vadinamasis dinamines spektrogramas. Juos gana lengva gauti, o kalbą, pateiktą dinaminės spektrogramos pavidalu, gana lengva atpažinti naudojant metodus, panašius į naudojamus vaizdo atpažinimui.

Paprastus kalbos elementus (pavyzdžiui, komandas) galima atpažinti pagal paprastą ištisų spektrogramų panašumą. Pavyzdžiui, mobiliojo telefono balsu valdomame žodyne yra tik nuo kelių dešimčių iki kelių šimtų žodžių ir frazių, paprastai iš anksto nustatytų, kad būtų galima lengvai ir efektyviai atpažinti juos. To pakanka paprastoms valdymo užduotims atlikti, tačiau tai labai apriboja bendrą taikymą. Sistemos, sukurtos pagal schemą, paprastai palaiko tik tam tikrus garsiakalbius, kurių balsai yra specialiai paruošti. Taigi, jei atsiras kažkas naujo, kuris norės balsu valdyti sistemą, jis greičiausiai nebus priimtas.

Šios operacijos rezultatas vadinamas spektrograma 2-W, tai yra dvimatis spektras. Šiame bloke yra dar viena pamoka, į kurią verta atkreipti dėmesį - segmentavimas. Paprastai kalbant, mes kalbame apie nuolatinio kalbos signalo suskaidymą į dalis, kurias galima atpažinti atskirai. Tik šios atskiros diagnozės sudaro visumos pripažinimą. Ši procedūra reikalinga, nes neįmanoma atpažinti ilgos ir sudėtingos kalbos vienu ypu. Apie tai, kokius segmentus reikėtų skirti kalbos signale, jau parašyta ištisi tomai, todėl dabar nespręsime, ar skirtini segmentai turi būti fonemos (garso atitikmenys), skiemenys, o gal alofonai.

Automatinis atpažinimo procesas visada susijęs su kai kuriomis objektų savybėmis. Kalbos signalui buvo patikrinta šimtai skirtingų parametrų rinkinių.Kalbos signalas turi padalintas į pripažintus rėmus ir turintys pasirinktas funkcijaskai šie kadrai atvaizduojami atpažinimo procese, galime atlikti (kiekvienam kadrui atskirai) klasifikacija, t.y. priskiriant identifikatorių kadrui, kuris jį reprezentuos ateityje.

Kitas etapas rėmelių surinkimas į atskirus žodžius – dažniausiai remiantis vadinamuoju numanomų Markovo modelių (IMM-) modelis. Tada ateina žodžių montažas pilni sakiniai.

Dabar galime trumpam grįžti prie „Alexa“ sistemos. Jo pavyzdys rodo daugiapakopį žmogaus mašininio „supratimo“ procesą – tiksliau: jo duodamą komandą ar užduotą klausimą.

Žodžių supratimas, prasmės supratimas ir vartotojo ketinimų supratimas yra visiškai skirtingi dalykai.

Todėl kitas žingsnis yra NLP modulio (), kurio užduotis yra, darbas vartotojo ketinimų atpažinimas, t.y. komandos/klausimo reikšmė kontekste, kuriame jis buvo pasakytas. Jei ketinimas nustatytas, turėtumėte vadinamųjų įgūdžių ir gebėjimų priskyrimas, tai yra, tam tikra funkcija, palaikoma išmaniojo asistento. Kilus klausimui apie orą, iškviečiami orų duomenų šaltiniai, kuriuos dar reikia apdoroti į kalbą (TTS – mechanizmas). Dėl to vartotojas išgirsta atsakymą į užduotą klausimą.

Balsas? Grafikos menas? O gal abu?

Dauguma žinomų šiuolaikinių sąveikos sistemų yra pagrįstos tarpininku, vadinamu grafinė vartotojo sąsaja (grafinė sąsaja). Deja, grafinė sąsaja nėra pats akivaizdžiausias būdas bendrauti su skaitmeniniu produktu. Tam naudotojai pirmiausia turi išmokti naudotis sąsaja ir prisiminti šią informaciją su kiekviena sekančia sąveika. Daugeliu atvejų balsas yra daug patogesnis, nes bendrauti su VUI taip pat paprasta, kaip kalbėti su įrenginiu. Sąsaja, kuri nepriverčia vartotojų įsiminti ir įsiminti konkrečias komandas ar sąveikos metodus, sukelia mažiau problemų.

Žinoma, VUI išplėtimas nereiškia tradicinių sąsajų atsisakymo – greičiau bus prieinamos hibridinės sąsajos, apjungiančios kelis sąveikos būdus.

Balso sąsaja netinka visoms užduotims mobiliajame kontekste. Su juo važiuojant automobiliu skambinsime draugui, net išsiųsime jam SMS, tačiau patikrinti naujausius pervedimus gali būti per sunku – dėl į sistemą () perduodamos ir sistemos (sistemos) generuojamos informacijos kiekio . Kaip savo knygoje „Mobile Frontier“ siūlo Rachel Hinman, VUI naudojimas yra efektyviausias atliekant užduotis, kuriose įvesties ir išvesties informacijos kiekis yra mažas.

Prie interneto prijungtas išmanusis telefonas patogus, bet ir nepatogus (9). Kiekvieną kartą, kai vartotojas nori ką nors nusipirkti ar pasinaudoti nauja paslauga, jis turi atsisiųsti kitą programą ir susikurti naują paskyrą. Čia sukurtas balso sąsajų naudojimo ir tobulinimo laukas. Ekspertai teigia, kad užuot versę vartotojus diegti daug skirtingų programėlių ar kurti atskiras paskyras kiekvienai paslaugai, VUI perkels šių sudėtingų užduočių naštą į AI palaikantį balso asistentą. Jam bus patogu atlikti įtemptą veiklą. Mes tik duosime jam įsakymus.

9. Balso sąsaja naudojant išmanųjį telefoną

Šiais laikais prie interneto prijungti ne tik telefonas ir kompiuteris. Prie tinklo taip pat prijungti išmanieji termostatai, šviestuvai, virduliai ir daugelis kitų į IoT integruotų įrenginių (10). Taigi, aplink mus yra belaidžiai prijungtų įrenginių, kurie užpildo mūsų gyvenimą, tačiau ne visi jie natūraliai telpa į grafinę vartotojo sąsają. Naudodami VUI galėsite lengvai juos integruoti į mūsų aplinką.

10. Balso sąsaja su daiktų internetu

Balsu pagrįstos vartotojo sąsajos kūrimas netrukus taps pagrindiniu dizainerių įgūdžiu. Tai tikras iššūkis – poreikis diegti balso sistemas privers daugiau dėmesio skirti proaktyviam dizainui, tai yra stengtis suprasti pirminius vartotojo ketinimus, numatant jo poreikius ir lūkesčius kiekviename pokalbio etape.

Balsas yra efektyvus duomenų įvedimo būdas – jis leidžia vartotojams greitai duoti komandas sistemai pagal savo sąlygas. Kita vertus, ekranas suteikia efektyvų informacijos atvaizdavimo būdą: leidžia sistemoms vienu metu rodyti didelį kiekį informacijos, sumažinant vartotojų atminties apkrovą. Logiška, kad jų sujungimas į vieną sistemą skamba drąsinančiai.

Išmanieji garsiakalbiai, tokie kaip „Amazon Echo“ ir „Google Home“, visiškai nesiūlo vaizdinio ekrano. Žymiai pagerinus balso atpažinimo tikslumą nedideliais atstumais, jie leidžia naudotis laisvų rankų įranga, o tai savo ruožtu padidina jų lankstumą ir efektyvumą – tai pageidautina net vartotojams, kurie jau turi išmaniuosius telefonus su balso funkcija. Tačiau ekrano trūkumas yra didžiulis apribojimas.

Tik pyptelėjimai gali būti naudojami informuojant vartotojus apie galimas komandas, o išvesties skaitymas garsiai tampa varginantis, išskyrus pačias paprasčiausias užduotis. Nustatyti laikmatį balso komanda gaminant maistą yra puiku, tačiau nereikia klausti, kiek liko laiko. Įprastos orų prognozės gavimas tampa atminties išbandymu vartotojui, kuris visą savaitę turi praleisti klausydamas ir įsisavindamas daugybę faktų, o ne akimirksniu ištraukdamas juos iš ekrano.

Dizaineriai jau sukūrė hibridinis sprendimas, Echo Show (11), kuris pridėjo ekraną prie pagrindinio „Echo“ išmaniojo garsiakalbio. Tai žymiai išplečia įrangos funkcionalumą. Tačiau „Echo Show“ vis dar daug mažiau pajėgi atlikti pagrindines funkcijas, kurios jau seniai buvo prieinamos išmaniuosiuose telefonuose ir planšetiniuose kompiuteriuose. Pavyzdžiui, jis negali (dar) naršyti internete, rodyti apžvalgų arba rodyti „Amazon“ pirkinių krepšelio turinio.

Vaizdinis ekranas iš esmės yra veiksmingesnis būdas žmonėms pateikti daug informacijos nei tik garsas. Balso dizainas gali labai pagerinti sąveiką balsu, tačiau ilgainiui savavališkas vaizdinių meniu nenaudojimas sąveikos sumetimais prilygs kovai su viena ranka surišta už nugaros. Dėl gresiančio išmaniųjų balso ir ekrano sąsajų sudėtingumo kūrėjai turėtų rimtai apsvarstyti mišrų požiūrį į sąsajas.

Padidinus kalbos generavimo ir atpažinimo sistemų efektyvumą ir greitį, buvo galima jas naudoti tokiose programose ir srityse, kaip, pavyzdžiui:

• kariniai (balso komandos lėktuvuose ar sraigtasparniuose, pvz., F16 VISTA),

• automatinis teksto transkripcija (iš kalbos į tekstą),

• interaktyvios informacinės sistemos (Prime-Speech, balso portalai),

• mobiliuosius įrenginius (telefonus, išmaniuosius telefonus, planšetinius kompiuterius),

• robotika (Cleverbot – ASR sistemos kartu su dirbtiniu intelektu),

• automobilių (automobilių komponentų valdymas laisvų rankų įranga, pvz., Blue & Me),

• namų programos (išmaniųjų namų sistemos).

Lik saugus!

Automobiliai, prietaisai, šildymo / vėsinimo ir namų apsaugos sistemos bei daugelis buitinių prietaisų pradeda naudoti balso sąsajas, dažnai maitinamas dirbtinio intelekto. Šiame etape duomenys, gauti iš milijonų pokalbių su mašinomis, siunčiami į skaičiavimo debesys. Akivaizdu, kad rinkodaros specialistai jais domisi. Ir ne tik juos.

Neseniai paskelbtoje „Symantec“ saugumo ekspertų ataskaitoje balso komandų naudotojams rekomenduojama nekontroliuoti saugos funkcijų, tokių kaip durų spynos, jau nekalbant apie namų apsaugos sistemas. Tas pats pasakytina apie slaptažodžių ar konfidencialios informacijos saugojimą. Dirbtinio intelekto ir išmaniųjų produktų saugumas dar nėra pakankamai ištirtas.

Kai namuose esantys įrenginiai klauso kiekvieno žodžio, įsilaužimo ir netinkamo sistemos naudojimo rizika tampa itin svarbiu rūpesčiu. Jei užpuolikas gauna prieigą prie vietinio tinklo ar susijusių el. pašto adresų, išmaniojo įrenginio nustatymai gali būti pakeisti arba atstatyti į gamyklinius, todėl prarandama vertinga informacija ir ištrinta naudotojo istorija.

Kitaip tariant, saugumo ekspertai baiminasi, kad balsu valdomas ir VUI valdomas dirbtinis intelektas dar nėra pakankamai protingas, kad apsaugotų mus nuo galimų grėsmių ir užčiauptų burną, kai nepažįstamasis ko nors klausia.

Добавить комментарий