企業(yè)新聞
- 智能音箱熱潮的背后,是對話式人工智能的交互變革
- 點擊次數(shù) | 時間 | 2017-07-08 10:07:45
-
[摘要]2011年,喬布斯在iPhone4s發(fā)布會上得意洋洋地展示出了Siri智能語音助理。喬布斯在當時就判定,Siri是人工智能的入口級產(chǎn)品。這款喬布斯的遺作在此后6年并沒有太大長進,相反亞馬遜的智能音箱...
2011年,喬布斯在iPhone4s發(fā)布會上得意洋洋地展示出了Siri智能語音助理。喬布斯在當時就判定,Siri是人工智能的入口級產(chǎn)品。這款喬布斯的遺作在此后6年并沒有太大長進,相反亞馬遜的智能音箱Amazon Echo悄然之間占領了市場。
《華爾街日報》在今年6月撰文稱,Siri簡直提供了一個教科書般的范本:它最初在技術(shù)上領先,而且擁有充裕的資金和人才,但卻逐漸喪失領先優(yōu)勢。
與此同時,科技圈正在掀起一場智能語音助理熱。7月5日阿里和百度兩場有關(guān)人工智能的發(fā)布會宣告——智能音箱以及智能語音助理正在真正走入人們的日常生活。
失落的智能語音助理
7月5日下午阿里人工智能實驗室首次公開亮相,推出了一款智能音箱——天貓精靈X1。
這場發(fā)布會效果頗佳,和上午的百度AI開發(fā)者大會遙相呼應,共同拉動了當日的人工智能概念股。
如此熱鬧的場面不禁讓人感慨智能語音助理在前幾年的生不逢時。
多年以后,筆者依然會想起羅永浩的那些小trick:
2013年3月27日晚,老羅在國家會議中心發(fā)布了錘子Rom,他引以為傲的語音識別功能因為會場回音居然多次演示失??;
2015年8月25日晚,可能是那場演示的心理陰影還未散去,老羅找來了朱蕭木,退而求其次,做了一個單機版語音識別的演示;
2017年5月8日晚,羅永浩不再談語音助理這件事情,而是如數(shù)家珍地搬出閃念膠囊功能,把腦子里那些一閃而過的靈感記錄成文字。
坦率來說,老羅每一次得意洋洋的展示都挺拙劣的。因為在筆者看來,語音識別這件事本身就存在很多心理障礙和物理障礙。
比方說,你在公交車上對著自己的手機喊“給陳總打電話”,周圍的人會像看怪物一樣盯著你;
再比方說,你在公交車上對著自己的手機喊“給陳總打電話”,周邊小孩的哭鬧聲可能會直接讓你的手機顯示“語音無法識別”;
(聊天機器人并不稀奇,早已出現(xiàn))
正是因為這一系列主客觀原因,2015年亞馬遜推出人工智能音響Amazon Echo后的兩年,主流科技圈都對此無感。
這個傻大黑粗的音響并不是什么炫技的產(chǎn)品。事實上,語音助理功能也并不稀奇。
智能語音助手這件事情從2011年Siri誕生開始,它就注定成為了一個玩物。它就像很多90后曾經(jīng)在校園里調(diào)戲過的“小黃雞”機器人一樣,只是一個只能把人逗樂半天的聊天機器人。
全球智能音箱的熱潮
直到2016年8月,被譽為“互聯(lián)網(wǎng)女皇”的凱鵬華盈(KPCB)合伙人瑪麗·米克(Mary Meeker)在她那份2016年《互聯(lián)網(wǎng)趨勢》(Internet Trends)報告中提到,iPhone的銷量在2015年可能已經(jīng)接近天花板,有趣的是亞馬遜的語音助理硬件Echo銷量正在大幅增長,現(xiàn)在銷量已超過400萬臺。
(互聯(lián)網(wǎng)女皇2016年《互聯(lián)網(wǎng)趨勢》報告)
這份報告同時指出,語音正成為計算接口,也是計算機輸入最有效率的一種形式,機器對語音識別的正確率從2010年的約70%,提高到2016年的約90%。
(互聯(lián)網(wǎng)女皇2016年《互聯(lián)網(wǎng)趨勢》報告)
這時,全世界才真正注意到智能音箱這個新事物的潛力所在。
我們可以算一下智能音箱這幾年來的上市節(jié)點:
2016年5 月17日Google I/O 上,Google Home 誕生;
2017年5月9日,微軟 Build 2017上,大與哈曼卡頓聯(lián)合合作的Invoke 智能音箱誕生;
2017年6月5日,蘋果家居智能音箱HomePod誕生,而且按照蘋果的計劃明年還將推出Siri音箱;
2017年7月5日,阿里人工智能實驗室研究成果天貓精靈X1推出。
之所以會以智能音箱切入是有原因的。家庭環(huán)境下的wifi網(wǎng)絡能夠支撐智能語音助手隨時在線,家庭環(huán)境下的語音干擾也是最少的,私密性也是最好的。除此之外,在家庭環(huán)境下,需要助理的服務環(huán)境非常多樣,比如你想開燈關(guān)燈、你想定個外賣、你想網(wǎng)購商品,這些都是在家庭環(huán)境中可以實現(xiàn)的。而且最為重要的是這些環(huán)節(jié)用語音和智能音箱交互,遠比手機更便捷。
也就是說,智能語音助理之所以會在家庭室內(nèi)以智能音箱的形態(tài)出現(xiàn)主要是解決了這幾個問題:
第一,心理上的障礙;第二,服務場景的多樣;第三,比手機更便捷。
因此智能音箱會成為一陣浪潮,在美國家庭被用戶解決各式各樣的生活問題。因為它天然規(guī)避了手機的使用場景,形成了人們?nèi)粘I畹挠幸嫜a充。
對話式人工智能的實質(zhì)
我們真正需要探討的是,智能音箱它到底是像智能可穿戴設備一樣,僅僅只是智能手機的有益補充,還是能夠成為未來個人、家庭的服務入口。
因為,如果智能音箱僅僅只是智能手機的補充,那這意味著它的量級永遠只是局限數(shù)百萬臺的規(guī)模,僅僅被少數(shù)人所使用。
不過,目前來看,智能音箱的實質(zhì)其實并不是音箱甚至不是智能語音助理這么簡單,準確定義的話,這實際上是“對話式”人工智能。
在微軟Build2016開發(fā)者大會上,微軟CEO納德拉首先提出了“Conversations as a Platform”,也就是“對話即平臺”的人工智能發(fā)展方向。
?這個概念在后來也被成為是“對話式人工智能”。
所謂“對話式人工智能”指的是,對話本身就是一個平臺,各種知識、信息與服務都運行在“對話”其上,可以形成生態(tài)環(huán)境的基礎平臺。人和人工智能之間的對話,即是解決各種問題的一種路徑和方式。
如果說的更淺顯一些,那就是人們能夠通過人和人正常交流的方式,來與機器進行溝通,以此來獲取信息和服務。
也就是說,未來人們其實不僅僅是在家里可以用智能語音助理來獲取服務,智能語音助理甚至可能無所不在。所以你會發(fā)現(xiàn),阿里人工智能實驗室在發(fā)布天貓精靈的同時,還公布了配套的研發(fā)平臺AliGenie開發(fā)者平臺。這一開發(fā)平臺主要面向個人內(nèi)容開發(fā)者、應用開發(fā)者、智能家居開發(fā)者以及硬件生產(chǎn)商等四類開發(fā)者。
未來我們可以在汽車、冰箱、電視甚至是家庭的垃圾桶上享受到智能語音助理的服務,隨時用語音獲取信息。用阿里人工智能實驗室負責人淺雪的話來說,“終端方面的合作伙伴包括阿里智能IoT、涂鴉科技以及一些大廠,涉及千萬款以上產(chǎn)品、100多個品類。”
這也意味著將來智能語音助理將無所不能、連接一切。
這種交互方式或許令人意外,但是語言本來不就是人誕生以來的交互方式么?
語音是所有動物最早最原始的信息交流方式,這對于使用者來說幾乎沒有任何的門檻,哪怕是還不識字的孩童。
只是隨著信息化時代的來臨,鍵鼠成了我們操縱電腦與他人交流、獲取信息服務的交互方式,而隨著移動時代的來臨,觸摸屏又取代鍵鼠成了新的交互方式。
細細數(shù)來,鍵鼠這種交互方式存在至今不過50年,而觸摸屏這種交互方式嚴格算來也僅僅只有不到20年。
但觸摸屏取代鍵鼠的那一剎那,有多少人表示過驚訝?當喬布斯宣稱說其實人類有一個天然的操作工具的時候,我們還認為他可能會推出全鍵盤手機。然而他說的是全觸摸屏手機。所有人都認為,觸摸屏手機收發(fā)郵件不方便,打字不夠快捷。
黑莓時任聯(lián)席CEO兼創(chuàng)始人Jim Balsillie在2007年2月曾經(jīng)說過的一句話:(蘋果和iPhone)有點像一位試圖加入一間已經(jīng)十分擁擠的屋子的新人,在這里消費者已經(jīng)有許多許多選擇了……但是如果說這將對黑莓產(chǎn)生海嘯般的影響,我會覺得有點夸張了。
后來的事情大家都知道,更符合人類直覺的觸摸屏取代了全鍵盤。在智能音箱的身后其實也存在這個交互變革的邏輯。
云計算大數(shù)據(jù)重塑語音
盡管是回到語音這個交互邏輯上,但本質(zhì)來看,智能語音助理下的語音和過去的語音交互其實存在著本質(zhì)的差別。
過去我們用語音調(diào)用的實際上是另外一個人的服務。對話和對話之間本質(zhì)上信息量很少。
實際上,語音交互存在大量問題:
1、場景覆蓋的低;
2、缺乏系統(tǒng)可視性;
3、語音無法表現(xiàn)信息層級。
4、語音交互消耗注意力,增加記憶負擔。
5、隨之帶來的交互效率低。
所以,當你在地鐵上,別人卻在微信上給你發(fā)來一條59秒的語音消息時,你會對那個人恨之入骨。
但是隨著人工智能和云計算、大數(shù)據(jù)的到來,人和語音的交互本質(zhì)上正在發(fā)生變化。因為這并非雙向語音之間的交互,只需要人發(fā)出指令即可。
劉慈欣在《鄉(xiāng)村教師》的這段話很形象地點名了未來語音交互的信息量:
“你是想告訴我們,一種沒有記憶遺傳,相互間用聲波進行信息交流,并且是以令人難以置信的每秒1至10比特的速率進行交流的物種,能創(chuàng)造出5B級文明?!而且這種文明是在沒有任何外部高級文明培植的情況下自行進化的?!”
劉慈欣這句話的實質(zhì)是大量的數(shù)據(jù)的積累,以及遠程計算能力的提升。這些提升重塑了語音,解決了一系列的問題:
當語音調(diào)用的信息本身是具備可視性、劃分層級而且直觀易懂甚至縮短大量信息環(huán)節(jié)的時候。它本質(zhì)上就是一個更為合理的交互方式。
(隨著大數(shù)據(jù)和云計算技術(shù)成熟,語音調(diào)用了大量的數(shù)據(jù))
如果我們換個意思來理解可能會更形象——古今同樣是說一句話,可以調(diào)用的能量發(fā)生的數(shù)量級的差異。舉個例子,古人說出“我想聽個《霓裳曲》”,實現(xiàn)他就需要一個戲班子。而現(xiàn)在人類說同樣的一句話,就只需要調(diào)動云端的幾MB的音頻流。
這種變化實際上是靠大數(shù)據(jù)積累以及云計算處理來完成的,以云端的處理速度,迅速調(diào)用各類服務,將對話式人工智能的效率提到最高。
50多年的彎路之后,人類走過了鍵盤、鼠標、觸摸屏等一系列交互手段,而以智能語音助理為代表的對話式人工智能正在讓人類返璞歸真。
- 上一篇:AI時代 智能音箱將成為智慧家庭的中心
- 下一篇:智能音箱再次引爆AI市場,語音將成下一代人機交互方式