金磊 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
北京冬奧會落幕,“中國式浪漫”刷爆全網(wǎng)。
而從開幕式為起點,所延續(xù)的不僅僅是大氣磅礴的視覺盛宴,科技之美也始終貫穿其中。
云計算、AI、虛擬現(xiàn)實、5G……在這屆冬奧會中可謂是大放異彩。
也難怪外界頻頻發(fā)出“科技感拉滿”這樣的贊嘆之詞。
而在這其中,一個數(shù)字人的出現(xiàn),竟能讓直播帶貨這件事,有了全新的“打開方式”。
不僅吸引了超過200萬人次的觀看,更是在短短時間內(nèi)圈粉數(shù)十萬。
她叫冬冬,是一位在淘寶直播間售賣冬奧會官方特許商品的“北京大妞”。
但和其他人不同的是,她在直播間除了賣貨,還會大秀“十八般武藝”。
例如奧運健兒奪冠了,冬冬就會模仿其經(jīng)典動作來慶祝:
觀眾們高呼蘇翊鳴,冬冬便現(xiàn)場展示了一段封神的1800轉(zhuǎn)體:
講真,這么多才多藝、如此拼的主播還是頭回看見。
不過有一說一,眼尖的友友們應(yīng)該也已經(jīng)發(fā)現(xiàn)了,冬冬,她其實并不是人類。
而是由阿里巴巴為本屆北京冬奧會打造的數(shù)字人冬奧宣推官。
或許這時你會說了,那她不就是個機器么?莫得感情,莫得靈魂。
非也非也。
若是看過冬冬直播,很直觀的一種感受就是自然。
人類主播的技能,她也能夠hold得住。來感受一下她的風格:
歡迎尾號XX的朋友進入直播間!
XX朋友,你的需求已經(jīng)托付給程序員小哥哥處理了,不要著急哦。
沒錯,實時互動這一塊,冬冬算是拿捏住了。
單從這點來看,可以說冬冬不再是大眾眼里的傳統(tǒng)虛擬人,而是已經(jīng)進化成為數(shù)字人。
畢竟,能否與人類互動,是劃分虛擬人和數(shù)字人的分水嶺。
而且她還不是玩兒“表面功夫”的那種,從直播數(shù)據(jù)來看,業(yè)務(wù)能力也是夠硬的。
據(jù)悉,在直播間核心表現(xiàn)數(shù)據(jù)的轉(zhuǎn)粉率和停留時長,而冬冬的直播間均遠超了淘寶直播的平均水平。
于是乎,這樣的冬冬便迅速引起關(guān)注,網(wǎng)友們紛紛感慨她的“敬業(yè)”:
為了實現(xiàn)一戶一墩,真的是太拼了,冬姐也不容易??!
然而,如果細挖冬冬這位數(shù)字人之后就能發(fā)現(xiàn),直播帶貨,竟只是她能力的一隅而已。
這個數(shù)字人,冬奧很忙
數(shù)字人冬冬,在整場冬奧會期間,可以說是有“多副面孔”了。
這不,在直播帶貨之余,冬冬就開了一個“冬奧脫口秀”的專欄。
等等,數(shù)字人?講段子?這能行嗎?
可別小瞧了數(shù)字人的能力,冬冬說脫口秀的“打開方式”,是這樣的:
今天的比賽里,有個項目冬冬特別想體驗,在白茫茫的雪地里自由翻轉(zhuǎn)滑行,那感覺光想想就讓冬冬心跳加快……啊不對,是CPU瘋狂運轉(zhuǎn)了呢。
大家知道是哪個項目了嗎?冬冬給個提示,對于新手來說這個項目只有2個動作:前滾翻和后滾翻。選擇屁股疼還是臉疼呢?
噗!
還別說,冬冬雖然是個數(shù)字人,她講得脫口秀還是蠻逗的。
而且在脫口秀期間,除了用詼諧幽默的語言講段子之外,冬冬還會穿插著講解與冬奧項目有關(guān)的知識。
真是科普、搞笑兩不誤。
但直播間,只是冬冬工作場合之一,這不,她在冬奧會期間還參加了CCTV-5《體壇英豪》節(jié)目的錄制。
在其中的一期節(jié)目中,短道速滑運動員武大靖,就成了她的采訪對象。
現(xiàn)場,冬冬還請求武大靖指導一下她最新學會的短道速滑動作。
在瞬間變裝后,便在武大靖面前開始展示:
冬冬問武大靖:“你知道我的動作是跟誰學的嗎?”
武大靖自信地回答道:“我唄,肯定是學我唄?!?/p>
而后,冬冬和武大靖展開了輕松愉悅的快問快答。
冬冬:這屆冬奧會最難忘的時刻是?
武大靖:我們獲得首金的時候。
冬冬:頭盔的圖案為什么選擇華夏戰(zhàn)神孫大圣?
武大靖:因為它的寓意很好,孫大圣的感覺就是拼命吧。
冬冬:保溫杯里泡的是什么?
武大靖:沒泡枸杞,泡的是正常的水。
冬冬:金墩墩拿回家,會放在哪里?
武大靖:放保險箱里,其他人說已經(jīng)聯(lián)盟要弄我。
……
一番交談還挺自然,冬冬模仿真人記者有模有樣。
那么一個AI數(shù)字人,能夠做到如此的實時和擬真,接下來的一個問題便是:
冬冬,是怎么煉成的?
隨著數(shù)字人冬冬在網(wǎng)上的走紅,其背后的技術(shù)能力也逐漸浮現(xiàn)了出來。
據(jù)了解,冬冬之所以能夠像人類一樣自然,主要得益于阿里巴巴數(shù)字人技術(shù)團隊多年來在此的技術(shù)積累。
首先,是在外觀的自然度方面。
要讓虛擬人在說話過程中做到自然,就需得像人類一樣,把嘴、表情、肢體動作等等做到統(tǒng)一、協(xié)調(diào)。
冬冬背后的技術(shù)所采取的策略,則是AI實時驅(qū)動。
例如在“嘴型驅(qū)動”上,冬冬可以做到播報的語音和嘴型對應(yīng);并且在說話過程中,會融合適合的面部表情,比如微笑、興奮、生氣、疑問等。
除此之外,冬冬的身子,即肢體動作,也會配合內(nèi)容而發(fā)生改變,例如揮手、鼓掌等等。
而且為了在視覺上達到更加逼真的效果,阿里采用了Unity HDRP高清管線來實時渲染擬真人級別的數(shù)字人。
包括實時的模擬自然光照、動力學(比如服裝、頭發(fā)的擺動)等效果。
但若僅僅是停留在外表,那要跟人類相比,還是差點意思的。
要想在直播間里和用戶長時間自主互動,流暢對話是一個必要條件。
多模態(tài)雙工互動能力(MMDI,multi-mode duplex interaction),便是其采取的策略。
具體而言,是在深度融合了多模態(tài)理解和雙工對話管理技術(shù)的基礎(chǔ)上,構(gòu)建了一套全智能驅(qū)動的數(shù)字人雙向互動能力。
這讓數(shù)字人具備了像人一樣邊說邊聽的技能,即使被打斷也可以繼續(xù)順暢溝通。
而且聲音、表情、動作在表達時能夠自然地整合在一起。
但光是“形象逼真”、“可以互動”,還是不夠的。如何能夠讓用戶覺得冬冬言之有物,內(nèi)容扎實豐富,是非常重要的。
這就需要冬冬具備“智能腳本生成”(AI Script Generation,AISG)的能力。
為此,阿里數(shù)字人技術(shù)在深度融合預訓練和知識圖譜基礎(chǔ)上,構(gòu)建了一套全智能的可控腳本生成方案。
核心就是將以往專家撰寫腳本的方式,轉(zhuǎn)變成了機器自動撰寫。
更具體一點,AI算法模型會根據(jù)“冬奧知識”或“喜劇寫作公式”,展開一個自主學習的過程。
而后數(shù)字人再結(jié)合NLP和風格化生成技術(shù),就可以在面對不同場景的情況下,快速生成順暢、有邏輯,且自然風趣的語言。
這也就是冬冬為什么能夠在長達2小時之久的直播時間里,不間斷的輸出內(nèi)容、持續(xù)互動的原因了。
不僅如此,冬冬還可以在直播過程中,對突發(fā)的賽事新進程做最新的報道。
例如一旦有新的獎牌誕生,她就會立即對與之相關(guān)的賽事背景、規(guī)則、選手簡介等等內(nèi)容做介紹。
這種即時性,便是得益于新華社與UC的合作,可以讓冬冬從新華社UC大魚號上獲取最新賽事動態(tài)內(nèi)容。
另外,冬冬在冬奧會期間身兼數(shù)職,這也需要她拿出不同的“職業(yè)狀態(tài)”。
例如在直播間,冬冬就得用主播的口吻來說話;脫口秀環(huán)節(jié)時候,冬冬的說話方式就得幽默詼諧。
為了達到這種效果,冬冬的智能語音技術(shù)團隊深度融合端到端語音合成與傳統(tǒng)語音技術(shù),能在更低的成本、讓數(shù)據(jù)錄制周期變得更短。
同時融入情感語音合成技術(shù),這就冬冬可以在不同場景之中,表達不一樣的感情。
……
不過有一說一,從冬冬在冬奧會的種種表現(xiàn)中,其實不難看出一種趨勢的發(fā)展:
人與虛擬人,界限越發(fā)模糊
雖然在近一段時間里,“虛擬人上崗”的消息層出不窮。
不過數(shù)字人冬冬的出現(xiàn),似乎讓人類與虛擬人的界面進一步模糊了起來。
以往虛擬人即使在外觀和語音的自然度能夠做到高度逼真,但人們對他們的印象或許依舊會停留在“莫得靈魂”。
但這一次,卻截然不同。
例如在直播間這種高度需要互動的場景中,冬冬就不是“自顧自的”的表演。
當有人在直播間問冬冬:“你吃飯了嗎?”
她有時候就會回答“我是吃代碼的”,然后開始念自己的二進制代碼;但有時候冬冬也會回答說自己在吃烤鴨。
這樣的交流方式,就會讓屏幕前的觀眾感受到與人類主播一樣的回應(yīng)與互動。
冬冬的出現(xiàn),為數(shù)字人的生命力探索了一個持續(xù)產(chǎn)出內(nèi)容和互動的新場域。
數(shù)字人的生命力,不僅僅是字面上時間的長與短,更多的應(yīng)當是“成長”與“復制”。
換言之,不是打造出了數(shù)字人,這塊工作就結(jié)束了;而是需要在環(huán)境的加持與訓練中,不斷讓自己在“像人”這件事兒上做到極致。
與此同時,能夠獨當一面地快速上崗和適應(yīng)新的場景,也是數(shù)字人“生命力”的體現(xiàn)。
那么最后,或許也是大家最為關(guān)心的一個問題:
我們?yōu)槭裁葱枰獢?shù)字人?
從冬冬此次的表現(xiàn)上來看,她能夠連續(xù)十多天2小時不間斷地在直播間帶貨,并且能夠跟觀眾做到很好的互動,從能力上來講已經(jīng)具備了上崗的能力。
與此同時,她還能以同樣的業(yè)務(wù)水平,同時間上崗其它場景,光是這一點,便是人類很難達到的極限。
也就是說,現(xiàn)在的數(shù)字人能夠以一己之力同時勝任住多項任務(wù),從而大大的釋放了人力和物力成本。
而除了冬冬之外,本次冬奧會還有虛擬人上崗運動員助理教練、氣象主播等職務(wù)。
放眼冬奧會之外,例如柳夜熙、新聞主播N小黑/N小白的爆火,更是從側(cè)面反映出普通大眾對虛擬人的認可和接受。
數(shù)字人未來想象力的大門,已經(jīng)打開了。
而更宏觀地來看,數(shù)字人在本屆冬奧會所體現(xiàn)出來的,不僅僅是其本身能力的展示,更是在釋放著一種新信號:
前沿技術(shù),正逐步步入常態(tài)化。
據(jù)悉,此次北京冬奧會實現(xiàn)了212項技術(shù)的落地應(yīng)用,其中33項為首次使用。
在未來,這些技術(shù)或許不再是“奧運專享”,走進你我的日常也是大有可能。
……
最后的最后,要問現(xiàn)在虛擬人發(fā)展到了什么地步?
無疑的一點是,人與虛擬人的界限越發(fā)模糊;或許,隨著智能技術(shù)越來越發(fā)達,人機共生時代已經(jīng)到來。
本文首發(fā)于微信公眾號:量子位。文章內(nèi)容屬作者個人觀點,不代表和訊網(wǎng)立場。投資者據(jù)此操作,風險請自擔。
關(guān)鍵詞: