“虛擬數(shù)字人”是指用數(shù)字技術在非物理世界中構建的具有人類特征的虛擬產物,其集成了計算機圖形學、動作捕捉以及多模態(tài)模型、語音識別、知識圖譜等技術,堪稱近年來最受關注的“人”了。
虛擬數(shù)字人何以成“人”?一方面是通過集成一系列高精尖技術,從而使虛擬數(shù)字人的外貌、聲音甚至是實時交互能力高度擬真;另一方面則是虛擬數(shù)字人的應用可以為人們的生活帶來實實在在的便利,并與人類實現(xiàn)共生共榮。前者始終以科技創(chuàng)新作為關鍵驅動力。沒有創(chuàng)新,虛擬數(shù)字人的高度擬真也就無從談起。后者則進一步闡明科技要始終遵循以人為本的發(fā)展理念,要讓虛擬數(shù)字人更好地滿足社會生產生活需求,要讓科技彰顯人性溫度。
技術創(chuàng)新是關鍵驅動力
顧名思義,虛擬數(shù)字人的核心在于對“人”的高度擬真、模仿。無論是外貌、聲音還是交互行為都無限接近真人,讓虛擬數(shù)字人與人類的交流溝通更加真實,增加交互沉浸感。因此,能否提供足夠自然和擬真的交互技術,是虛擬數(shù)字人能否在未來場景應用中逐步取代一些不必要的真人勞動力,助力社會邁向數(shù)智化的關鍵。
技術創(chuàng)新始終是虛擬數(shù)字人能夠更加擬真、智能以及整個產業(yè)做大做強的關鍵驅動力??傮w而言,虛擬數(shù)字人技術正在快速發(fā)展,產業(yè)發(fā)展脈絡變得清晰?!短摂M數(shù)字人深度產業(yè)報告》認為,從技術層面看,虛擬數(shù)字人已經(jīng)劃分為真人驅動型和計算驅動型兩個大類。
以真人驅動模式為例,在完成原畫建模和關鍵點綁定后,技術人員只需利用動作捕捉設備或攝像頭采集真人表情與動作等要素,便可直接驅動虛擬數(shù)字人。由于其背后是直接利用了真人的各種表情動作,因而虛擬數(shù)字人的動作靈活度以及互動效果都較為出色。這種技術模式的好處在于,一方面能夠在部分涉及影視創(chuàng)作的行業(yè)中顯著降低生產成本,另一方面則能在虛擬偶像、直播主播行業(yè)進行批量生產,讓虛擬數(shù)字人在大型直播、現(xiàn)場路演等互動性較強的活動中加強落地應用。
有關虛擬數(shù)字人技術討論的高潮莫過于“真假黃仁勛”事件。在2021年4月英偉達舉辦的發(fā)布會上,英偉達創(chuàng)始人兼CEO黃仁勛以虛擬數(shù)字人形象出現(xiàn)在虛擬甲板(Holodeck)上面并進行了簡短發(fā)言,這在全球范圍內引起了熱議。英偉達這段時長約14秒的“秀肌肉”環(huán)節(jié)讓很多觀眾第一次領略到虛擬數(shù)字人的飛速發(fā)展——它們已經(jīng)能夠以假亂真了。
據(jù)介紹,英偉達的虛擬世界模擬引擎Omniverse依托頂尖的計算機圖形學、人工智能等技術,其不僅允許用戶在平臺上進行建模、布局、陰影、動畫、照明、特效或渲染工作,還可以創(chuàng)建交互式人工智能替身。
無獨有偶,我國百度、科大訊飛等人工智能領先企業(yè)也在積極探索虛擬數(shù)字人技術,他們利用擁有自主知識產權的圖像、人工智能引擎或是先進的人臉3D重建、唇形驅動技術,配合自身擁有的各類數(shù)字資產,在虛擬數(shù)字人領域開疆拓土。
隨著虛擬數(shù)字人技術不斷迭代創(chuàng)新,未來的數(shù)智化社會也許會是這般風貌:全世界不同膚色、講著不同語言的人們憑借虛擬數(shù)字人將自身映射到元宇宙中,虛擬世界的“人們”幫助真人深度參與生產活動。各行業(yè)的運行也將變得更高效——工業(yè)、金融、教育、文化、醫(yī)療等垂直行業(yè)元宇宙紛紛落地,并反哺物理世界中的技術與產品,使其再度迭代升級。
科技向善彰顯人性溫度
如果說技術賦予了虛擬數(shù)字人動聽的聲音、真實的膚色,那么如何更好地用虛擬數(shù)字人技術造福社會則決定虛擬數(shù)字人能否擁有自己的體溫??萍枷蛏剖侨祟惷\共同體的內在要求。虛擬數(shù)字人作為新一代信息通信技術的集大成者,其不僅要“取之于人,用之于人”,更要用得好、用得對。
根據(jù)研究機構統(tǒng)計,預計到2030年,我國虛擬數(shù)字人整體市場規(guī)模達到2700億元。面對規(guī)模龐大的市場藍海,如何利用好虛擬數(shù)字人為公眾服務是產學研必須思考的問題。
目前,多數(shù)虛擬數(shù)字人企業(yè)的發(fā)力點主要圍繞通過搭建虛擬數(shù)字人內容生成平臺,深挖特定場景(政務、金融、傳媒、大型活動賽事等)的人工智能客服、虛擬主播、虛擬助手、新聞播報等業(yè)務,華為、科大訊飛、百度、騰訊、搜狗等企業(yè)都在該領域有所布局。
在2021年一場華為開發(fā)者大會的會場直播大屏上,身著紅色衣服的虛擬數(shù)字人實時匹配演講嘉賓的說話內容,通過手語直播大會內容。據(jù)介紹,該虛擬數(shù)字人基于即時聽到的語言,通過華為手語服務,實時生成連貫、自然的手語。另外,華為還宣布此項目將通過華為手語服務(SignPal Kit)開放出來,讓虛擬數(shù)字人惠及全世界的聽障群體,讓溝通無障礙。
世界衛(wèi)生組織(WHO)最新數(shù)據(jù)顯示,全球患有聽力障礙的群體大約有4.66億人,幾乎超過全世界人口的5%。手語作為聽障群體溝通的重要工具,是他們融入社會和完成工作、學習的橋梁與紐帶。特別是由于交流的不便和信息的缺失,聽障群體在公共場所,例如政府、銀行、醫(yī)院等機構辦理業(yè)務時面臨諸多困難。在我國,聽障群體人數(shù)約為2700萬,即每100人中約有2人患有聽力障礙。但是目前我國手語行業(yè)發(fā)展較為緩慢,手語教育培訓力量薄弱,具備專業(yè)手語翻譯資格認證的人員更是少之又少,與龐大的聽障群體比例極為失衡。虛擬數(shù)字人的應用將為他們帶來切實福利。
以人工智能技術見長的科大訊飛正在為患有視力障礙的人們的溝通交流作貢獻。隨著北京冬奧會和冬殘奧會日益臨近,從2019年底啟動的北京市無障礙環(huán)境建設專項行動也進入收官階段??拼笥嶏w高級副總裁杜蘭透露,和往屆奧運會相比,2022年北京冬奧會及冬殘奧會將成為歷史上首屆溝通無障礙的奧運會。為了滿足視障群體需求,科大訊飛推出了虛擬交互志愿者,其利用多語種識別、自然語言理解、機器翻譯、虛擬形象等核心技術,替代真人提供全天候播報服務,讓視障人士能夠“聽得見”文字。
隨著各類底層技術越發(fā)成熟以及更多為公眾服務的虛擬數(shù)字人應用落地,虛擬數(shù)字人將不僅是一個由0和1組成的工具,更會是一個擁有體溫的“人”,更廣泛地傳播數(shù)智化帶來的社會紅利,惠及每個角落。(趙樂瑄)