国产10000部拍拍拍免费视频_免费一级a一片久久精品网_亚洲男人AV免费影院_国产一区欧美二区影视播放_亚洲中文字幕无线无码毛片

當(dāng)AI面臨瓶頸,安全合規(guī)的數(shù)據(jù)生態(tài)該如何構(gòu)建

2023-05-29 13:50:53    來源:商業(yè)觀察網(wǎng)

自從 ChatGPT 橫空出世后,一石激起千層浪,人工智能也正在從感知理解走向生成創(chuàng)造,這是一個(gè)關(guān)鍵里程碑。生成式大模型完成了從0到1的飛躍,并且已成為未來發(fā)展趨勢(shì),推動(dòng)AI邁向通用人工智能。


(資料圖片僅供參考)

在ChatGPT發(fā)布后的短短4個(gè)月時(shí)間里,已經(jīng)有至少30個(gè)國內(nèi)研發(fā)機(jī)構(gòu)與企業(yè)紛紛推出自己品牌的大模型與相關(guān)產(chǎn)品。例如百度的“文心一言”、阿里的“通義千問”、科大訊飛(002230)的“星火認(rèn)知大模型”、京東的“言犀產(chǎn)業(yè)大模型”等等。

但是2023年4月,馬斯克突然與1000多名人工智能專家和行業(yè)高管在公開信中呼吁:“ChatGPT等AI研究室需暫停研發(fā)6個(gè)月!”給出的理由是“只有當(dāng)我們確信它們的影響是積極的,并且它們的風(fēng)險(xiǎn)是可控的時(shí)候,才能開發(fā)更強(qiáng)大的人工智能系統(tǒng)?!?/p>

聚焦大模型的“隱患”

事實(shí)上,對(duì)大模型的隱憂還不僅僅限于風(fēng)險(xiǎn)不可控,一項(xiàng)來自 Epoch AI Research 團(tuán)隊(duì)的研究拋出了一個(gè)殘酷的現(xiàn)實(shí):目前,公域中高質(zhì)量的語言數(shù)據(jù)存量將在 2026 年耗盡,低質(zhì)量的語言數(shù)據(jù)和圖像數(shù)據(jù)的存量也將在未來20年中逐步耗盡。這意味著,如果數(shù)據(jù)效率沒有顯著提高或有新的數(shù)據(jù)源可用,那么到 2040 年,模型的規(guī)模增長(zhǎng)將放緩。而如何合法合規(guī)地利用手機(jī)等終端設(shè)備上的私域數(shù)據(jù),將是解決大模型訓(xùn)練數(shù)據(jù)不足問題的關(guān)鍵。

即便是現(xiàn)在的大模型還沒涉及私域數(shù)據(jù)領(lǐng)域,但有相關(guān)政策法規(guī)已經(jīng)開始進(jìn)行規(guī)范。 4月11日,國家網(wǎng)信辦就《生成式人工智能服務(wù)管理辦法(征求意見稿)》公開征求意見,在責(zé)任和義務(wù)方面,尤為強(qiáng)調(diào)數(shù)據(jù)合法性與對(duì)個(gè)人數(shù)據(jù)和信息的保護(hù)。其中提到:提供者應(yīng)當(dāng)對(duì)生成式人工智能產(chǎn)品的預(yù)訓(xùn)練數(shù)據(jù)、優(yōu)化訓(xùn)練數(shù)據(jù)來源的合法性負(fù)責(zé);禁止非法獲取、披露、利用個(gè)人信息和隱私、商業(yè)秘密。

由此可見,數(shù)據(jù)隱私之憂已經(jīng)成為全行業(yè)的共識(shí)。而除了數(shù)據(jù)隱私的憂慮之外,由于大模型通常需要消耗大量的算力和數(shù)據(jù),也就是說只有少數(shù)大公司擁有足夠的資源來訓(xùn)練和部署這些模型。這可能導(dǎo)致市場(chǎng)上的壟斷現(xiàn)象,限制了中小企業(yè)參與機(jī)器學(xué)習(xí)和AI應(yīng)用領(lǐng)域的機(jī)會(huì),導(dǎo)致壟斷和不公平的產(chǎn)生。在云服務(wù)器上運(yùn)行的大模型還會(huì)面臨安全攻擊風(fēng)險(xiǎn)。惡意攻擊者很可能通過攻擊云服務(wù)器來竊取模型及其數(shù)據(jù),或者反向工程模型參數(shù)以訓(xùn)練新模型。

數(shù)據(jù)隱私泄露、安全漏洞、市場(chǎng)壟斷、不公平性、公域數(shù)據(jù)即將耗盡等等大模型發(fā)展所面臨的“隱患”該如何解決?

分散的小模型協(xié)作會(huì)成為大模型未來發(fā)展趨勢(shì)嗎?

4月18日,OpenAI CEO Sam Altman在討論大模型發(fā)展的趨勢(shì)的時(shí)候認(rèn)為,讓模型變得更大將不會(huì)進(jìn)一步帶來新進(jìn)展。“我認(rèn)為我們正處于將模型做大這一時(shí)代的盡頭。我們將以其他方式使它們變得更好?!蔽磥砟P蛥?shù)應(yīng)該向更小的方向發(fā)展,或者以多個(gè)小模型協(xié)作的方式工作。

“讓大模型變小”已經(jīng)成為眾多研究者非常感興趣的一條路,大家先后做了很多嘗試,先是 Meta 開源了 LLaMA,讓學(xué)界和小公司可以訓(xùn)練自己的模型。隨后斯坦福研究者啟動(dòng)了 Lamini,為每個(gè)開發(fā)者提供了從 GPT-3 到 ChatGPT 的快速調(diào)優(yōu)方案。

最近由 TVM、MXNET、XGBoost 作者,CMU 助理教授,OctoML CTO 陳天奇等多位研究者共同開發(fā)的開源新項(xiàng)目MLC LLM面世,希望實(shí)現(xiàn)在個(gè)人手機(jī)和電腦等各類設(shè)備平臺(tái)上編譯運(yùn)行大語言模型。

今年4月,隱私計(jì)算聯(lián)邦學(xué)習(xí)開源平臺(tái)FATE (Federated AI Technology Enabler)正式發(fā)布聯(lián)邦大模型FATE-LLM功能模塊,同樣是“小模型協(xié)作”的思路,F(xiàn)ATE-LLM則是通過將聯(lián)邦學(xué)習(xí)和大模型結(jié)合,在各參與方的敏感數(shù)據(jù)不出本地域的前提下,根據(jù)各方實(shí)際數(shù)據(jù)量進(jìn)行算力投入,聯(lián)合進(jìn)行大模型訓(xùn)練。

基于此技術(shù)方案,多個(gè)機(jī)構(gòu)可以通過FATE內(nèi)置的預(yù)訓(xùn)練模型進(jìn)行橫向聯(lián)邦,利用各自隱私數(shù)據(jù)進(jìn)行聯(lián)邦大模型微調(diào),從而提升自身大模型應(yīng)用的效果。聯(lián)邦大模型不僅主要解決的是大模型訓(xùn)練階段的隱私保護(hù)問題,未來還將研究在使用大模型的過程中如何保護(hù)用戶的隱私。

這種用小模型聯(lián)動(dòng)大模型的方式,也很好地詮釋了小模型協(xié)作的精髓。聯(lián)邦學(xué)習(xí)作為一種分布式機(jī)器學(xué)習(xí)新范式,其“數(shù)據(jù)不動(dòng)模型動(dòng),數(shù)據(jù)可用不可見”的特點(diǎn)使得各參與方可以在保護(hù)各自數(shù)據(jù)安全與用戶隱私的前提下,進(jìn)行AI協(xié)作,打破數(shù)據(jù)孤島。

也正是因?yàn)槁?lián)邦學(xué)習(xí)的這一屬性,為未來大模型的發(fā)展提供新的思路:聯(lián)邦學(xué)習(xí)與大模型結(jié)合,構(gòu)建安全合規(guī)的數(shù)據(jù)生態(tài)大陸。

近期聯(lián)邦大模型對(duì)現(xiàn)有大模型的支持已經(jīng)在實(shí)操層面上有了很多新進(jìn)展,F(xiàn)ATE開源社區(qū)TSC Maintainer、開發(fā)專委會(huì)核心成員范濤告訴我們:“目前的FATE-LLM可以提供對(duì)主流大模型的支持,4月發(fā)布了聯(lián)邦大模型FATE-LLM對(duì)GPT-2等大模型的支持,5月發(fā)布了對(duì)清華GLM大模型的支持。”

聯(lián)邦大模型,也有需要面對(duì)的“原生困境”

和大模型面臨的隱憂類似,即便是以大化小,聯(lián)邦大模型更根本地解決了大模型面臨的一些問題,但是聯(lián)邦大模型依然有著自己要解決的“原生困境”。

公平性是否能夠得到保障?數(shù)據(jù)隱私性是否能夠有效保護(hù)?規(guī)模大小不一的異構(gòu)模型集如何統(tǒng)一調(diào)配訓(xùn)練?這些也給聯(lián)邦大模型的研究者們提出了難題。從2018年開始,香港科技大學(xué)講席教授楊強(qiáng)和其團(tuán)隊(duì)始終致力于聯(lián)邦學(xué)習(xí)的研究,如今,面對(duì)聯(lián)邦大模型可能遇到的技術(shù)難題,楊強(qiáng)教授認(rèn)為,想要在多個(gè)維度實(shí)現(xiàn)“既要,又要”,那么就必須在“平衡”上做文章。

面對(duì)聯(lián)邦大模型是如何通過大大小小的分布式模型協(xié)作來解決私域數(shù)據(jù)的安全性問題,楊強(qiáng)教授認(rèn)為:“未來,人工智能模型一定會(huì)成為我們貼身的人工智能助理,這就要求人工智能對(duì)個(gè)人的需求有更強(qiáng)的適配能力,更好的理解能力,這個(gè)時(shí)候,就會(huì)用到私域數(shù)據(jù),包括個(gè)人的生理的數(shù)據(jù),物聯(lián)網(wǎng)數(shù)據(jù)以及一些跟個(gè)人非常強(qiáng)相關(guān)的數(shù)據(jù)。使用這些數(shù)據(jù),一方面會(huì)讓AI給我們提供更貼身的、更個(gè)性化的服務(wù),但另一方面在用這些數(shù)據(jù)的時(shí)候也面臨隱私保護(hù)的需求。聯(lián)邦大模型針對(duì)這個(gè)問題提出的解決方案可以做到很好的平衡:一方面數(shù)據(jù)是分布的,另一方面,我們的這些大大小小的模型有的是分布式的,有的是個(gè)人化的、定制化的,他們一起來對(duì)聯(lián)邦大模型總體產(chǎn)生性能的提升、效率的提升以及安全隱私的保護(hù)。這樣,我們一方面能夠享受到大數(shù)據(jù)帶來的好處,另一方面我們還是能夠安心的,放心地使用這些模型,不至于因?yàn)槭褂眠@些模型就泄露了不該泄露的數(shù)據(jù)。”

然而,即便是“為解決數(shù)據(jù)隱私問題而生”的聯(lián)邦大模型,自身依然有要面對(duì)的安全性難題。聯(lián)邦學(xué)習(xí)中數(shù)據(jù)和模型的安全性到底該如何保障呢?微眾銀行人工智能首席科學(xué)家范力欣告訴我們:“我們針對(duì)竊取數(shù)據(jù)和模型,以及破壞數(shù)據(jù)和模型兩種安全隱患已經(jīng)有相應(yīng)的防御措施。針對(duì)數(shù)據(jù)竊取,我們通過加密數(shù)據(jù)來進(jìn)行防御;針對(duì)模型竊取則是通過水印機(jī)制來進(jìn)行制約。目前我們已經(jīng)有一套技術(shù)方案能夠支撐和有效的管理、追蹤整個(gè)模型的全生命周期的合法使用,這同樣對(duì)模型的知識(shí)產(chǎn)權(quán)進(jìn)行了很好的保護(hù)。另外,針對(duì)數(shù)據(jù)攻擊、數(shù)據(jù)投毒這一部分行為,我們通過對(duì)模型的鎖定,對(duì)參數(shù)進(jìn)行鎖定,對(duì)數(shù)據(jù)樣本進(jìn)行鎖定的方式去防御數(shù)據(jù)投毒?!?/p>

但在諸多的大模型發(fā)展的隱憂中,不僅僅有私域數(shù)據(jù)的隱私保護(hù)問題,還有樣本分布不均衡導(dǎo)致模型本身的公平性問題,這該如何解決? 微眾銀行人工智能首席科學(xué)家范力欣告訴我們:“樣本分布不均衡導(dǎo)致模型不公平性的問題其實(shí)早就提出來,在大模型之前或者聯(lián)邦學(xué)習(xí)之前已經(jīng)提出來。這個(gè)問題的基本的解決方案是有整體思路的:在訓(xùn)練模型時(shí)我們不僅僅是提升模型性能,而是對(duì)公平性、可解釋性、魯棒性等一系列跟倫理相關(guān)的目標(biāo)都作為優(yōu)化的約束條件或者優(yōu)化的多目標(biāo)一起來參與學(xué)習(xí)訓(xùn)練?!?/p>

這種思路在理論上提出了“多目標(biāo)聯(lián)邦學(xué)習(xí)優(yōu)化”的“可信聯(lián)邦學(xué)習(xí)”技術(shù)框架。在實(shí)際應(yīng)用中,需要用相應(yīng)的算法去一一衡量這些不同目標(biāo)之間的平衡。

范力欣說:“我們模型性能要好,這是一個(gè)基本要求,但同時(shí)我們要保證它的公平性、可解釋性要做到可度量的,并且跟模型性能一起來進(jìn)行優(yōu)化。比如我們聯(lián)合多家機(jī)構(gòu)承擔(dān)的國家科技部科技創(chuàng)新2030-‘新一代人工智能’重大項(xiàng)目里面就應(yīng)用了這樣的解決方案,效果顯著。再比如在與北航童永昕教授團(tuán)隊(duì)合作的聯(lián)邦網(wǎng)約車調(diào)度中,通過設(shè)計(jì)合理的激勵(lì)機(jī)制,使得司機(jī)完成任務(wù)的積極性大為提高,同時(shí)司機(jī)間的收入分布也更加均衡?!?/p>

聯(lián)邦大模型從誕生開始就備受矚目,其未來的應(yīng)用也被業(yè)界普遍看好,聯(lián)邦大模型未來將有機(jī)會(huì)重塑金融、零售、工業(yè)等多行業(yè)的數(shù)字化形態(tài)。相關(guān)應(yīng)用場(chǎng)景包括在金融領(lǐng)域的智能客服、內(nèi)容風(fēng)控、金融資訊情感分析、文本意圖識(shí)別、營(yíng)銷場(chǎng)景智能創(chuàng)意生成和優(yōu)化等。盡管機(jī)構(gòu)自身擁有的數(shù)據(jù)量和算力可能不足,卻仍然能夠通過發(fā)揮大模型的優(yōu)勢(shì),安全合規(guī)地提升客服、營(yíng)銷、風(fēng)控的效果。

人工智能正在經(jīng)歷從計(jì)算、感知到認(rèn)知的發(fā)展階段。聯(lián)邦學(xué)習(xí)、可信聯(lián)邦學(xué)習(xí)以及聯(lián)邦學(xué)習(xí) 大模型,在保證安全、高效的要求下,進(jìn)一步滿足了可解釋性和普惠性等人工智能倫理的核心命題,將看似為難的“既要,又要”,變成了可以將之平衡的解決方案,這也將為人工智能生態(tài)的良性、可持續(xù)發(fā)展提供助力。

(免責(zé)聲明:此文內(nèi)容為廣告,相關(guān)素材由廣告主提供,廣告主對(duì)本廣告內(nèi)容的真實(shí)性負(fù)責(zé)。本網(wǎng)發(fā)布目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé),請(qǐng)自行核實(shí)相關(guān)內(nèi)容。廣告內(nèi)容僅供讀者參考。)

(責(zé)任編輯:張曉波 )

關(guān)鍵詞:

上一篇:Today at Apple環(huán)保系列課程收官 用多種創(chuàng)意方式為地球發(fā)聲|當(dāng)前消息
下一篇:最后一頁

熱點(diǎn)話題

熱點(diǎn)推薦

頭條

?