我們擅長商業(yè)策略與用戶體驗的完美結(jié)合。
歡迎瀏覽我們的案例。
學生告訴我,每年這個時候都會集中收到類似郵件,大概是因為畢業(yè)生要準備畢業(yè)論文了。
我忙問學生,這種情況持續(xù)多久了?他們告訴我有一段時間了,但近年來愈演愈烈,幾乎成了套路和風氣。比如這幾天一些學生還被同一個qq匿名郵件以每天三封的頻率持續(xù)騷擾。
圖1 匿名想要源代碼或具體實現(xiàn)的郵件例子。
雖然我相信世界上幾乎沒有人可以保證自己的研究成果是100%正確,但向?qū)W生們和合作者強調(diào)學術(shù)倫理道德和底線,是我一貫的做法。因此,盡管可能會有一些瑕疵,但我相信他們的研究成果是經(jīng)得起學術(shù)推敲的。
為了讓學生免于這些無聊干擾、專心致志科研,我立即表示:對于這種匿名騷擾的郵件,拒絕回復(fù)并直接拉黑發(fā)送方。
沒想到,稍晚時候,我竟然又收到了匿名者郵件,他帶著威脅地聲稱——文章有著疑點,“非常有禮貌” 地詢問了我的學生,卻被拉黑了(見圖2)。
圖2 匿名威脅發(fā)我的郵件截圖(文章信息、發(fā)送方和文章作者信息已經(jīng)做處理)
我認真讀完這份郵件,并沒有找到他們敘述的任何有關(guān)我們文章的疑點,但就是要詳細的實現(xiàn)。
我感覺匿名者似乎缺乏基本的知識和文獻背景。從郵件猜測,匿名發(fā)送人大概是大學生或低年級的研究生,郵件中的一些疑惑本應(yīng)在研究前,由其指導老師所教的基礎(chǔ)知識和基本的文獻閱讀就能解答。
當然,最使我吃驚的是,郵件所透露出來的貌似隱約但直截了當?shù)耐{。
為此,我向海內(nèi)外的朋友們了解了一下情況,發(fā)現(xiàn)很多人也收到了類似的郵件,甚至有幾位朋友說,他們天天都有收到此類郵件,讓我不要大驚小怪。
這些來自實名 “伸手黨” 或匿名 “威脅黨” 的郵件,讓我十分悲憤——深度學習時代的人工智能研究怎么出了這種亂象?
01 寫不如逼,逼不成恐嚇
我們知道,深度學習模型的復(fù)現(xiàn)和重用需要人力研發(fā)與計算設(shè)備的投入。我們實驗室為了搭建相應(yīng)的軟硬件環(huán)境,花費了數(shù)以億計的經(jīng)費。即便如此,我們自己的復(fù)現(xiàn)結(jié)果,有時也不盡人意。
自己編程寫復(fù)現(xiàn)代碼困難重重,有些人便來找捷徑了——直接向作者要源碼和具體實現(xiàn)。
實名要的,一般會說看了文章但是復(fù)現(xiàn)難度大,所以要代碼或者實現(xiàn)細節(jié)??捎行┤艘姆绞揭菜坪跆欢Y貌、太懶了——甚至于在郵件里連作者的名字和文章題目都寫錯了,絲毫沒有看出對方是看過該文章的。
匿名要的,因為擔心作者舉報,通常不會用實際單位郵箱而用社會上的通用郵箱發(fā)送。這些匿名郵件不會表露出要代碼或者要實現(xiàn)細節(jié)的目的和用途,而是在言辭上拐彎抹角地逼問恐嚇,例如指責疑點很多、將舉報論文作者等等??梢坏┳髡邔⒋a或者實現(xiàn)細節(jié)回復(fù)匿名者,并詢問對方發(fā)現(xiàn)的具體疑點后,往往就沒有下文了。
拿到作者的源碼,用于學術(shù)研究當屬正常,但瞞著作者直接將其商用的,也不在少數(shù)。例如,著名目標檢測算法YOLO的作者 Joseph Redmon 宣布,將停止一切計算機研究,原因是自己的開源算法在未經(jīng)過他同意的情況下,已經(jīng)被其他人用于引發(fā)軍事沖突和侵犯隱私的系統(tǒng)里。
更可恥的是,有了作者的源碼,卻沒有運行出作者的結(jié)果,那便繼續(xù)逼問作者。
可氣的是,有些人根本不花氣力去了解論文和具體的實驗步驟及其所必須的軟硬件實驗環(huán)境,出現(xiàn)過許多可笑的情況。
一位朋友曾告訴我,僅僅因為匿名者自己的軟件版本與作者不同而導致程序報錯,就去 “討伐” 作者;當作者好心相助后,匿名者竟然連程序報錯日志是什么都不知道。
還有一位朋友告訴我,在他認真回復(fù)之后,匿名者仍然再問稍有基本知識就知道是相同問題的問題,一旦沒有及時回復(fù),那就天天、過幾小時甚至幾分鐘后發(fā)一封,被迫成為了 “義務(wù)” 指導老師,而且是 “保姆型” 的。無奈之下,朋友把數(shù)據(jù)、代碼與模型封裝成一個Docker作為回復(fù),匿名者竟然回問朋友Docker如何安裝和使用?真是當老師不夠,“保姆” 才行!
更有甚者,匿名者被一個作者拉黑后,就威脅其他合作者或作者單位的其他人。這樣不成功,再換個 “馬甲” 甚至幾個 “馬甲”,把這個過程再來一遍。例如,一位朋友告訴我,他的團隊收到過來自不同匿名者的郵件,這些郵件除了郵件地址之外,郵件內(nèi)容竟然一字不差!
總之,這些人沒有底線、目的只有一個:交出代碼!
了解了這些情況,讓我極度悲哀。面對這種郵件,為何有人沒錯卻把代碼給了匿名者?為何匿名者又連錯誤的代碼都要?與朋友討論完后,我的認識是這樣的:
● 如果文章的算法沒有問題,交出代碼,一是真心幫助,這本就是學術(shù)界的傳統(tǒng);二是息事寧人,由于深度學習文章往往需要多人合作,作者一長串,有些作者深度參加,有些作者較少參與,并不是所有作者對其結(jié)果有著同樣的信心和定力,這就為匿名者提供了各個擊破的機會。
● 如果文章有問題,出乎我意料之外,錯誤的代碼有時也有價值,而且是正確的價值。比如,可以用它們 “交差”,完成KPI甚至是畢業(yè)、升職;還可以進一步地分析并修正這些代碼,大大縮短開發(fā)周期。
在與朋友的交談中,讓我感覺這種 “寫不如逼、逼不成就威嚇” 的現(xiàn)象在一些高校學生以及企業(yè)的實習生中,愈演愈烈、泛濫成災(zāi),開始從 “潛規(guī)則” 向不健康的 “亞文化” 發(fā)展。
如此發(fā)展下去,不但不能解決深度學習模型的可復(fù)現(xiàn)性問題,而且讓人擔心商用深度學習系統(tǒng)的可用性和可靠性。特別是,更讓人擔心對于年輕人在文化和精神層面上的損害。
02 難以復(fù)用的深度學習困境
深度學習改變了人工智能的面貌,這是一個巨大的進步。一個新的、規(guī)?;囊源髷?shù)據(jù)和算法為核心的行業(yè)革命方興未艾,而其關(guān)鍵就是深度學習模型。學術(shù)圈與企業(yè)界的研究重點已經(jīng)轉(zhuǎn)入深度學習模型的設(shè)計與應(yīng)用,其第一步往往就是復(fù)現(xiàn)和復(fù)用他人的工作。
在傳統(tǒng)的機器學習時代,理論算法與實現(xiàn)步驟基本上是等價的,因為其步驟都是確定的,所以大部分算法都是可以被近似或者完美復(fù)現(xiàn)。但在深度學習時代,深度網(wǎng)絡(luò)從本質(zhì)上就是大規(guī)模參數(shù)的隨機尋優(yōu)問題,而且包含著很多隨機步驟。
因此,在作者不開源的情況下,特別是不明確軟硬環(huán)境的情況下,復(fù)現(xiàn)者得不到作者聲稱結(jié)果的現(xiàn)象就會變得正常和普遍。
雖然計算機學科開源的風氣越來越好,可重復(fù)性問題得到了很大的改善,但是,在為數(shù)不少的情況下,即使作者將源代碼和數(shù)據(jù)都發(fā)布在論文中,其他機器學習研究人員仍然很難復(fù)現(xiàn)其結(jié)果。
例如,去年4月3日,圖靈獎得主楊立昆(Yann LeCun)在其推特上公開質(zhì)疑谷歌大腦的論文無法復(fù)現(xiàn),而且表示即使是NLP的一些頂級研究人員也無法復(fù)現(xiàn)谷歌大腦的語言模型 Transformer-XL 所得到的結(jié)果。
其實,同一問題在不同的軟硬實驗條件下,兩個或三個研究小組得到相同研究結(jié)論,但與原作者差距較大的是常見的。另外,可能由于軟硬環(huán)境的升級,即使是同一作者不同時期實現(xiàn)的同一算法,算法的效果也會差別巨大,這是我在文獻檢索時親自經(jīng)歷的一件事。
個人認為,一般來說,造成深度學習難以復(fù)現(xiàn)的原因主要由算法水平和硬件水平兩方面導致:
● 從算法水平上講,比如論文作者可能會從多組不同的實驗環(huán)境中挑選出最好的結(jié)果,以達到最好的水平;或者使用一些技巧,例如,數(shù)據(jù)集的劃分、針對數(shù)據(jù)集來調(diào)整機器學習模型的參數(shù)、在一個較大的私有數(shù)據(jù)集進行預(yù)訓練等等,以提升實驗結(jié)果。
● 從硬件水平上講,由于不同的CPU和不同的GPU計算能力的差異,在不同的硬件平臺上訓練不同類型的深度網(wǎng)絡(luò)時,不同的深度學習模型會有不同的特性和運行性能。一些研究人員與普通研究者相比,有著難以匹敵的超級算力(超級計算、超大規(guī)模云計算等等)。
此外,由于金融、醫(yī)學、能源等領(lǐng)域有著技術(shù)和數(shù)據(jù)隱私的特殊性,這些領(lǐng)域的深度學習算法的數(shù)據(jù)、代碼和模型大多是不能公開的,是極度保密的。和有些公司合作的論文,有時公司要求技術(shù)的保密,不能公開數(shù)據(jù)、代碼和模型。
綜上,目前的算法訓練技巧、軟硬件實驗環(huán)境和軟硬件實驗條件成為了深度學習模型的關(guān)鍵技術(shù)的一部分。由于知識產(chǎn)權(quán)和其他不得已的保密因素的影響,作者不愿分享和不能分享的現(xiàn)象也變得日益普遍,這就造成了一個難以復(fù)現(xiàn)、難以復(fù)用的深度學習困境。
最后,深度學習的不可解釋性也是造成目前困境的原因之一。從理論上,我們無法要求一個不可解釋性的模型總是給出一個可以解釋的結(jié)果。
客觀上,投機分子抓住了深度學習的這一特點,一批人造假欺騙換取名利、一批人威逼恫嚇掠取成果,從正反兩個方面,殃及廣大無辜的科研工作者。
03 破局的可能之路——聯(lián)邦智能與聯(lián)邦生態(tài)
由于各方面原因造成的數(shù)據(jù)、代碼與模型的孤島問題限制了深度學習模型的復(fù)現(xiàn)與應(yīng)用;與此同時,社會對于數(shù)據(jù)隱私保護與知識產(chǎn)權(quán)保護的愈加重視,相關(guān)監(jiān)管措施逐步出臺,導致數(shù)據(jù)的收集與技術(shù)的分享變得更加困難。
面對當前深度學習的困境,一味地讓作者開源并不能徹底地解決問題。而且,數(shù)據(jù)的價值源于其孤島性,知識產(chǎn)權(quán)的價值在于其可保護性,那么有沒有更好的解決設(shè)想或者解決方案?
一方面,我們要大力發(fā)展開源平臺和托管中心等現(xiàn)有手段,但是要改變這些組織間相互獨立、各自為營的現(xiàn)狀。運用以以太坊DAO等為代表的加密管理技術(shù),將各個開源與托管組織間的深度學習的數(shù)據(jù)、代碼與模型進行協(xié)同管理,以協(xié)同發(fā)揮 “組織智能” 的優(yōu)勢,突破DNN、GNN等算法中心論思維。最終,上 “真道”,真就是可信,可靠、可用、良效(Effective and Efficient);道就是分布自主有序組織化, 形成人類智能(Human Intelligence)、人工智能(Artificial Intelligence)、組織智能(Organizational Intelligence)相互協(xié)作的好(HAO)智能,以解決深度學習的困境。
另一方面,許多朋友都知道,我的希望是構(gòu)建聯(lián)邦生態(tài)來解決這一問題(詳見《聯(lián)邦生態(tài):從聯(lián)邦數(shù)據(jù)到聯(lián)邦智能》,智能科學與技術(shù)學報, 2020, vol.2,no.4, pp.305-313)。
我們設(shè)想的聯(lián)邦生態(tài)指在分布式的聯(lián)邦節(jié)點間,以基于區(qū)塊鏈的聯(lián)邦安全、聯(lián)邦共識、聯(lián)邦激勵、聯(lián)邦合約為支撐技術(shù),以聯(lián)邦數(shù)據(jù)、聯(lián)邦控制、聯(lián)邦服務(wù)、聯(lián)邦管理為核心內(nèi)容的面向隱私保護和數(shù)據(jù)安全、技術(shù)和資源協(xié)同管理的統(tǒng)一整體。
聯(lián)邦生態(tài)以數(shù)據(jù)和算子交換時的隱私可控為前提,通過聯(lián)邦控制實現(xiàn)數(shù)據(jù)聯(lián)邦化,通過聯(lián)邦管理實現(xiàn)服務(wù)聯(lián)邦化,借助人工智能和大數(shù)據(jù)技術(shù)實現(xiàn)聯(lián)邦智能,驅(qū)動整個產(chǎn)業(yè)和服務(wù)生態(tài)的創(chuàng)新和進步。在一定程度上,聯(lián)邦學習為我們提供了一個初步的案例。
我希望聯(lián)邦智能與聯(lián)邦生態(tài)以及其他智能手段是破除深度學習困局的可能之道,推動智能系統(tǒng)研發(fā)的更加深入與普及,使其早日具有廣泛造福于人類社會的可靠性與合法性。
04 應(yīng)對有理有節(jié),絕不屈從
話說回來,在我們學術(shù)生活中,學術(shù)交流扮演著極其重要的角色,我們必須捍衛(wèi)其純正性。這種匿名逼問、騷擾威脅的行為不但損害了學術(shù)交流,而且實際上是保護了真正的學術(shù)作弊行為。若是大行其道,那就沒有了正常的學術(shù)生活。為此,我們必須有禮有節(jié)、絕不屈從于這種行為!
面對這種匿名、污蔑、騷擾、威脅行為,我特地為實驗室暫時制定下了如下規(guī)則——無理由要源代碼和數(shù)據(jù)集的一律不回,多次發(fā)送并騷擾的,請直接拉黑發(fā)送方;郵件應(yīng)該由通訊作者統(tǒng)一回復(fù);其他作者收到關(guān)于自己文章的問題的郵件告知對方,問題應(yīng)由通訊作者回答;通訊作者應(yīng)該核對郵件發(fā)送方,確認是否匿名、是否是騷擾,是否是單位郵箱發(fā)送,若是學生,是否抄送其導師的單位郵箱,是否有脅迫威脅言論?通訊作者應(yīng)根據(jù)上述情況進行相應(yīng)處理,并將結(jié)果上報實驗室。
希望這 “約法三章” 可以幫助我們的學生遠離匿名逼問、騷擾威脅,回歸到正常的學術(shù)生活。
作者簡介
王飛躍,中國科學院自動化研究所研究員、博士生導師,復(fù)雜系統(tǒng)管理與控制國家重點實驗室主任。
小米應(yīng)用商店發(fā)布消息稱 持續(xù)開展“APP 侵害用戶權(quán)益治理”系列行動 11:37:04
騰訊云與CSIG成立政企業(yè)務(wù)線 加速數(shù)字技術(shù)在實體經(jīng)濟中的落地和應(yīng)用 11:34:49
樂視回應(yīng)還有400多人 期待新的朋友加入 11:29:25
亞馬遜表示 公司正在將其智能購物車擴展到馬薩諸塞州的一家全食店 10:18:04
三星在元宇宙平臺推出游戲 玩家可收集原材料制作三星產(chǎn)品 09:57:29
特斯拉加州San Mateo裁減229名員工 永久關(guān)閉該地區(qū)分公司 09:53:13