国内精品免费视频-国内精品视频成人一区二区-国内精品视频免费观看-国内精品视频在线播放一区-日本狠狠操-日本狠狠干

目錄

榮譽(yù)與背叛:字節(jié) 訴訟遇到 NeurIPS 最佳論文

2024年12月3日,在這個(gè)離年末僅有27天的日子里,一件AI界頗具戲劇性的事件發(fā)生在字節(jié)跳動(dòng)的一個(gè)前實(shí)習(xí)生身上。北京大學(xué)研究生田柯宇憑借其在視覺生成領(lǐng)域的開創(chuàng)性工作獲得了NeurIPS大會(huì)最佳論文獎(jiǎng)。在人工智能領(lǐng)域的學(xué)術(shù)殿堂中,NeurIPS的地位堪比文學(xué)界的諾貝爾獎(jiǎng)。它創(chuàng)立于1987年,這個(gè)大會(huì)見證并推動(dòng)了從簡(jiǎn)單神經(jīng)網(wǎng)絡(luò)到現(xiàn)代深度學(xué)習(xí)的整個(gè)革命進(jìn)程。但在...

字節(jié)_副本.jpg

2024年12月3日,在這個(gè)離年末僅有27天的日子里,一件AI界頗具戲劇性的事件發(fā)生在字節(jié)跳動(dòng)的一個(gè)前實(shí)習(xí)生身上。

北京大學(xué)研究生田柯宇憑借其在視覺生成領(lǐng)域的開創(chuàng)性工作獲得了NeurIPS大會(huì)最佳論文獎(jiǎng)。

1_副本.jpg

在人工智能領(lǐng)域的學(xué)術(shù)殿堂中,NeurIPS的地位堪比文學(xué)界的諾貝爾獎(jiǎng)。它創(chuàng)立于1987年,這個(gè)大會(huì)見證并推動(dòng)了從簡(jiǎn)單神經(jīng)網(wǎng)絡(luò)到現(xiàn)代深度學(xué)習(xí)的整個(gè)革命進(jìn)程。

但在頒獎(jiǎng)當(dāng)天,NeurIPS大概率會(huì)面對(duì)一張空椅子。因?yàn)楂@獎(jiǎng)?wù)咛锟掠钫媾R著字節(jié)跳動(dòng)八百萬元的訴訟,原因是“涉嫌破壞其AI訓(xùn)練系統(tǒng)”。

01 公司的罪人和學(xué)術(shù)的天才

田柯宇的學(xué)術(shù)履歷堪稱完美:本科畢業(yè)于北京航空航天大學(xué)軟件學(xué)院,隨后進(jìn)入北京大學(xué)攻讀研究生,師從知名學(xué)者王立威教授。

他研究的重點(diǎn)是深度學(xué)習(xí)優(yōu)化與算法,在攻讀學(xué)位期間就已在多個(gè)頂級(jí)會(huì)議發(fā)表論文,包括ICLR 2023的Spotlight論文《Spark:Designing BERT for Convolutional Networks》,是其引用量最高的論文。

2_副本.jpg

2021年,田柯宇開始了在字節(jié)跳動(dòng)商業(yè)化技術(shù)部門的實(shí)習(xí)。在這里,他參與了一個(gè)雄心勃勃的項(xiàng)目:開發(fā)新一代的視覺生成模型。這個(gè)后來被命名為VAR(Visual Autoregressive Modeling)的項(xiàng)目,試圖徹底改變AI生成圖像的方式。

然而就在今年10月18日,網(wǎng)上開始流傳字節(jié)實(shí)習(xí)生“投毒”大模型的聊天截圖,給公司造成了極大損失。

這起事件的細(xì)節(jié)后續(xù)得到了更多披露。矛頭很快指向了田柯宇。

一位在GitHub上發(fā)聲的知情人士描繪了這場(chǎng)持續(xù)兩個(gè)月的"數(shù)字破壞":"在這段時(shí)間里,他系統(tǒng)性地破壞集群代碼,直接導(dǎo)致近30位同事的工作成果付諸東流,整整一個(gè)季度的心血化為烏有。所有的日志記錄和系統(tǒng)審查都指向一個(gè)不容辯駁的事實(shí)。"

3_副本.jpg

10月21日,界面新聞從知情人士處了解到,字節(jié)跳動(dòng)內(nèi)部已經(jīng)調(diào)查明確此事為田姓實(shí)習(xí)生所為。

事件曝光后,這位北大高材生試圖通過社交媒體自證清白,聲稱真正的破壞者另有其人。

4_副本.jpg

(網(wǎng)傳的田柯宇在社群中的回應(yīng))

這種"甩鍋"行為很快就被接近字節(jié)跳動(dòng)的人士予以駁斥。一位不愿透露姓名的字節(jié)內(nèi)部人士向澎湃新聞透露了公司的處理邏輯:考慮到田柯宇的在讀博士身份,公司最初選擇了相對(duì)溫和的處理方式,將其辭退并交由校方處理。這也在字節(jié)官方的回應(yīng)中有所體現(xiàn)。

5_副本.jpg

然而,事態(tài)在田柯宇的一系列反應(yīng)中急轉(zhuǎn)直下。他后續(xù)不僅多次公開否認(rèn)指控,聲稱真正的攻擊者是其他實(shí)習(xí)生,甚至報(bào)警稱自己是造謠受害者。這種拒不認(rèn)錯(cuò)、反咬一口的態(tài)度,最終耗盡了字節(jié)的耐心。"他完全沒有意識(shí)到自己的錯(cuò)誤性質(zhì)和嚴(yán)重程度,"據(jù)澎湃新聞采訪到內(nèi)部人士說,"這種行為已經(jīng)觸及公司安全管理的紅線。"最終,字節(jié)跳動(dòng)決定通過法律途徑追責(zé),以儆效尤,防止類似事件重演。

據(jù)《南方都市報(bào)》11月27日?qǐng)?bào)道,字節(jié)跳動(dòng)起訴前實(shí)習(xí)生田某某篡改代碼攻擊公司內(nèi)部模型訓(xùn)練一案,獲北京市海淀區(qū)人民法院正式受理。字節(jié)跳動(dòng)請(qǐng)求法院判令田某某賠償公司侵權(quán)損失800萬元及合理支出2萬元,并公開賠禮道歉。

這也反證了當(dāng)年字節(jié)極力否認(rèn)的網(wǎng)傳“1000萬”的損失。

但也正是在字節(jié)工作期間,田柯宇寫出了他的這篇含金量極高的獲獎(jiǎng)?wù)撐摹U撐牡奈逦蛔髡咧校兴奈欢际莵碜杂谧止?jié),而田柯宇是第一作者。

6_副本.jpg

02 含金量極高的獲獎(jiǎng)?wù)撐?/span>

要理解NeurIPS最佳論文的分量,我們不妨回望2014年的一個(gè)歷史性時(shí)刻。那年《Sequence to Sequence Learning with Neural Networks》都未獲得最佳論文,僅僅進(jìn)入了oral(口頭演講》環(huán)節(jié)。

這篇出自Ilya Sutskever、Oriol Vinyals和Quoc V. Le之手的論文不僅是一項(xiàng)學(xué)術(shù)成就,更像是為人工智能劃出了一條全新的航道。

彼時(shí)還默默無聞的三位作者,如今已是AI領(lǐng)域的標(biāo)志性人物:Sutskever成為了OpenAI的聯(lián)合創(chuàng)始人,在GPT系列的開發(fā)中發(fā)揮核心作用;Vinyals在DeepMind主導(dǎo)了AlphaFold的突破;Le則在Google Brain推動(dòng)了大語言模型的革新。他們的序列到序列學(xué)習(xí)框架,為今天ChatGPT、Claude這樣的自回歸語言模型奠定了理論基石。

而當(dāng)年獲得了最佳論文的李平教授,在回國(guó)后曾任百度首席架構(gòu)師(T11)和百度研究院副院長(zhǎng)。

7_副本.jpg

NeurIPS的錄用門檻極其嚴(yán)苛,獲得這個(gè)獎(jiǎng)的難度有多高呢?

據(jù)數(shù)據(jù)統(tǒng)計(jì)顯示,以2023年為例,大會(huì)收到12,343篇投稿,最終接受率為26.1%。而能夠入選口頭報(bào)告(Oral)的論文更是鳳毛麟角,通常不到1%。

在這樣的背景下,VAR論文不僅入選Oral,還以近乎滿分的評(píng)審分?jǐn)?shù)(7,8,8,8)摘得最佳論文桂冠,其學(xué)術(shù)分量可見一斑。田柯宇北大同一實(shí)驗(yàn)室的同學(xué)對(duì)騰訊科技表示,此論文為第一篇來自中國(guó)大陸的NIPS最佳論文。

這篇名為《視覺自回歸建模:基于下一尺度預(yù)測(cè)的可擴(kuò)展圖像生成》的論文,發(fā)布于2024年5月,它代表了AI系統(tǒng)生成圖像方式的重大突破。

傳統(tǒng)的圖像生成方法就像在一頁紙上從左到右、從上到下依次填寫文字。VAR則采用了一種更接近人類直覺的方法:先勾勒出大致輪廓,再逐步添加細(xì)節(jié)。

具體來說,VAR包含兩個(gè)訓(xùn)練階段:首先通過多尺度VQVAE將圖像編碼為不同分辨率的標(biāo)記映射,然后訓(xùn)練VAR Transformer來預(yù)測(cè)更高分辨率的細(xì)節(jié)。

8_副本.jpg

這篇論文提出的視覺自回歸建模(VAR)方法首次證明了GPT式模型可以在圖像生成方面超越擴(kuò)散模型——這是許多人認(rèn)為不可能的里程碑。在ImageNet 256×256基準(zhǔn)測(cè)試中,VAR將圖像質(zhì)量評(píng)估指標(biāo)FID從18.65提升至1.73,生成速度提高了20倍。

9_副本.jpg

更重要的是,VAR展現(xiàn)出此前只在大型語言模型中觀察到的特征:清晰的冪律縮放和零樣本泛化能力。

用更簡(jiǎn)單的話來說就是,系統(tǒng)隨著規(guī)模增大而可預(yù)測(cè)地變得更好,并且能夠處理它沒有專門訓(xùn)練過的任務(wù)——這是更高級(jí)AI系統(tǒng)的標(biāo)志。這些特性暗示了視覺AI可能與語言AI走向統(tǒng)一的道路。

10_副本.jpg

目前,VAR的代碼已在GitHub上開源,獲得了超過4400顆星標(biāo)。

從其技術(shù)價(jià)值和實(shí)際獲得的榮譽(yù)來看,這篇論文和田柯宇的科研含金量都極高。然而,正是因此,他讓前公司字節(jié)陷入了兩難之境。

03 兩難的字節(jié)

對(duì)字節(jié)跳動(dòng)而言,田柯宇大模型“投毒”事件帶來的打擊遠(yuǎn)比表面看起來要嚴(yán)重。

更具戲劇性的是,當(dāng)VAR論文在NeurIPS載譽(yù)而歸時(shí),字節(jié)跳動(dòng)卻陷入了進(jìn)退維谷的尷尬境地。

作為一家渴望在AI領(lǐng)域與谷歌、OpenAI等全球巨頭競(jìng)爭(zhēng)的中國(guó)科技公司,字節(jié)跳動(dòng)在人工智能基礎(chǔ)研究上投入了數(shù)以億計(jì)的資金。這項(xiàng)突破性研究確實(shí)誕生于字節(jié)實(shí)驗(yàn)室,但公司卻無法在學(xué)術(shù)社區(qū)大張旗鼓地宣傳這一成就——因?yàn)檎撐牡牡谝蛔髡哒还酒鹪V。

這種矛盾直指當(dāng)前公司管理的某種困境:如何對(duì)有才干的科學(xué)家分配有效的資源,給予個(gè)體更有效的表彰?在愈發(fā)龐大的字節(jié),這一命題也變得越來越難解。尤其在OpenAI、Anthropic等競(jìng)爭(zhēng)對(duì)手普遍采取更開放研究政策的背景下,大公司很可能因?yàn)榻M織結(jié)構(gòu)的問題在吸引和保留頂尖AI人才的戰(zhàn)爭(zhēng)中落敗。

更令人深思的是,田柯宇能夠如此輕易地破壞訓(xùn)練系統(tǒng),暴露出字節(jié)在核心技術(shù)安全管控上的致命漏洞。這對(duì)于一家掌握著數(shù)億用戶數(shù)據(jù)、運(yùn)營(yíng)著多個(gè)AI大模型的科技巨頭而言,無疑是一記響亮的警鐘。


您暫未設(shè)置收款碼

請(qǐng)?jiān)谥黝}配置——文章設(shè)置里上傳

掃描二維碼手機(jī)訪問

文章目錄