国内精品免费视频-国内精品视频成人一区二区-国内精品视频免费观看-国内精品视频在线播放一区-日本狠狠操-日本狠狠干

榮譽(yù)與背叛：字節(jié) 訴訟遇到 NeurIPS 最佳論文

互聯(lián)網(wǎng)2024-12-05

2024年12月3日，在這個(gè)離年末僅有27天的日子里，一件AI界頗具戲劇性的事件發(fā)生在字節(jié)跳動(dòng)的一個(gè)前實(shí)習(xí)生身上。北京大學(xué)研究生田柯宇憑借其在視覺生成領(lǐng)域的開創(chuàng)性工作獲得了NeurIPS大會(huì)最佳論文獎(jiǎng)。在人工智能領(lǐng)域的學(xué)術(shù)殿堂中，NeurIPS的地位堪比文學(xué)界的諾貝爾獎(jiǎng)。它創(chuàng)立于1987年，這個(gè)大會(huì)見證并推動(dòng)了從簡(jiǎn)單神經(jīng)網(wǎng)絡(luò)到現(xiàn)代深度學(xué)習(xí)的整個(gè)革命進(jìn)程。但在...

字節(jié)_副本.jpg

2024年12月3日，在這個(gè)離年末僅有27天的日子里，一件AI界頗具戲劇性的事件發(fā)生在字節(jié)跳動(dòng)的一個(gè)前實(shí)習(xí)生身上。

北京大學(xué)研究生田柯宇憑借其在視覺生成領(lǐng)域的開創(chuàng)性工作獲得了NeurIPS大會(huì)最佳論文獎(jiǎng)。

1_副本.jpg

在人工智能領(lǐng)域的學(xué)術(shù)殿堂中，NeurIPS的地位堪比文學(xué)界的諾貝爾獎(jiǎng)。它創(chuàng)立于1987年，這個(gè)大會(huì)見證并推動(dòng)了從簡(jiǎn)單神經(jīng)網(wǎng)絡(luò)到現(xiàn)代深度學(xué)習(xí)的整個(gè)革命進(jìn)程。

但在頒獎(jiǎng)當(dāng)天，NeurIPS大概率會(huì)面對(duì)一張空椅子。因?yàn)楂@獎(jiǎng)?wù)咛锟掠钫媾R著字節(jié)跳動(dòng)八百萬元的訴訟，原因是“涉嫌破壞其AI訓(xùn)練系統(tǒng)”。

01 公司的罪人和學(xué)術(shù)的天才

田柯宇的學(xué)術(shù)履歷堪稱完美：本科畢業(yè)于北京航空航天大學(xué)軟件學(xué)院，隨后進(jìn)入北京大學(xué)攻讀研究生，師從知名學(xué)者王立威教授。

他研究的重點(diǎn)是深度學(xué)習(xí)優(yōu)化與算法，在攻讀學(xué)位期間就已在多個(gè)頂級(jí)會(huì)議發(fā)表論文，包括ICLR 2023的Spotlight論文《Spark：Designing BERT for Convolutional Networks》，是其引用量最高的論文。

2_副本.jpg

2021年，田柯宇開始了在字節(jié)跳動(dòng)商業(yè)化技術(shù)部門的實(shí)習(xí)。在這里，他參與了一個(gè)雄心勃勃的項(xiàng)目：開發(fā)新一代的視覺生成模型。這個(gè)后來被命名為VAR（Visual Autoregressive Modeling）的項(xiàng)目，試圖徹底改變AI生成圖像的方式。

然而就在今年10月18日，網(wǎng)上開始流傳字節(jié)實(shí)習(xí)生“投毒”大模型的聊天截圖，給公司造成了極大損失。

這起事件的細(xì)節(jié)后續(xù)得到了更多披露。矛頭很快指向了田柯宇。

一位在GitHub上發(fā)聲的知情人士描繪了這場(chǎng)持續(xù)兩個(gè)月的"數(shù)字破壞"："在這段時(shí)間里，他系統(tǒng)性地破壞集群代碼，直接導(dǎo)致近30位同事的工作成果付諸東流，整整一個(gè)季度的心血化為烏有。所有的日志記錄和系統(tǒng)審查都指向一個(gè)不容辯駁的事實(shí)。"

3_副本.jpg

10月21日，界面新聞從知情人士處了解到，字節(jié)跳動(dòng)內(nèi)部已經(jīng)調(diào)查明確此事為田姓實(shí)習(xí)生所為。

事件曝光后，這位北大高材生試圖通過社交媒體自證清白，聲稱真正的破壞者另有其人。

4_副本.jpg

（網(wǎng)傳的田柯宇在社群中的回應(yīng)）

這種"甩鍋"行為很快就被接近字節(jié)跳動(dòng)的人士予以駁斥。一位不愿透露姓名的字節(jié)內(nèi)部人士向澎湃新聞透露了公司的處理邏輯：考慮到田柯宇的在讀博士身份，公司最初選擇了相對(duì)溫和的處理方式，將其辭退并交由校方處理。這也在字節(jié)官方的回應(yīng)中有所體現(xiàn)。

5_副本.jpg

然而，事態(tài)在田柯宇的一系列反應(yīng)中急轉(zhuǎn)直下。他后續(xù)不僅多次公開否認(rèn)指控，聲稱真正的攻擊者是其他實(shí)習(xí)生，甚至報(bào)警稱自己是造謠受害者。這種拒不認(rèn)錯(cuò)、反咬一口的態(tài)度，最終耗盡了字節(jié)的耐心。"他完全沒有意識(shí)到自己的錯(cuò)誤性質(zhì)和嚴(yán)重程度，"據(jù)澎湃新聞采訪到內(nèi)部人士說，"這種行為已經(jīng)觸及公司安全管理的紅線。"最終，字節(jié)跳動(dòng)決定通過法律途徑追責(zé)，以儆效尤，防止類似事件重演。

據(jù)《南方都市報(bào)》11月27日?qǐng)?bào)道，字節(jié)跳動(dòng)起訴前實(shí)習(xí)生田某某篡改代碼攻擊公司內(nèi)部模型訓(xùn)練一案，獲北京市海淀區(qū)人民法院正式受理。字節(jié)跳動(dòng)請(qǐng)求法院判令田某某賠償公司侵權(quán)損失800萬元及合理支出2萬元，并公開賠禮道歉。

這也反證了當(dāng)年字節(jié)極力否認(rèn)的網(wǎng)傳“1000萬”的損失。

但也正是在字節(jié)工作期間，田柯宇寫出了他的這篇含金量極高的獲獎(jiǎng)?wù)撐摹Ｕ撐牡奈逦蛔髡咧校兴奈欢际莵碜杂谧止?jié)，而田柯宇是第一作者。

6_副本.jpg

02 含金量極高的獲獎(jiǎng)?wù)撐?/span>

要理解NeurIPS最佳論文的分量，我們不妨回望2014年的一個(gè)歷史性時(shí)刻。那年《Sequence to Sequence Learning with Neural Networks》都未獲得最佳論文，僅僅進(jìn)入了oral（口頭演講》環(huán)節(jié)。

這篇出自Ilya Sutskever、Oriol Vinyals和Quoc V. Le之手的論文不僅是一項(xiàng)學(xué)術(shù)成就，更像是為人工智能劃出了一條全新的航道。

彼時(shí)還默默無聞的三位作者，如今已是AI領(lǐng)域的標(biāo)志性人物：Sutskever成為了OpenAI的聯(lián)合創(chuàng)始人，在GPT系列的開發(fā)中發(fā)揮核心作用；Vinyals在DeepMind主導(dǎo)了AlphaFold的突破；Le則在Google Brain推動(dòng)了大語言模型的革新。他們的序列到序列學(xué)習(xí)框架，為今天ChatGPT、Claude這樣的自回歸語言模型奠定了理論基石。

而當(dāng)年獲得了最佳論文的李平教授，在回國(guó)后曾任百度首席架構(gòu)師（T11）和百度研究院副院長(zhǎng)。

7_副本.jpg

NeurIPS的錄用門檻極其嚴(yán)苛，獲得這個(gè)獎(jiǎng)的難度有多高呢？

據(jù)數(shù)據(jù)統(tǒng)計(jì)顯示，以2023年為例，大會(huì)收到12,343篇投稿，最終接受率為26.1%。而能夠入選口頭報(bào)告（Oral）的論文更是鳳毛麟角，通常不到1%。

在這樣的背景下，VAR論文不僅入選Oral，還以近乎滿分的評(píng)審分?jǐn)?shù)（7,8,8,8）摘得最佳論文桂冠，其學(xué)術(shù)分量可見一斑。田柯宇北大同一實(shí)驗(yàn)室的同學(xué)對(duì)騰訊科技表示，此論文為第一篇來自中國(guó)大陸的NIPS最佳論文。

這篇名為《視覺自回歸建模：基于下一尺度預(yù)測(cè)的可擴(kuò)展圖像生成》的論文，發(fā)布于2024年5月，它代表了AI系統(tǒng)生成圖像方式的重大突破。

傳統(tǒng)的圖像生成方法就像在一頁紙上從左到右、從上到下依次填寫文字。VAR則采用了一種更接近人類直覺的方法：先勾勒出大致輪廓，再逐步添加細(xì)節(jié)。

具體來說，VAR包含兩個(gè)訓(xùn)練階段：首先通過多尺度VQVAE將圖像編碼為不同分辨率的標(biāo)記映射，然后訓(xùn)練VAR Transformer來預(yù)測(cè)更高分辨率的細(xì)節(jié)。

8_副本.jpg

這篇論文提出的視覺自回歸建模（VAR）方法首次證明了GPT式模型可以在圖像生成方面超越擴(kuò)散模型——這是許多人認(rèn)為不可能的里程碑。在ImageNet 256×256基準(zhǔn)測(cè)試中，VAR將圖像質(zhì)量評(píng)估指標(biāo)FID從18.65提升至1.73，生成速度提高了20倍。

9_副本.jpg

更重要的是，VAR展現(xiàn)出此前只在大型語言模型中觀察到的特征：清晰的冪律縮放和零樣本泛化能力。

用更簡(jiǎn)單的話來說就是，系統(tǒng)隨著規(guī)模增大而可預(yù)測(cè)地變得更好，并且能夠處理它沒有專門訓(xùn)練過的任務(wù)——這是更高級(jí)AI系統(tǒng)的標(biāo)志。這些特性暗示了視覺AI可能與語言AI走向統(tǒng)一的道路。

10_副本.jpg

目前，VAR的代碼已在GitHub上開源，獲得了超過4400顆星標(biāo)。

從其技術(shù)價(jià)值和實(shí)際獲得的榮譽(yù)來看，這篇論文和田柯宇的科研含金量都極高。然而，正是因此，他讓前公司字節(jié)陷入了兩難之境。

03 兩難的字節(jié)

對(duì)字節(jié)跳動(dòng)而言，田柯宇大模型“投毒”事件帶來的打擊遠(yuǎn)比表面看起來要嚴(yán)重。

更具戲劇性的是，當(dāng)VAR論文在NeurIPS載譽(yù)而歸時(shí)，字節(jié)跳動(dòng)卻陷入了進(jìn)退維谷的尷尬境地。

作為一家渴望在AI領(lǐng)域與谷歌、OpenAI等全球巨頭競(jìng)爭(zhēng)的中國(guó)科技公司，字節(jié)跳動(dòng)在人工智能基礎(chǔ)研究上投入了數(shù)以億計(jì)的資金。這項(xiàng)突破性研究確實(shí)誕生于字節(jié)實(shí)驗(yàn)室，但公司卻無法在學(xué)術(shù)社區(qū)大張旗鼓地宣傳這一成就——因?yàn)檎撐牡牡谝蛔髡哒还酒鹪V。

這種矛盾直指當(dāng)前公司管理的某種困境：如何對(duì)有才干的科學(xué)家分配有效的資源，給予個(gè)體更有效的表彰？在愈發(fā)龐大的字節(jié)，這一命題也變得越來越難解。尤其在OpenAI、Anthropic等競(jìng)爭(zhēng)對(duì)手普遍采取更開放研究政策的背景下，大公司很可能因?yàn)榻M織結(jié)構(gòu)的問題在吸引和保留頂尖AI人才的戰(zhàn)爭(zhēng)中落敗。

更令人深思的是，田柯宇能夠如此輕易地破壞訓(xùn)練系統(tǒng)，暴露出字節(jié)在核心技術(shù)安全管控上的致命漏洞。這對(duì)于一家掌握著數(shù)億用戶數(shù)據(jù)、運(yùn)營(yíng)著多個(gè)AI大模型的科技巨頭而言，無疑是一記響亮的警鐘。

標(biāo)簽字節(jié)跳動(dòng)AI

上一篇：OpenAI 宣布未來3周舉行12場(chǎng)新品發(fā)布會(huì)，包含一款新的推理模型

下一篇：國(guó)行蘋果 AI 或確定采用百度文心大模型