華為盤(pán)古大模型回應(yīng)抄襲質(zhì)疑:堅(jiān)守開(kāi)源合規(guī)與自主創(chuàng)新
關(guān)鍵詞: 盤(pán)古模型 盤(pán)古抄襲質(zhì)疑 華為官方聲明 通義千問(wèn)
近日,華為盤(pán)古大模型深陷輿論風(fēng)波,面臨是否抄襲的嚴(yán)峻質(zhì)疑。7 月 5 日,華為盤(pán)古 Pro MoE 技術(shù)開(kāi)發(fā)團(tuán)隊(duì)發(fā)布官方聲明,對(duì)相關(guān)爭(zhēng)議做出正式回應(yīng)。
6 月 30 日,華為開(kāi)源了盤(pán)古 70 億參數(shù)的稠密模型、盤(pán)古 Pro MoE 720 億參數(shù)的混合專(zhuān)家模型,同時(shí)開(kāi)放基于昇騰 AI 平臺(tái)的模型推理技術(shù)。然而僅隔四天,7 月 4 日,一份發(fā)布在 GitHub 上的技術(shù)分析報(bào)告將華為盤(pán)古大模型推上了風(fēng)口浪尖。該報(bào)告由一位自稱(chēng)為哥斯達(dá)黎加大學(xué)的韓國(guó)學(xué)生發(fā)布,他采用 “LLM - Fingerprint” 技術(shù),對(duì)華為盤(pán)古 Pro MoE 模型與阿里巴巴通義千問(wèn) Qwen - 2.5 14B 模型進(jìn)行深度比對(duì)。結(jié)果顯示,兩者在 “指紋” 上的相似度達(dá)到 0.927,遠(yuǎn)超不同獨(dú)立訓(xùn)練模型間的正常差異范圍。并且,研究者在盤(pán)古開(kāi)源的代碼文件中發(fā)現(xiàn)了明確指向阿里巴巴的版權(quán)聲明 “Copyright 2024 The Qwen team, Alibaba Group”,這一發(fā)現(xiàn)似乎坐實(shí)了兩者之間存在代碼繼承關(guān)系。
面對(duì)質(zhì)疑,華為盤(pán)古團(tuán)隊(duì)迅速回應(yīng)。聲明首先強(qiáng)調(diào),盤(pán)古 Pro MoE 開(kāi)源模型是基于華為自家的昇騰(Ascend)硬件平臺(tái)開(kāi)發(fā)、訓(xùn)練的基礎(chǔ)大模型,并非基于其他廠商模型進(jìn)行增量訓(xùn)練的產(chǎn)物。團(tuán)隊(duì)創(chuàng)新性地提出了分組混合專(zhuān)家模型(MoGE)架構(gòu),這是全球首個(gè)面向昇騰硬件平臺(tái)設(shè)計(jì)的同規(guī)格混合專(zhuān)家模型。該架構(gòu)有效解決了大規(guī)模分布式訓(xùn)練過(guò)程中的負(fù)載均衡難題,顯著提升了整體訓(xùn)練效率。
同時(shí),華為方面也承認(rèn),盤(pán)古 Pro MoE 開(kāi)源模型的部分基礎(chǔ)組件代碼實(shí)現(xiàn),確實(shí)參考了業(yè)界的開(kāi)源實(shí)踐,涉及其他開(kāi)源大模型的部分開(kāi)源代碼。但團(tuán)隊(duì)嚴(yán)格遵循了開(kāi)源許可證的要求,在相關(guān)的開(kāi)源代碼文件中清晰標(biāo)注了版權(quán)聲明。華為認(rèn)為,這是開(kāi)源社區(qū)的通行做法,符合開(kāi)源協(xié)作的精神。
然而,7 月 6 日凌晨,一位自稱(chēng)是盤(pán)古大模型團(tuán)隊(duì)的員工自曝,稱(chēng)存在套殼、續(xù)訓(xùn)、洗水印等現(xiàn)象。該員工表示團(tuán)隊(duì)初期算力有限,存在使用 Qwen 1.5 110B 續(xù)訓(xùn)等情況,并采取了一些手段來(lái) “洗掉” 千問(wèn)的水印。截至目前,華為尚未對(duì)此自曝內(nèi)容發(fā)表聲明。
此次華為盤(pán)古大模型的爭(zhēng)議,反映出人工智能大模型時(shí)代開(kāi)源概念面臨的挑戰(zhàn)。在大模型發(fā)展中,使用開(kāi)源模型架構(gòu)、參考代碼與直接使用他人模型權(quán)重之間的界限模糊,而訓(xùn)練大模型成本高昂,使得類(lèi)似爭(zhēng)議屢見(jiàn)不鮮。但無(wú)論如何,技術(shù)創(chuàng)新和知識(shí)產(chǎn)權(quán)保護(hù)都是行業(yè)發(fā)展的關(guān)鍵,期待華為后續(xù)能進(jìn)一步回應(yīng)相關(guān)問(wèn)題,也希望行業(yè)能在爭(zhēng)議中不斷完善規(guī)范,推動(dòng)人工智能技術(shù)健康發(fā)展
