
传统的大谈话模子训诫需要依赖"皑皑数据"——那些经过仔细筛选、相宜法度语法且逻辑严实的文本。但淌若这种严格的数据过滤开云体育,并不像咱们联想中那般伏击呢?
这就像教孩子学谈话:传统不雅点以为他们应该只听语法完好意思的法度发音。但实际情况是,孩童恰正是在战役俚语、语法伪善和配景杂音的历程中,也曾大略掌抓谈话才气。
来自北大的盘问东说念主员通过在训诫数据中刻意添加立地乱码进行考证。他们试图测试模子在性能受损前能承受些许"坏数据"。
实验扫尾标明,即便濒临高达 20% 的"垃圾数据",训诫也曾不错普通进行,且 Next-token Prediction ( NTP ) loss 受到的影响不及 1%!他们不仅揭示了噪声与模子性能的复杂联系,还提倡了一种创新的"局部梯度匹配"顺次,让模子在噪声环境中也曾保持强劲进展。

是什么:立地杂音会有什么影响?
盘问者摆布 OpenWebText 数据集,训诫了多个 GPT-2 疏导架构和参数目的谈话模子。他们当先生成了一串范围在 0 到 50256(GPT-2 tokenizer 的大小)的整数,其中每个数齐恪守 0 到 50256 的均匀分歧。这么是为了模拟由于解码伪善或网页崩溃导致的立地乱码经过 tokenizer 之后的扫尾。之后,盘问团队向 OpenWebText 中注入占比 1%-20% 的立地噪声,普通进行 Next-token Prediction 的预训诫。

实验扫尾揭示了一个反直观泄气:尽管 NTP loss 受到杂音的影响有些微普及,可是增多幅度远小于杂音占比。即使 20% 的数据被浑浊,模子的下一个词预测赔本仅高潮约 1%。

更令东说念主惊诧的是,在 arXiv 和 Wikipedia 语料测试中,含噪模子甚而展现出更低的 NTP loss。

这些反常泄气的出现激励了盘问团队的想考。他们想要知说念这种泄气出现的背后原因。
为什么:表面角度分析立地杂音
解任之前的表面责任,盘问团队把 NTP 历程建模成在 ( 给定前缀 , 下一 token ) 的颐养概率分歧上的分类任务。用 P^c 默示干净分歧,P^n 默示杂音分歧,作家指出,咱们信得过柔和的不是模子在杂音 P^n 上的赔本,而是在杂音分歧上训诫出来的模子 h 与最优模子 h* 在干净分歧 P^c 上的 NTP loss 差距。
为了给出讲明,盘问团队当先谨慎到,在立地乱码中找到一段特趣味趣味文本的概率极低。用数学谈话来描摹,这意味着干净分歧 P^c 和杂音分歧 P^n 的守旧集(support set)的错杂不错以为是空集。

基于这条假定,盘问团队到手讲明,当杂音占比 α 填塞小时,P^n 的存在不改换 NTP loss 的全局最小值。哪怕 α 填塞大,杂音对赔本函数带来的影响也远小于其占比。

由于 Assumption 1 并不单在立地杂音时缔造,因此论断不错履行到其他情况。最告成的场景等于多谈话模子的训诫。昭着,在一种谈话(英语)看来,另一种谈话(汉语)就是立地乱码,他们之间的 token 彼此是不重合的,两者对应的分歧当然莫得错杂,也就自负了 Assumption 1。因此,Proposition 1 标明,在多谈话数据联结进行预训诫,单个谈话的性能不会受到太大的影响。这就解释了多谈话模子的到手。此外,Proposition 1 还不错解释为什么在充满配景杂音的数据集上训诫的音频模子不错到手。
为了进一步历练上述表面,盘问团队还立地生成了先验分歧遵循高斯分歧的立地杂音。由于高斯分歧有律例可循,这种杂音对应的 NTP loss 更低。按照 Proposition 1 的论断,更低 NTP loss 的杂音 P^n 对模子性能的影响更小。实验扫尾考证了这一预言,也就讲明了 Proposition 1 的正确性。

奈何作念:怎么弥补立地杂音的影响
尽管预训诫赔本变化细小,下流任务却暴涌现隐患。实验夸耀,在高斯杂音上训诫的模子,尽管其比较立地杂音对应模子的 NTP loss 更低,但在文分内类下流任务中的准确率却下落高达 1.5%。这种"赔本 - 性能解耦"泄气标明,预训诫谈判 NTP loss 无法全面响应模子的本色才气。盘问者指出,噪声会污蔑特征空间的梯度分歧,导致微调时模子对细小扰动过于敏锐。
针对这一挑战,团队提倡了一种即插即用的管理有推敲——局部梯度匹配赔本(LGM)。具体来说,由于不才游任务应用大模子时险些不会重新预训诫,盘问团队在黑盒模子的假定下提倡了 LGM 这一微调顺次。其无需访谒模子参数,而是通过向特征添加高斯噪声并拘谨原始 / 扰动特征的梯度各异,告成增强分类头的抗噪才气。其中枢想想在于:迫使模子在特征扰动下保持决策一致性,从而弥合噪声导致的特征偏移。对于黑盒模子索要的特征 t,当先添加一定进程高斯扰动获得 hat{t},然后将分类头对于 t 和 hat{t} 的梯度差算作赔本函数


实验部分,团队在 8 个当然谈话相识和 14 个视觉分类数据集上考证了模子性能。
对于受到杂音影响的模子,LGM 不错权贵增强性能。

出乎料到的是,当把 LGM 用在干净模子(如 Llama-3、ViT-L)上时,下流任务准确率仍可普及 1%-3%。


为了解释 LGM 的到手,盘问团队从 Sharpness-Aware Minimization 的角度,讲明了 LGM 损成仇赔本函数的光滑进程、对输入的敏锐进程有抽象联系:

启示与预测:数据清洗的新想考
这项盘问为大规模预训诫提供了全新视角:
后果翻新:限制保留立地噪声可镌汰数据清洗老本,尤其对资源有限的团队趣味趣味环节
表面推广:表面框架可用于解释多谈话模子的到手,还可用于其他模态
数据增强:可控噪声注入或成新式正则化时间,普及模子泛化才气
固然,盘问也存在局限:实验仅基于 GPT-2 规模模子,超大规模模子(如 GPT-4)的噪声耐受性仍需考证。团队规画进一步探索噪声类型与模子容量的动态联系,以及 LGM 在其他模态中的应用。
论文地址 :
https://arxiv.org/abs/2502.06604
— 完 —
学术投稿请于责任日发邮件到:
ai@qbitai.com
标题注明【投稿】,告诉咱们:
你是谁,从哪来,投稿内容
附上论文 / 名堂主页勾搭,以及有关模式哦
咱们会(尽量)实时修起你

一键关注 � � 点亮星标
科技前沿进展逐日见
一键三连「点赞」「转发」「戒备心」
接待在挑剔区留住你的方针!开云体育