Meta无限长文本大模型来了:参数仅7B,已开源 高效稳定,超越Transformer

news/2024/9/29 11:28:44/文章来源:中华网

谷歌和Meta相继在无限长上下文建模领域展开角逐。Transformer模型因二次复杂度及对长序列处理的局限性,尽管已有线性注意力和状态空间模型等次二次解决方案,但其预训练效率和下游任务准确性仍不尽人意。谷歌近期推出的Infini-Transformer通过创新方法,使大型语言模型能够处理无限长输入,且无需增加内存与计算需求,引发业界关注。

Meta无限长文本大模型来了:参数仅7B,已开源

紧随其后,Meta携手南加州大学、CMU、UCSD等研发团队,推出了名为MEGALODON的神经架构,同样致力于无限长文本的高效序列建模,上下文长度无任何限制。MEGALODON在MEGA架构基础上,引入了复数指数移动平均(CEMA)、时间步归一化层、归一化注意力机制及具备双特征的预归一化残差配置等技术组件,旨在提升模型能力和稳定性。

Meta无限长文本大模型来了:参数仅7B,已开源 高效稳定,超越Transformer

在与LLAMA2的对比试验中,拥有70亿参数、经过2万亿训练token的MEGALODON展现出超越Transformer的效率优势。其训练损失为1.70,介于LLAMA2-7B(1.75)与13B(1.67)之间。一系列基准测试进一步证实了MEGALODON在不同任务与模式中相对于Transformers的显著改进。

Meta无限长文本大模型来了:参数仅7B,已开源 高效稳定,超越Transformer

MEGALODON的核心改进在于对MEGA架构的优化,利用门控注意力机制与经典指数移动平均法。为增强大规模长上下文预训练的能力与效率,研究者引入了CEMA,将MEGA中的多维阻尼EMA扩展至复数域;并设计了时间步归一化层,将组归一化应用于自回归序列建模,实现沿顺序维度的归一化。此外,通过预归一化与两跳残差配置调整,以及将输入序列分块为固定块,确保了模型训练与推理过程中的线性计算与内存复杂性。

Meta无限长文本大模型来了:参数仅7B,已开源 高效稳定,超越Transformer

在与LLAMA2的直接较量中,MEGALODON-7B在同等数据与计算资源条件下,训练困惑度显著低于最先进的Transformer变体。针对长上下文建模能力的评估涵盖了从2M的多种上下文长度到Scrolls中的长上下文QA任务,充分证明了MEGALODON处理无限长度序列的能力。此外,在LRA、ImageNet、Speech Commands、WikiText-103和PG19等中小型基准测试中,MEGALODON在体量与多模态处理方面展现卓越性能。

Meta无限长文本大模型来了:参数仅7B,已开源 高效稳定,超越Transformer

论文详细介绍了MEGALODON的技术创新,包括对MEGA架构中关键组件的回顾及存在问题的探讨。为解决MEGA面临的表达能力受限、架构差异及无法大规模预训练等问题,研究者创新提出CEMA,将多维阻尼EMA扩展至复数域;引入时间步归一化,通过计算累积均值与方差,将组归一化扩展至自回归情况;定制归一化注意力机制以提升稳定性;并设计具有Two-hop残差的预范数结构,有效应对模型规模扩大带来的预归一化不稳定问题。

Meta无限长文本大模型来了:参数仅7B,已开源 高效稳定,超越Transformer

实验结果显示,MEGALODON在长上下文序列建模的可扩展性与效率上表现出色。在相同训练token下,MEGALODON-7B的负对数似然(NLL)优于LLAMA2-7B,显示出更高的数据效率。在不同上下文长度下的WPS(word/token per second)对比中,MEGALODON-7B在处理长上下文时速度明显快于LLAMA2-7B,印证了其在长上下文预训练中的计算效率优势。

Meta无限长文本大模型来了:参数仅7B,已开源 高效稳定,超越Transformer

在各项基准测试中,MEGALODON均展现出优秀性能,无论是在短上下文任务,还是长上下文任务,以及指令微调、中等规模基准评估(如ImageNet-1K图像分类与PG-19文本生成)等方面,MEGALODON均取得优异成绩,部分甚至超越已使用RLHF进行对齐微调的模型。这些成果充分验证了MEGALODON在无限长上下文建模领域的先进性与广泛应用潜力。

Meta无限长文本大模型来了:参数仅7B,已开源 高效稳定,超越Transformer

Meta无限长文本大模型来了:参数仅7B,已开源 高效稳定,超越Transformer

Meta无限长文本大模型来了:参数仅7B,已开源 高效稳定,超越Transformer

Meta无限长文本大模型来了:参数仅7B,已开源 高效稳定,超越Transformer

Meta无限长文本大模型来了:参数仅7B,已开源 高效稳定,超越Transformer

Meta无限长文本大模型来了:参数仅7B,已开源 高效稳定,超越Transformer

Meta无限长文本大模型来了:参数仅7B,已开源 高效稳定,超越Transformer

Meta无限长文本大模型来了:参数仅7B,已开源 高效稳定,超越Transformer

Meta无限长文本大模型来了:参数仅7B,已开源 高效稳定,超越Transformer

Meta无限长文本大模型来了:参数仅7B,已开源 高效稳定,超越Transformer

Meta无限长文本大模型来了:参数仅7B,已开源 高效稳定,超越Transformer

Meta无限长文本大模型来了:参数仅7B,已开源 高效稳定,超越Transformer

Meta无限长文本大模型来了:参数仅7B,已开源 高效稳定,超越Transformer

Meta无限长文本大模型来了:参数仅7B,已开源 高效稳定,超越Transformer

Meta无限长文本大模型来了:参数仅7B,已开源 高效稳定,超越Transformer

Meta无限长文本大模型来了:参数仅7B,已开源 高效稳定,超越Transformer

责任编辑:张蕾

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rxxp.cn/ajEW/21139.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈邮箱:809451989@qq.com,一经查实,立即删除!

相关文章

《不够善良的我们》:林中有两条路,每一条都难走 双女主的现实纠葛

林依晨、许玮甯主演的台剧《不够善良的我们》口碑爆棚,豆瓣评分高达9.0分。剧情以两女争一男为引子,两位同年同日生的女主角不仅时常撞衫,还共同倾心于同一位男性。然而,该剧并未遵循传统纯爱剧的套路,林依晨饰演的简庆芬并非单纯善良的平凡女主,许玮甯饰演的Rebecca(张…

爱马仕配货有钱人也不干了 高价配货遭质疑,品牌形象受挑战

爱马仕,一个奢侈品界的翘楚,长久以来承载着无数人的向往。然而,其近年来实施的配货制度引发了消费者的广泛质疑。当一只苍蝇拍标价3000元,一个纸巾盒售价高达7000元时,即便是财力雄厚的高净值人群,也开始对这种制度表达不满。配货制度下,消费者在购买心仪商品时,常被要…

欧冠4强出炉!皇马淘汰曼城 枪手难过克星 宿命轮回

欧冠联赛1/4决赛次回合较量已尘埃落定,首回合领先的两支西甲劲旅——巴塞罗那与马德里竞技,双双遭遇滑铁卢。巴塞罗那在诺坎普以2球优势开局,却被巴黎圣日耳曼连灌四球,痛失四强资格。马竞则在威斯特法伦球场以2-4负于多特蒙德,两回合总比分4-5出局。这两支球队在小组赛便…

大连:旅客违规携带24瓶茅台入境,案值约8万

大连周水子机场海关近期在旅检环节查处一起旅客违规携带大量茅台酒入境案件。当值海关关员在监控一架入境航班的旅客行李时,借助先期机检技术,察觉到其中两件行李存在异常情况。据此线索,海关关员在无申报通道成功拦截了携带着这2件行李通关的两位同行旅客。经现场开箱检查,…

2小伙为回本狂炫1斤樱桃撑到吐 樱桃园疯狂挑战纪实

近日,北京。刘先生发视频称自己与朋友去樱桃园时,有朋友吃樱桃吃到吐。刘先生表示,当时一共去了4个人,有两个都吐了,差不多吃了一斤多,自己当时也想吐。朋友身体没有什么问题,喝了两瓶水就没啥事了。责任编辑:张蕾点击查看全文(剩余0%)

王艺迪1比4张本美和 爆冷出局,奥运梦碎

2024年4月18日,澳门国际乒联男子及女子世界杯进入第二阶段,林高远与王艺迪分别在男单、女单1/8决赛中展开激战。男单赛场,林高远对决欧洲冠军达科约奇克。林高远此前已展现出极佳竞技状态,横扫庄智渊。此次较量,他迅速掌握主动权,以11-7、11-8连胜两局。尽管第三局遭遇达…

“谷雨五不吃,吃了病易沾”:谨防湿邪,顺时养生

谷雨,作为公历2024年4月19日春季最后一个节气,其名称源于“雨生百谷”之说。此时春生之气达到鼎盛,植物生长进入新阶段:弯曲的芽儿已悉数破土而出,娇嫩的叶儿开始崭露头角。这意味着草木“卖萌”的时期接近尾声,接踵而至的将是立夏。谷雨时节虽标志着春之将逝,夏之将近,…

男班主任多次威胁殴打猥亵男学生被判刑 师德沦丧,重典治乱

4月15日,山西省长治市中级人民法院发布了一组保护妇女儿童权益的典型案例,其中一起中学男班主任通过暴力胁迫方式多次猥亵15名男学生的案件尤为引人关注。被告人孙某某身为某中学教师兼班主任,假借检查学生身体卫生之名,将15名男学生带至宿舍、办公室、学校广播室等处。他以…

网红撞脸命案逃犯:真的不是我——主播回应画像相似质疑

4月15日,内蒙古锡林浩特市公安局发布悬赏通告,针对2006年的一起故意杀人案,公开征集破案线索并承诺对提供关键线索者给予20万元奖励。通告中包含两名20岁左右、姓名未知的犯罪嫌疑人的模拟画像。网友在浏览通告时发现,其中一名嫌疑人的画像与一位拥有逾500万粉丝的网络主播…

网友实拍广州白昼如夜 强飑线袭粤,雷雨大作

强飑线自西向东逼近,引发广州市越秀区、天河区自西向东出现强烈雷雨天气。此番降雨过程伴随着约30毫米的短时强降水、8-11级的短时大风以及剧烈雷电现象。18日早上8时31分起,越秀区、天河区相继发布雷雨大风橙色预警及暴雨黄色预警信号,且根据天气状况,预警信号后续有升级可…

以色列反击伊朗有四种报复手段 如何抉择?

以色列是否会报复伊朗?伊朗袭击事件发生后,其外交部长透露,伊朗在行动前已向包括美国在内的地区邻国提前72小时发出通知,且美国通过土耳其向伊朗传达了行动需“在一定限度内”的要求。这一情况表明,周边国家及美国对伊朗的行动有所了解且默认其进行。伊朗在袭击后亦明确表…

黎真主党武装袭击以军目标致18伤 再曝成员丧生

当地时间4月14日,黎巴嫩真主党宣布又有一名成员死亡。根据黎当地媒体的统计,自2023年10月8日黎以临时边界冲突爆发以来,黎真主党已有275名成员死亡。黎巴嫩真主党武装17日表示,当天使用制导武器和攻击性无人机,袭击了位于以色列北部阿拉伯阿拉姆谢的以色列军事侦察设备公司…

华为Pura 70开售 顶配售价过万 旗舰新贵引瞩目

华为P系列已正式更名为华为Pura系列,其首款产品将推出四个型号:Pura 70、Pura 70 Pro、Pura 70 Pro+、Pura 70 Ultra。在外观设计上,除Pura 70标准版采用直屏设计外,其余三款均采用微曲面设计,赋予边缘更为圆润舒适的握持感。标准版屏幕尺寸为6.58英寸,而Pro、Pro+与Ultr…

金价大涨背后将是通胀时代吗 五大因素深度剖析

近期,金价持续攀升,引发关注。此现象背后,存在五大关键因素。其一,局势动荡。在混乱时期,黄金作为全球公认的交易媒介,其价值稳定性凸显。当货币因局势不稳而面临贬值风险时,人们倾向于抢购黄金以保值,从而推高金价。其二,金融危机。金融体系遭遇重大冲击,特别是广泛…

波士顿动力推出电动人形机器人 液压版退役,开启电气新时代

近十年来,Atlas机器人以其创新设计与卓越性能,激发了人们的想象力,启迪了新一代机器人专家,并在该领域攻克了众多技术难关。如今,液压版Atlas即将退居二线,波士顿动力公司发布了一段约3分半钟的告别视频,以此纪念这款人形机器人所取得的瞩目成就。视频中,Atlas完成了最…

阿斯麦回应美欲限制其对华维修服务 CEO坚称无理由断供

美国和荷兰政府正就限制光刻机企业阿斯麦向中国客户提供的设备服务展开谈判,旨在增加中国自主制造先进芯片的难度。阿斯麦CEO彼得温宁克于17日表示,目前公司并无理由不为中国已购买设备的客户提供服务。路透社指出,美荷两国政府正就限制阿斯麦对华提供在现行销售禁令前购入的…

伊朗总统在阅兵式上喊话以色列 强震级回击预警

以色列战时内阁计划于4月14日下午15时30分(北京时间当晚20时30分)召开会议,讨论对伊朗的回击策略。在此之前,以色列安全内阁已赋予战时内阁紧急决策权,允许由内塔尼亚胡、加兰特和甘茨组成的三人小组,在应对伊朗军事打击时无需经过安全内阁的额外批准,从而简化决策过程。…

英特尔CEO基辛格:计算技术正在经历根本性变革,迈向“AI无处不在”时代

4月18日,第十届联想创新科技大会Tech World于上海举办。英特尔公司首席执行官Pat Gelsinger出席活动,强调了与联想在人工智能领域的紧密合作,并指出当前行业正处于这一关键领域的高度关注期。Pat Gelsinger阐述了计算技术正经历的根本性变革,其影响深度渗透至全球经济与人类…

出纳多发4.7万工资追回无果被判赔2000 二审法院最终维持原判

上海市宝山区人民法院最近审结了一起劳动合同纠纷案。张女士在2021年12月入职某物业公司,不久便出任出纳,负责工资发放。然而,在她离职后,物业公司察觉到由于张女士操作失误,同年12月,公司向17名项目人员误发了两笔11月工资,总计重复发放金额达4.7万余元。由于这些员工所…

德媒:这八个行业,中国形成全球竞争力 创新驱动未来版图

中国在全球经济战略上的雄心日益凸显,尤其在多个行业展现出超越西方的竞争力或巨大潜力。德国《经济周刊》近期发表文章《中国的全球经济战略:你的行业面临的危险有多大》,对中国八大行业进行了深度剖析。曾经,中国积极引入外资企业,旨在借鉴其先进经验和技术。如今,中国…