梦晨 发自 凹非寺 量子位 | 公众号 QbitAI
(相关资料图)
开源羊驼大模型LLaMA上下文 追平GPT-4 ,只需要一个简单改动!
Meta AI这篇刚刚提交的论文表示,LLaMA上下文窗口从2k扩展到32k后 只需要小于1000步的微调 。
与预训练相比, 成本忽略不计 。
扩展上下文窗口,就意味着AI的 “工作记忆” 容量增加,具体来说可以:
支持更多轮对话,减少遗忘现象,如更稳定的角色扮演 输入更多资料完成更复杂的任务,如一次处理更长文档或多篇文档更重要的意义在于,所有基于LLaMA的羊驼大模型 家族 岂不是可以低成本采用此方法, 集体进化 ?
羊驼是目前综合能力最强的开源基础模型,已经衍生出不少完全开源可商用大模型和垂直行业模型。
论文通信作者 田渊栋 也激动地在朋友圈分享这一新进展。
新方法名为 位置插值 (Position Interpolation) ,对使用 RoPE (旋转位置编码) 的大模型都适用。
RoPE早在2021年就由追一科技团队提出,到现在已成为大模型最常见的位置编码方法之一。
但在此架构下直接使用外推法 (Extrapolation) 扩展上下文窗口,会完全破坏自注意力机制。
具体来说,超出预训练上下文长度之外的部分,会使模型困惑度 (perplexity) 飙升至和未经训练的模型相当。
新方法改成线性地缩小位置索引,扩展前后位置索引和相对距离的范围对齐。
用图表现二者的区别更加直观。
实验结果显示,新方法对从7B到65B的LLaMA大模型都有效。
在长序列语言建模 (Long Sequence Language Modeling) 、密钥检索 (Passkey Retrieval) 、长文档摘要 (Long Document Summarization) 中性能都没有明显下降。
除了实验之外,论文附录中也给出了对新方法的详细证明。
上下文窗口曾经是开源大模型与商业大模型之间一个重要差距。
比如OpenAI的最高支持16k,GPT-4支持32k,AnthropicAI的Claude更是高达100k。
与此同时许多开源大模型如LLaMA和Falcon还停留在2k。
现在, Meta AI的新成果直接把这一差距抹平了。
扩展上下文窗口也是近期大模型研究的焦点之一,除了位置插值方法之外,还有很多尝试引起业界关注。
1、 开发者kaiokendev在一篇技术博客中探索了一种将LLaMa上下文窗口扩展到8k的方法。
2、 数据安全公司Soveren机器学习负责人Galina Alperovich在一篇文章中总结了扩展上下文窗口的6个技巧。
3、 来自Mila、IBM等机构的团队还在一篇论文中尝试了在Transformer中完全去掉位置编码的方法。
有需要的小伙伴可以点击下方链接查看~
Meta论文: /abs/
Extending Context is Hard…but not Impossible /context
The Secret Sauce behind 100K context window in LLMs /how-to-speed-up-llms-and-use-100k-context-window-all-tricks-in-one-place-ffd40577b4c
无位置编码论文 /abs/
— 完 —
量子位 QbitAI · 头条号签约
关注我们,第一时间获知前沿科技动态
-
天天快资讯丨羊驼家族大模型集体进化!32k上下文追平GPT-4,田渊栋团队出品梦晨发自凹非寺量子位|公众号QbitAI开源羊驼大模型LLaMA上下文追平GPT-
-
大北农:6月28日融资买入683.61万元,融资融券余额11.69亿元 世界新消息6月28日,大北农(002385)融资买入683 61万元,融资偿还485 84万元,
-
金壮龙会见突尼斯通信技术部部长尼扎尔·本·纳吉签署两部间信息通信技术领域合作备忘录-世界微头条6月27日,工业和信息化部部长金壮龙在天津出席世界经济论坛2023年新领
-
【世界快播报】一图读懂丨工业用地“标准地”出让工作实施意见什么是工业用地“标准地”出让?工业用地“标准地”出让具体工作有哪些
-
OpenAI首席执行官引用《道德经》 呼吁就AI安全问题合作|天天精选【OpenAI首席执行官引用《道德经》呼吁就AI安全问题合作】“随着越来越
-
庐江县:“3+”模式 助力远教学用示范基地“活”学“活”用专稿:近年来,庐江县坚持把远教学用示范基地建设与打造实用人才、践行
-
“地铁知识进校园 文明乘车伴成长”活动在郑东新区众意路小学成功举办 天天聚看点大河网讯暑假即将来临,为切实强化学生暑假出行的安全防范能力和安全文
-
蓝嘉明车驰炫_垃圾mc抄袭迷你1、是的,狗都不玩的垃圾迷你就像丑国一样,拼凑证据。2、尽力说自己是
-
世界头条:2023年6月28日癸二酸二辛酯价格最新行情预测中国报告大厅2023年6月28日癸二酸二辛酯价格最新走势监测显示:湖南锦
-
热讯:亚光科技06月28日被深股通减持215.47万股06月28日,亚光科技被深股通减持万股,最新持股量为万股,占公司A股总
-
世界热点!环山乡开展安全生产大排查大整治行动环山乡开展安全生产大排查大整治行动安全第一预防为主6月26日上午,环
-
当前快看:当茅台冰淇淋遇上《智族GQ》,感受“让爱回甘 让美更醇的”酱香灵感这也是此次茅台冰淇淋联手《智族GQ》的深意——在与当下年轻人的共生共
-
大众排放门首名被告被判处一年零九个月缓刑 施泰德被指涉及作弊德国慕尼黑法院近日做出裁定,由于在2015年的大众汽车排放丑闻中涉及疏
-
范秋霞_关于范秋霞的简介音频解说1、范秋霞,女,博士,山西大学自动化系教师。本文关于范秋霞
-
当前热议!今日炸鸡翅的最简单做法大全视频(炸鸡翅的最简单的做法)大家好,小胜来为大家解答以上问题。炸鸡翅的最简单做法大全视频,炸鸡
-
我是大运火炬手丨王伶俐:将青春汗水挥洒在田间地头_天天热资讯川观新闻记者蒋君芳站点宜宾学院站人物名片王伶俐:崇州市杨柳农民专业
-
地下城宠物金毛球属性(ie网页打不开怎么办)来为大家解答以上问题,地下城宠物金毛球属性,ie网页打不开怎么办很多
-
昌平这个回迁小区房产证办理进展,官方回复→ 每日视点昌平这个回迁小区房产证办理进展,官方回复→,昌平,房产证,回迁房,沙河
-
微速讯:小孩子能不能吃鸡精味精?如果爸妈们也在困惑到底能不能给孩子吃鸡精、味精、酱油等调料,那么不
-
世界今亮点!为期三个月,武汉开展电子计价秤专项整治为期三个月,武汉开展电子计价秤专项整治极目新闻记者刘冬莉实习生程雨
-
一个闯红灯,一个闯黄灯,结果撞上了!_今日观点扬子晚报网6月28日讯(通讯员戎芬记者梅建明)近日,南京江宁交警淳化
-
日媒:日本东京电力公司核污水排放设备面向媒体公开|环球最资讯来源:中国新闻网据日本放送协会(NHK)27日报道,日本政府计划自2023年
-
全球今头条!宁波舟山港TOS系统成功登陆杭州港下沙作业区 迈出由海港向内河港布局关键一步图为下沙作业区。凌中奇摄6月26日8时许,宁波舟山港TOS系统(n-TOS+CTO
-
上海交大科技园携手乐山路33号园区企业亮相 2019 上海工博会2019 中国国际工业博览会于 9 月 17 日至 21 日在国家会展中
-
天天微资讯!香港证监会与香港联交所签订《规管上市事宜的谅解备忘录》第二份补充文件6月28日,香港证监会与香港交易所的全资附属公司香港联合交易所有限公
-
第十四届全国舞蹈展演参演作品名单公布|全球播报人民网北京6月28日电(记者鲁婧)近日,文化和旅游部发布《关于公布第
-
丰田计划召回594140辆雅力士、召回7600辆 Move丰田汽车近日在日本提交召回申请,计划召回旗下“雅力士”、“SIENTA”
-
涿州市金九房地产开发有限公司1、涿州市金九房地产开发有限公司于2016年08月10日成立。2、法定代表人
-
环球滚动:50岁买增额终身寿险是怎样买比较划算?能拿到多少收益?50岁买增额终身寿险想要买得划算,需要注意保费、注意保额、优先配置好
-
热门:“名中医走基层”第三站——走进承德滦平县为大力弘扬中医药文化,促进优质中医医疗资源下沉,6月26日-27日,由省