标签:长度

2行代码,「三体」一次读完!港中文贾佳亚团队联手MIT发布超长文本扩展技术,打破LLM遗忘魔咒

新智元报道编辑:好困 桃子【新智元导读】大模型上下文从此不再受限!港中文贾佳亚团队联手MIT发布了全新超长文本扩展技术LongLoRA,只需2行代码,让LLM看小...
阅读原文

将LLaMA2上下文扩展至100k,MIT、港中文有了LongLoRA方法

机器之心报道机器之心编辑部无需过多计算资源即可扩展大模型上下文长度。一般来说,大模型预训练时文本长度是固定的,如果想要支持更长文本,就需要对模型进...
阅读原文

贾佳亚韩松团队新作:两行代码让大模型上下文窗口倍增 | GitHub热榜

克雷西 发自 凹非寺量子位 | 公众号 QbitAI只要两行代码+11个小时微调,就能把大模型4k的窗口长度提高到32k。规模上,最长可以扩展到10万token,一口气就能读...
阅读原文

大模型长上下文运行的关键问题

上下文长度的增加是 LLM 的一个显著发展趋势。过去一年,几种长上下文语言模型陆续问世,包括 GPT-4(32k上下文)、MosaicML 的 MPT(65k上下文)、Anthropic...
阅读原文

视觉Transformer中ReLU替代softmax,DeepMind新招让成本速降

机器之心报道编辑:PandaDeepmind 出新招,ReLU 尽展优势。Transformer 架构已经在现代机器学习领域得到了广泛的应用。注意力是 transformer 的一大核心组件...
阅读原文

输入文本就能生成音乐,Stability AI发布音乐生成工具Stable Audio

Stability AI 是一家专注于开源 AI 模型的创业公司,其旗下的 Stable Diffusion 是如今最好的图片生成AI之一。9月14日,著名开源平台Stability AI在官网发布...
阅读原文
1234