标签:词表
AI赚钱副业~AI生成影视解说,半个月涨粉变现3.5W+!
这两年大家都在感叹生活不易,然而我想说的是,机会还是有的,但问题不在于有没有,而在于你是否能够认准机会,然后抓住它。 接触过很多咨询项目的人,发现...
LLM实践系列-详谈Tokenizer训练细节
今天给大家带来知乎@真中合欢的一篇文章,《LLM实践--Tokenizer训练》。 知乎:https://zhuanlan.zhihu.com/p/739078635 经过了数据收集、筛选、去重,马上就...
NeurIPS 2024 | 大模型的词表大小,同样适用于Scaling Law
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
GPT-4o不会数r,被外国小哥原地逼疯! 谷歌论文揭秘Transformer「数不到n」
新智元报道编辑:Aeneas 好困 【新智元导读】提示工程师Riley Goodside小哥,依然在用「Strawberry里有几个r」折磨大模型们,GPT-4o在无限次PUA后,已经被原...
LLama+Mistral+…+Yi=? 免训练异构大模型集成学习框架DeePEn来了
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
AI读论文新神器:多栏密集文字、中英图文混排文档都能读的多模态大模型Fox|旷视
Fox团队 投稿量子位 | 公众号 QbitAI虽然多模态大模型都能挑西瓜了,但理解复杂文档方面还是差点意思。 面对文字密集、多栏混排等文档时往往力不从心,区域级...
单模型斩获「蛋白质突变预测」榜一!西湖大学提出基于结构词表方法 | ICLR 2024 Spotlight
新智元报道编辑:LRS 【新智元导读】Saprot在proteingym蛋白质突变预测任务公开基准榜(由牛津大学计算机与哈佛医学院设立)排名第一。相比,其他排名靠前的...
4000万蛋白结构训练,西湖大学开发基于结构词表的蛋白质通用大模型,已开源
将ScienceAI设为星标 第一时间掌握 新鲜的AI for Science资讯编辑 |ScienceAI 蛋白质结构相比于序列往往被认为更加具有信息量,因为其直接决定了蛋白质的功能...
年轻人的第一个多模态大模型:1080Ti轻松运行,已开源在线可玩
Vary-toy团队 投稿量子位 | 公众号 QbitAI一款名为Vary-toy的“年轻人的第一个多模态大模型”来了! 模型大小不到2B,消费级显卡可训练,GTX1080ti 8G的老显卡...
OCR终结了?旷视提出支持文档级OCR的多模态大模型,支持中英文,已开源!
国科大&旷视团队 投稿量子位 | 公众号 QbitAI想将一份文档图片转换成Markdown格式? 以往这一任务需要文本识别、布局检测和排序、公式表格处理、文本清洗...
词表的选择如何影响语言模型训练?这可能是目前见过最好的词表选择研究
机器之心报道编辑:赵阳本文初步探讨了不同类型的词表对语言模型训练所产生的影响,研究者使用了 12 个小型的语言模型及 4 个中型的语言模型作为实验对象,并...
中文LLaMA-2刷榜,开源可商用!千元预算,训练半天,效果媲美主流大模型
新智元报道编辑:好困 桃子【新智元导读】最强中文版LLaMA-2来了!15小时训练,仅需数千元算力,性能碾压同级中文汉化模型,开源可商用。LLaMA-2相较于LLaMA-...
15小时、几千元训完中文版LLaMA2!低成本方案全面开源,包含代码权重,支持商用
明敏 发自 凹非寺量子位 公众号 | QbitAI训练大模型,几千块就能实现了!现在,15小时、几千块钱、85亿 token数据,即可训出中文LLaMA2。综合性能达到开源社...
千元预算半天训练,效果媲美主流大模型,开源可商用中文LLaMA-2
机器之心发布机器之心编辑部LLaMA-2 相较于 LLaMA-1,引入了更多且高质量的语料,实现了显著的性能提升,全面允许商用,进一步激发了开源社区的繁荣,拓展了...