AIGC动态欢迎阅读
内容摘要:
一水 发自 凹非寺量子位 | 公众号 QbitAICVPR正在进行中,中国科研力量再次成为场内外焦点之一。
日前,AI顶会常客选手商汤科技,已经披露了今年成绩单:50篇论文入选,其中还有9篇被录用为Oral、Highlight。
这些成果,既是商汤科研和技术实力的最新证明,也透露着这家知名AI公司对于产业趋势和技术趋势的预判——
论文涉及自动驾驶、机器人等前沿方向。
大规模视觉语言基础模型:InternVL商汤科技、上海AI实验室等联合设计了一个大规模的视觉语言基础模型——InternVL。
首次将大规模视觉编码器扩展到60亿个参数,与LLM进行对齐,在准确性、速度和稳定性之间取得了良好平衡。
论文:https://arxiv.org/abs/2312.14238
为了有效训练大规模视觉语言基础模型,InternVL还引入了一种渐进式图像-文本对齐策略。
该策略最大限度地利用网络规模的噪声图像-文本数据进行对比学习,并将细粒度、高质量的数据用于生成学习。
通过验证,相较于当前最先进的视觉基础模型和多模态大语言模型,InternVL在广泛的通用视觉语言任务上能够取得更领先的结果。
另外,
联系作者
文章来源:量子位
作者微信:QbitAI
作者简介:追踪人工智能新趋势,关注科技行业新突破
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...