cobalt

cobalt是开源的流媒体下载工具,提供纯净、简洁无广告的体验。cobalt支持全平台视频、音频和图片下载,包括主流视频网站、社交媒体和音乐平台。cobalt提供个...
阅读原文

CogAgent-9B

CogAgent-9B是基于 GLM-4V-9B 训练的专用Agent任务模型,仅依赖屏幕截图作为输入,无需HTML等文本表征。CogAgent-9B支持高分辨率图像处理,具备双语(中英文...
阅读原文

AGUVIS

AGUVIS是香港大学、Salesforce 联合推出的统一的纯视觉框架,专为自主GUI智能体设计,能在各种平台(如网页、桌面、移动设备)上操作。AGUVIS基于图像观察和...
阅读原文

Diff-Instruct

Diff-Instruct是先进的知识转移方法,用于从预训练的扩散模型中提取知识,指导其他生成模型的训练。它基于一种新的散度度量——积分Kullback-Leibler (IKL) 散...
阅读原文

VidTok

VidTok(Video Tokenizer)是微软开源的先进的视频分词器,通过高效的算法将视频内容转换成一系列“视频词”。支持连续和离散分词化,具有灵活的压缩率和多样化...
阅读原文

2024年大模型融资全景:最高800亿,独角兽洗牌,地方国资猛扑

大模型热钱汹涌:全年卷走超4千亿融资。【附完整名单】
阅读原文

套壳AI公司,骗了800名员工和200只猫

我们“解剖”了2024年最具迷惑性的商业骗局,将其制作成一份“职场防诈指南”,送给可能要在2025年求职的你。
阅读原文

装上透明屏幕的书架,凭什么能卖 43 万?

它的技术和我们的钱包,都没准备好。
阅读原文

中国信通院联合淘天集团发布全球首个中文安全领域事实性基准评测集,仅三个大模型达及格线

Chinese SafetyQA是全球第一个针对中文安全领域的系统性评估模型安全事实性知识的高质量评测集。
阅读原文

引入长思维链!微信基于阿里千问大模型搞出个翻译版o1

DRT-o1 将长 CoT 的成功引入神经机器翻译。
阅读原文