Agent操纵手机/电脑屏幕的全面综述

原标题:Agent操纵手机/电脑屏幕的全面综述 文章来源:夕小瑶科技说 内容字数:8428字LLM-Brained GUI Agents: 革命性的交互方式 随着LLM和Agent技术的飞速...
阅读原文

Meta 要给爆款智能眼镜装上显示屏,最快明年发布

Ray-Ban 智能眼镜离 AR 硬件又近了一步。
阅读原文

AgentScope:阿里开源多智能体开发平台实现高效协作与智能决策

AgentScope是阿里巴巴集团开源的多智能体开发平台,帮助开发者轻松构建和部署多智能体应用。AgentScope提供高易用性、高鲁棒性和分布式支持,内置多种模型API...
阅读原文

VisionFM:少样本多疾病诊断的智能眼科AI模型

VisionFM(伏羲慧眼)是多模态多任务的视觉基础模型,专为通用眼科人工智能而设计。通过预训练3.4百万张来自560,457个个体的眼科图像,覆盖广泛的眼科疾病、...
阅读原文

神州数码副总裁李刚:大模型幻灭低谷or波动上升?|甲子引力

精度、算力和应用场景局限,是大模型跨越幻灭低谷的关键。
阅读原文

InvSR

InvSR是创新的图像超分辨率模型,基于扩散模型的逆过程恢复高分辨率图像。用大型预训练扩散模型中丰富的图像先验,改善超分辨率的效果。InvSR的核心在于深度...
阅读原文

DisPose

DisPose是北京大学、中国科学技术大学、清华大学和香港科技大学的研究团队共同推出的,提高人物图像动画质量的控制技术,基于从骨骼姿态和参考图像中提取有效...
阅读原文

MetaMorph

MetaMorph是多模态大模型(MLLM),通过指令微调(Instruction Tuning)实现视觉理解和生成。它提出了一种名为Visual-Predictive Instruction Tuning(VPiT)...
阅读原文

星动纪元端到端原生机器人大模型ERA-42正式亮相,引领具身大模型进入灵巧操作时代

星动纪元ERA-42是国内首个真正意义上的端到端原生机器人大模型,比肩世界领先水平!
阅读原文