什么是视觉语言模型(Vision-Language Models, VLMs)

视觉语言模型(Vision-Language Models, VLMs)是一种多模态人工智能系统,它结合了图像和文本的处理能力,以执行高级视觉语言任务,如视觉问答(Visual Ques...
阅读原文

Browser Use

Browser Use是专门为大语言模型服务的智能浏览器工具,创新的Python工具库,让AI代理能像人类一样自然地浏览和操作网页。Browser Use支持多标签页管理、视觉...
阅读原文

ChiChat

ChiChat是AI驱动的智能助手平台,提供个人知识库、语音处理和创意图像生成服务。ChiChat集成多个前沿模型,用户能用自然语言与智能系统互动。ChiChat支持o1和...
阅读原文

WiS

WiS(Who is Spy)是淘天集团和阿里的技术研究团队推出的创新在线AI竞赛平台,专门设计用在测试和分析基于大型语言模型(LLMs)的多智能体系统(MAS)。WiS模...
阅读原文

Acedit

Acedit是AI驱动的Chrome浏览器扩展程序,帮助求职者准备面试。通过实时检测面试中的问题并提供AI生成的回答建议,帮助用户提升面试技巧。用户可以上传LinkedI...
阅读原文

突然有很多好消息,最近几周这些 AI 公司融到了钱

年终直播,聊聊2025年AI创业的新方向。
阅读原文

声网刘斌:“Her”真正落地实现离不开RTE能力的支撑|MEET 2025

多模态交互AI Agent应用,离不开RTC能力的支持
阅读原文

什么是光学字符识别(Optical Character Recognition, OCR)

光学字符识别(Optical Character Recognition,OCR)是一种将文本图像转换为机器可读格式的技术。通过自动数据提取,能快速识别扫描文档、相机图像和图像PDF...
阅读原文