AI工具

VE-Bench

VE-Bench 是北京大学的研究团队 MMCAL 最近发布首个专门针对视频编辑质量评估的指标。VE-Bench 的设计目标是与人类感知能力高度一致,更准确地评估视频编辑效...
阅读原文

EDTalk

EDTalk是上海交通大学联合网易研发的音频驱动唇部同步模型,能实现对嘴型、头部姿态和情感表情的独立操控。只需上传一张图片、一段音频和参考视频,就能驱动...
阅读原文

video-analyzer

video-analyzer是开源的视频分析工具,结合Llama的11B视觉模型和OpenAI的Whisper模型来提取视频关键帧、转录音频内容,并生成视频的详细描述。工具支持完全本...
阅读原文

PeterCat

PeterCat是开源的智能答疑机器人助手。PeterCat能帮助开发者和社区维护者更高效地解决技术问题,提升社区支持效率。PeterCat基于自动构建知识库,能与GitHub...
阅读原文

PartGen

PartGen是先进的3D对象生成和重建框架,是牛津大学的视觉几何小组和Meta AI共同推出的。PartGen能识别并生成由有意义部分组成的3D对象,3D对象能基于文本提示...
阅读原文

Vision Parse

Vision Parse是开源的PDF文档转换工具,基于视觉语言模型(Vision LLMs)将PDF文件转换成Markdown格式。Vision Parse能智能识别和提取PDF中的文本和表格,且...
阅读原文

The Language of Motion

The Language of Motion是斯坦福大学李飞飞团队推出的多模态语言模型,能整合人类动作中的言语和非言语语言。模型能处理文本、语音和动作数据,生成对应的目...
阅读原文

Mathtutor on Groq

Mathtutor on Groq 是基于 Groq 架构的AI数学辅导工具,基于语音识别功能,支持用户用语音形式提出数学问题。工具内置强大的数学引擎,能实时计算并用 LaTeX ...
阅读原文

通义浏览器插件

通义浏览器插件是全能AI助手,提供实时语音识别、AI字幕翻译、智能总结等功能。适用于网课、追剧、线上会议等场景,帮助用户记录、翻译和总结信息。用户基于...
阅读原文

MuseGate

MuseGate是杭州霖润智能科技有限公司推出的AI智能化产品,专门服务于服饰企业。MuseGate基于生成式AI技术,能深度定制模特和场景,实现快速的服装搭配和尺寸...
阅读原文

星火标翼

星火标翼是科大讯飞推出的智能投标辅助工具,集标书知识构建、标书编写检查于一体的智能投标辅助应用。依托星火大模型解析投标所需资质、业绩、方案等内容,...
阅读原文

启元重症大模型

启元重症大模型是腾讯和迈瑞医疗联合发布的全球首个重症医疗大模型,专为ICU病房设计,解决重症监护中的痛点问题。模型整体参数量达到万亿级别,经过大量医学...
阅读原文

Poetry2Image

Poetry2Image是一个专为中文古诗词图像生成设计的迭代校正框架,哈尔滨工业大学提出。框架通过自动化的反馈和校正循环,增强了诗歌与图像之间的一致性,有效...
阅读原文

联通元景

联通元景(UniT2IXL)是中国联通AI推出的中文原生文生图模型,完全在国产昇腾AI基础软硬件平台上实现训练和推理。模型采用复合语言编码模块,优化中文长文本...
阅读原文

DiTCtrl

DiTCtrl是基于多模态扩散变换器(MM-DiT)架构的多提示视频生成方法,是香港中文大学和腾讯等机构联合推出的。DiTCtrl能在无需额外训练的情况下,实现多个文...
阅读原文