AI项目和框架

Time-MoE

Time-MoE是创新的时间序列基础模型,基于混合专家(Mixture of Experts, MoE)架构,将时间序列预训练模型的参数规模扩展至十亿级别。模型用稀疏激活机制,在...
阅读原文

Whispo

Whispo是AI驱动的语音转录工具,支持用户按住Ctrl键录制语音,在释放键时自动将转录的文本插入到正在用的任何支持文本输入的应用程序中。工具的数据处理完全...
阅读原文

AutoGLM-Web

AutoGLM-Web是模拟用户操作的智能浏览器助手,基于大型语言模型构建,能执行网页访问、信息检索、内容总结等任务。基于简单的文字或语音指令,AutoGLM-Web能...
阅读原文

OmniGen

OmniGen是用于统一图像生成的新扩散模型,能在单一框架内处理多种图像生成任务,如文本到图像的生成、图像编辑、主题驱动生成和视觉条件生成等。OmniGen涉及...
阅读原文

CogAgent

CogAgent是清华大学与智谱AI联合推出的多模态视觉大模型,专注于图形用户界面(GUI)的理解和导航。通过视觉模态对GUI界面进行感知,非传统的文本模态,更符...
阅读原文

OMNE Multiagent

OMNE Multiagent是天桥脑科学研究院(Tianqiao and Chrissy Chen Institute,TCCI)推出的大模型多智能体框架。基于长期记忆(Long Term Memory, LTM)构建,...
阅读原文

DuoAttention

DuoAttention是新型的框架,由MIT韩松团队提出,用在提高大型语言模型(LLMs)在处理长上下文时的推理效率。基于区分“检索头”和“流式头”两种注意力头,优化模...
阅读原文

HuggingChat macOS

HuggingChat macOS是Hugging Face推出的开源聊天应用程序,专为macOS用户设计,基于强大的开源语言模型,将先进的AI对话能力直接带到用户的桌面上。应用支持...
阅读原文

OmniParser

OmniParser是微软研究院推出的屏幕解析工具,将用户界面的屏幕截图转换成结构化数据。工具专门设计用在提高基于大型语言模型(如GPT-4V)的UI代理系统的性能...
阅读原文

Ditto

Ditto是基于Flask的应用程序生成器,用户基于简单的自然语言描述创建多文件的Web应用程序。工具用一个简单的LLM循环和一些辅助工具自动化编码过程,将用户的...
阅读原文

Flux.1 Lite

Flux.1 Lite是Freepik团队推出的轻量级AI模型,目前处于alpha版本。Flux.1 Lite是基于80亿参数的transformer架构,从FLUX.1-dev模型中提取而来。Flux.1 Lite...
阅读原文

Phidata

Phidata是开源的AI智能体框架,帮助开发者构建具有记忆、知识、工具和推理能力的智能代理系统。支持创建能够协同工作的代理团队,提供用户界面实现与代理的交...
阅读原文

Allegro

Allegro是由Rhymes AI推出的先进的文本到视频生成模型,能将简单的文本输入转换成高达720p分辨率、每秒15帧、长度达6秒的高质量视频内容。模型在视频生成领域...
阅读原文

FakeShield

FakeShield是北京大学研究人员推出的多模态大型语言模型框架,能检测和定位图像伪造。框架能评估图像的真实性,生成被篡改区域的掩码,提供基于像素级和图像...
阅读原文

MaskGCT

MaskGCT是趣丸科技与香港中文大学(深圳)合作推出的语音合成大模型,基于掩码生成模型与语音表征解耦编码的技术,实现在声音克隆、跨语种合成、语音控制等任...
阅读原文
1343536373843