AI工具 - 第20页 - 中国AI网

Magentic-One 微软推出的多AI智能体协同完成复杂任务系统

249

Magentic-One 是微软推出的通用多智能体系统，解决跨领域的复杂网络和文件任务。系统基于多智能体架构，由Orchestrator智能体领导，协调WebSurfer、FileSurfer、Coder和ComputerT...

187

X-Portrait 2是字节跳动智能创作团队推出的单图视频驱动技术，基于一张静态照片和一段驱动视频生成高质量、电影级视频。X-Portrait 2保留原图身份特征，准确捕捉细微表情和情绪，实现跨风格动作迁移，适用于写实人像...

215

VQAScore是CMU和Meta联合推出的评估方法，基于视觉问答（VQA）模型衡量由文本提示生成的图像质量。VQAScore用计算模型对“Does this figure show {text}?”这一问题回答“是”的概率...

182

AndroidLab是用在训练和系统评估Android自主代理的框架，集成文本和图像模态操作环境，统一行动空间和可重现基准测试。AndroidLab支持大型语言模型和多模态模型，包含138个任务，覆盖九个应用。基于Andro...

175

GTA（a benchmark for General Tool Agents）是上海交通大学和上海AI实验室共同推出的基准测试，评估大型语言模型（LLMs）在真实世界场景中调用工具的能力。GTA基于提供真实的用户问题、真实...

238

OuteTTS是开源的文本到语音（TTS）项目，基于纯语言建模的方法生成语音。OuteTTS项目基于LLaMa架构，用Oute3-350M-DEV基础模型，拥有3.5亿参数。OuteTTS具备音频标记化、CTC强制对齐技术和...

301

Docling是开源的文档解析和转换工具，能高效地将多种格式的文档（包括PDF、DOCX、PPTX、图片和HTML）解析，导出为Markdown或JSON格式。Docling支持高级PDF理解、OCR功能，能与LlamaIn...

242

WebRL是清华大学、智谱AI联合推出的自我进化的在线课程强化学习框架，训练使用开放大型语言模型（LLMs）的高性能网络代理。WebRL动态生成任务、结果监督奖励模型（ORM）评估任务成功与否，及自适应强化学习策略，解决训练...

330

Cerebellum是基于Claude 3.5 Sonnet和Selenium WebDriver构建的浏览器AI智能助手，能理解任务意图、执行网页自动化任务，如数据抓取和网站自动化测试。Cerebellum将网页浏览简化为...

249

GameGen-X是香港科技大学、中国科学技术大学等机构研究人员推出的扩散变换器模型，用在生成和交互控制开放世界游戏视频。模型能模拟游戏引擎功能，如创新角色、动态环境、复杂动作和多样化事件，支持用户用文本指令和键盘控制等多模...