科普第13页 - 中国AI网

Meta Motivo Meta 推出控制数字智能体动作的人工智能模型

304

Meta Motivo 是 Meta 公司推出的AI模型，能提升元宇宙体验的真实性。Meta Motivo基于控制虚拟人形智能体的全身动作，模拟人类行为，增强用户互动。模型采用无监督强化学习算法，特别是FB-CPR算法，用大...

183

Insight-V是南洋理工大学、腾讯公司和清华大学的研究者们共同推出的多模态模型，能提升多模态大型语言模型在长链视觉推理方面的能力。基于可扩展的数据生成流程生产高质量的推理数据，采用多智能体系统将视觉推理任务分解为推理和总...

198

Phi-4是微软推出的14亿参数小型语言模型，在数学等领域的复杂推理以及传统语言处理方面表现出色。Phi-4用数据质量为核心训练重点，大量融入合成数据，提升模型在STEM问答和数学竞赛问题上的表现。Phi-4引入新的训练范式...

193

SVDQuant是MIT研究团队推出的后训练量化技术，针对扩散模型，将模型的权重和激活值量化至4位，减少内存占用加速推理过程。SVDQuant引入高精度的低秩分支吸收量化过程中的异常值，在保持图像质量的同时，实现在16GB...

273

ChatMCP 是基于模型上下文协议（MCP）的 AI 聊天客户端，支持与各种大型语言模型（LLM）如 OpenAI、Claude 和 OLLama 等进行交互。ChatMCP具备自动化安装 MCP 服务器、SSE 传输支持...

197

CodeArena是在线平台，基于让多个大型语言模型（LLM）同时构建相同的应用程序，实时显示排名结果，比较LLM生成代码的能力。CodeArena平台主要评估和比较不同LLM的代码生成能力，帮助开发者选择适合的LLM，推动...

231

Multimodal Live API 是谷歌推出的低延迟、双向交互的AI接口，支持文本、音频和视频输入，用音频和文本形式输出，能帮助开发者构建具有实时音频和视频流功能的应用程序。Multimodal Live API让与A...

177

SwiftEdit是由VinAI Research团队推出的文本引导的图像编辑工具，基于创新的一步扩散技术，能在0.23秒内实现快速且高质量的图像编辑。工具的核心优势在于一步反演框架和掩码引导编辑技术，让编辑过程迅速，且能保...

191

SynCamMaster是浙江大学、快手科技、清华大学和香港中文大学的研究人员共同合作推出的全球首个多视角视频生成模型，能结合6自由度相机姿势，从任意视点生成开放世界视频。SynCamMaster增强了预训练的文本到视频模型...

249

DiffSensei是北京大学、上海AI实验室及南洋理工大学的研究人员共同推出的漫画生成框架，能生成可控的黑白漫画面板。DiffSensei整合基于扩散的图像生成器和多模态大型语言模型（MLLM），实现对漫画中多角色外观和互...