科普第11页 - 中国AI网

ColorFlow 清华和腾讯共同推出的图像序列着色模型

216

ColorFlow是清华大学和腾讯ARC实验室共同推出的图像序列着色模型，能精细化地保持图像序列中个体身份的同时进行着色。基于检索增强、上下文学习和超分辨率技术，ColorFlow确保黑白图像序列着色与参考图像颜色一致性，适...

223

Leffa（Learning Flow Fields in Attention）是 Meta AI推出的用在可控人物图像生成框架，基于在注意力机制中引入流场学习，精确控制人物的外观和姿势。Leffa基于正则化损失函数，指导模...

248

Ruyi是图森未来科技有限公司推出的图生视频大模型，专为在消费级显卡上运行设计，支持多分辨率、多时长视频生成，具备首帧、首尾帧控制、运动幅度控制和镜头控制等特性。Ruyi基于DiT架构，由Casual VAE模块和Diffu...

197

Lyra是香港中文大学、SmartMore和香港科技大学推出的高效多模态大型语言模型（MLLM），专注于提升语音、视觉和语言模态的交互能力。Lyra基于开源大型模型、多模态LoRA模块和潜在的多模态正则化器，减少训练成本和数...

194

Large Action Models（LAMs）是微软推出大型行动模型的开发框架，能执行真实世界行动的智能系统，LAMs超越传统LLMs（Large Language Models，大型语言模型）的文本生成能力。LAMs能...

183

LatentLM是微软研究院和清华大学共同推出的多模态生成模型，能统一处理离散数据（如文本）和连续数据（如图像、音频）。模型用变分自编码器（VAE）将连续数据编码为潜在向量，引入下一个词扩散技术自回归生成向量。...

210

BrushEdit是腾讯和北京大学等机构联合推出的先进图像编辑框架，是BrushNet模型的高级迭代版本。框架结合多模态大型语言模型（MLLMs）和双分支图像修复模型，实现基于指令引导的图像编辑和修复，支持用户用自然语言指令...

180

Apollo是Meta和斯坦福大学合作推出的大型多模态模型（LMMs），专注于视频理解。Apollo基于系统研究，揭示视频理解在LMMs中的关键驱动因素，推出“Scaling Consistency”现象，即在较小模型上的设...

190

RDT（Robotics Diffusion Transformer）是清华大学AI研究院TSAIL团队推出的全球最大的双臂机器人操作任务扩散基础模型。RDT具备十亿参数量，能在无需人类操控的情况下，自主完成复杂任务，如调酒...

179

Bocha Semantic Reranker是博查AI推出的语义排序模型，能提升搜索应用和RAG应用中的搜索结果准确性。Bocha Semantic Reranker模型基于文本语义，对初步排序的搜索结果进行二次优化，用评...