科普第23页 - 中国AI网

Devika 开源的AI编程工具，理解和执行复杂的人类指令

265

Devika是开源的AI编程助手，能理解并拆分复杂指令，基于集成AI搜索和网页浏览能力搜集信息，编写代码实现目标。Devika支持多种AI模型，具备高级规划推理能力，能进行上下文关键词提取、多语言代码编写，并提供动态状态追踪...

298

Proactive Agent是清华大学联合面壁智能等团队推出的新一代主动Agent交互范式，具备主动性，能预测用户需求并在没有直接指令的情况下采取行动。Proactive Agent观察环境和用户行为，推断出潜在的任务，...

250

iDP3（Improved 3D Diffusion Policy）是斯坦福大学联合多所高校推出的3D视觉运动策略，能提升人形机器人在多样化环境中的自主操作能力。与传统3D策略不同，iDP3基于自我中心的3D视觉表征，摒弃对...

172

Promptriever 是约翰斯·霍普金斯大学和Samaya AI联合推出的新型检索模型，能像语言模型一样接受自然语言提示，用直观的方式响应用户的搜索需求。Promptriever 基于 MS MARCO 数据集的指令训练...

158

NVLM是NVIDIA推出的前沿多模态大型语言模型（LLMs），在视觉-语言任务上达到与顶尖专有模型（如GPT-4o）和开放访问模型（如Llama 3-V 405B和InternVL 2）相匹敌的性能。NVLM 1.0家族包...

178

LongLLaVA是多模态大型语言模型（MLLM），基于混合架构结合Mamba和Transformer模块，能高效处理大量图像，特别擅长视频理解和高分辨率图像分析。LongLLaVA在单个A100 80GB GPU上能处理近...

184

Devika AI是印度Stition AI团队推出的开源AI软件开发工具，能理解并执行复杂的人类指令，将其分解为步骤，进行研究和信息搜集，最终编写代码以实现目标。Devika AI提供AI结对编程，致力于革新软件开发流程，...

281

Qwen2VL-Flux是多模态图像生成模型，结合Qwen2VL的视觉语言理解和FLUX框架，基于文本提示和图像参考生成高质量的图像。模型支持多种生成模式，包括变体生成、图像到图像转换、智能修复及ControlNet引导生成...

192

InfiMM-WebMath-40B 是字节跳动和中国科学院联合开源的超大规模多模态数据集，旨在提升多模态模型的图文混合推理能力，在数学领域。数据集从 Common Crawl 中提取，经过严格的筛选、清洗和标注，包含 24...

206

ShowUI是新加坡国立大学Show Lab和微软共同推出的视觉-语言-行动模型，能提升图形用户界面（GUI）助手的工作效率。模型基于UI引导的视觉令牌选择减少计算成本，用交错视觉-语言-行动流统一GUI任务中的多样化需求，...