科普第3页 - 中国AI网

SPAR 智谱团队推出的自我博弈训练框架

182

SPAR是智谱团队推出的自我博弈框架，能增强大型语言模型在遵循指令方面的能力。框架基于内部的生成者和完善者两个角色进行互动，生成者执行指令生成回复，完善者对回复进行分析和改进。SPAR基于树搜索技术精细化和优化回复，排除无关...

193

LowCodeEngine是阿里巴巴开源的低代码开发框架，基于提供拖拽、配置等简单操作，让开发者快速构建复杂的系统页面。框架以强大的定制能力、优雅的开发体验、丰富的API和插件支持而著称，能满足各种复杂的业务场景需求...

379

video-analyzer是开源的视频分析工具，结合Llama的11B视觉模型和OpenAI的Whisper模型来提取视频关键帧、转录音频内容，并生成视频的详细描述。工具支持完全本地运行，无需云服务或API密钥，或用Ope...

240

VE-Bench 是北京大学的研究团队 MMCAL 最近发布首个专门针对视频编辑质量评估的指标。VE-Bench 的设计目标是与人类感知能力高度一致，更准确地评估视频编辑效果。VE-Bench QA 在评估编辑视频时，不仅考...

231

EDTalk是上海交通大学联合网易研发的音频驱动唇部同步模型，能实现对嘴型、头部姿态和情感表情的独立操控。只需上传一张图片、一段音频和参考视频，就能驱动图片中的人物说话，支持自定义情感，如高兴、愤怒、悲伤等。...

195

PeterCat是开源的智能答疑机器人助手。PeterCat能帮助开发者和社区维护者更高效地解决技术问题，提升社区支持效率。PeterCat基于自动构建知识库，能与GitHub的issue、PR和Discussion进行互动...

469

Mathtutor on Groq 是基于 Groq 架构的AI数学辅导工具，基于语音识别功能，支持用户用语音形式提出数学问题。工具内置强大的数学引擎，能实时计算并用 LaTeX 格式渲染出详细的解题过程和答案，极大地提升学...

221

Poetry2Image是一个专为中文古诗词图像生成设计的迭代校正框架，哈尔滨工业大学提出。框架通过自动化的反馈和校正循环，增强了诗歌与图像之间的一致性，有效捕捉诗歌的语义和艺术精髓。解决文本到图像生成模型在处理中文古典诗歌...

187

The Language of Motion是斯坦福大学李飞飞团队推出的多模态语言模型，能整合人类动作中的言语和非言语语言。模型能处理文本、语音和动作数据，生成对应的目标模态，对于创建自然交流的虚拟角色至关重要。...

198

PartGen是先进的3D对象生成和重建框架，是牛津大学的视觉几何小组和Meta AI共同推出的。PartGen能识别并生成由有意义部分组成的3D对象，3D对象能基于文本提示、图像或现有的3D模型生成。PartGen用多视图...