SPAR是智谱团队推出的自我博弈框架,能增强大型语言模型在遵循指令方面的能力。框架基于内部的生成者和完善者两个角色进行互动,生成者执行指令生成回复,完善者对回复进行分析和改进。SPAR基于树搜索技术精细化和优化回复,排除无关...
-
-
LowCodeEngine是阿里巴巴开源的低代码开发框架,基于提供拖拽、配置等简单操作,让开发者快速构建复杂的系统页面。框架以强大的定制能力、优雅的开发体验、丰富的API和插件支持而著称,能满足各种复杂的业务场景需求...
-
video-analyzer是开源的视频分析工具,结合Llama的11B视觉模型和OpenAI的Whisper模型来提取视频关键帧、转录音频内容,并生成视频的详细描述。工具支持完全本地运行,无需云服务或API密钥,或用Ope...
-
VE-Bench 是北京大学的研究团队 MMCAL 最近发布首个专门针对视频编辑质量评估的指标。VE-Bench 的设计目标是与人类感知能力高度一致,更准确地评估视频编辑效果。VE-Bench QA 在评估编辑视频时,不仅考...
-
EDTalk是上海交通大学联合网易研发的音频驱动唇部同步模型,能实现对嘴型、头部姿态和情感表情的独立操控。只需上传一张图片、一段音频和参考视频,就能驱动图片中的人物说话,支持自定义情感,如高兴、愤怒、悲伤等。...
-
PeterCat是开源的智能答疑机器人助手。PeterCat能帮助开发者和社区维护者更高效地解决技术问题,提升社区支持效率。PeterCat基于自动构建知识库,能与GitHub的issue、PR和Discussion进行互动...
-
Mathtutor on Groq 是基于 Groq 架构的AI数学辅导工具,基于语音识别功能,支持用户用语音形式提出数学问题。工具内置强大的数学引擎,能实时计算并用 LaTeX 格式渲染出详细的解题过程和答案,极大地提升学...
-
Poetry2Image是一个专为中文古诗词图像生成设计的迭代校正框架,哈尔滨工业大学提出。框架通过自动化的反馈和校正循环,增强了诗歌与图像之间的一致性,有效捕捉诗歌的语义和艺术精髓。解决文本到图像生成模型在处理中文古典诗歌...
-
The Language of Motion是斯坦福大学李飞飞团队推出的多模态语言模型,能整合人类动作中的言语和非言语语言。模型能处理文本、语音和动作数据,生成对应的目标模态,对于创建自然交流的虚拟角色至关重要。...
-
PartGen是先进的3D对象生成和重建框架,是牛津大学的视觉几何小组和Meta AI共同推出的。PartGen能识别并生成由有意义部分组成的3D对象,3D对象能基于文本提示、图像或现有的3D模型生成。PartGen用多视图...










