• Infinity  字节跳动推出的高分辨率图像生成模型

    Infinity 字节跳动推出的高分辨率图像生成模型

    223

    Infinity是字节跳动推出的基于位级自回归建模的视觉生成模型,能根据语言指令生成高分辨率、逼真的图像。Infinity通过无限词汇量的标记器、分类器和位自纠正机制,显著提升图像生成的细节和质量,超越现有的顶级扩散模型,生...

  • cobalt  开源的流媒体下载工具,支持全平台视频、音频和图片下载

    cobalt 开源的流媒体下载工具,支持全平台视频、音频和图片下载

    549

    cobalt是开源的流媒体下载工具,提供纯净、简洁无广告的体验。cobalt支持全平台视频、音频和图片下载,包括主流视频网站、社交媒体和音乐平台。cobalt提供个性化设置,支持多主题切换。用户能下载高达8K的视频和多种格式...

  • DeepSeek V3  DeepSeek开源的最新版 AI 模型,编程能力超越Claude

    DeepSeek V3 DeepSeek开源的最新版 AI 模型,编程能力超越Claude

    569

    DeepSeek V3是知名私募巨头幻方量化旗下人工智能公司深度求索(DeepSeek)开源的最新版AI模型,在多语言编程能力上的进步显著。在aider多语言编程测评中的表现超越了Claude 3.5 Sonnet V2等竞...

  • VidTok  微软开源的视频分词器,支持连续和离散分词化

    VidTok 微软开源的视频分词器,支持连续和离散分词化

    173

    VidTok(Video Tokenizer)是微软开源的先进的视频分词器,通过高效的算法将视频内容转换成一系列“视频词”。支持连续和离散分词化,具有灵活的压缩率和多样化的隐空间,适用于不同的应用场景。...

  • 3DHM  3D人体动作生成框架,单张图片生成任意视频动作

    3DHM 3D人体动作生成框架,单张图片生成任意视频动作

    171

    3DHM(3D Human Motions)是先进的3D人体动作生成技术,加州大学伯克利分校的研究人员推出。能从单张人物照片生成具有3D控制的动态人体视频,实现从静态图像到动态视频的转变。技术通过学习人体不可见部分的先验知识...

  • Diff-Instruct  从预训练扩散模型中迁移知识的通用框架

    Diff-Instruct 从预训练扩散模型中迁移知识的通用框架

    163

    Diff-Instruct是先进的知识转移方法,用于从预训练的扩散模型中提取知识,指导其他生成模型的训练。它基于一种新的散度度量——积分Kullback-Leibler (IKL 散度,专为扩散模型设计,通过计算沿扩散过程...

  • FastExcel  开源的高性能 Excel 处理工具

    FastExcel 开源的高性能 Excel 处理工具

    189

    FastExcel是基于Java的开源库,提供快速、简洁且能解决大文件内存溢出问题的Excel处理工具。FastExcel兼容EasyExcel,提供性能优化、bug修复,新增如读取指定行数和转换为PDF功能。...

  • DRT-o1  腾讯研究院推出的文学翻译系列AI模型

    DRT-o1 腾讯研究院推出的文学翻译系列AI模型

    237

    DRT-o1是腾讯研究院推出的一系列AI模型,通过长链思考推理(CoT)技术显著提升了文学作品的翻译质量,尤其在处理比喻和隐喻等修辞手法时。模型能更深入地理解文本,保留原文的情感色彩和文化内涵。...

  • FinRobot  开源 AI Agent 平台,解决金融领域应用的综合解决方案

    FinRobot 开源 AI Agent 平台,解决金融领域应用的综合解决方案

    240

    FinRobot是开源的AI代理平台,专注于金融领域的应用。基于大型语言模型(LLMs)来构建能进行复杂分析和决策的金融专业AI代理。平台通过金融思维链(CoT)提示功能,将难题分解成逻辑步骤,增强分析能力。...

  • WiS  淘天联合阿里研究团队推出的多智能体博弈游戏平台

    WiS 淘天联合阿里研究团队推出的多智能体博弈游戏平台

    224

    WiS(Who is Spy)是淘天集团和阿里的技术研究团队推出的创新在线AI竞赛平台,专门设计用在测试和分析基于大型语言模型(LLMs)的多智能体系统(MAS)。WiS模拟“谁是卧底”游戏,参与者分为“卧底”和“平民”,基...

1 2 3 4 5 6 7 8 9 10
返回顶部 暗黑模式