Hugging Face
2026-04-28
Gemma-4-31B-it 是一款由 Google DeepMind 开发的多模态大型语言模型,定位为通用大模型。该模型具备高达 31B 的参数量和 256K 的上下文长度,支持文本、图像等多种输入和文本输出。其核心技术包括 Dense 和 MoE 架构,并针对移动设备进行了优化。在性能上,Gemma-4-31B-it 在多个基准测试中表现出色,尤其在代码生成和推理任务上具有显著优势。模型开源协议为 Apache 2.0,适用于从手机到服务器的多种部署环境。
Hugging Face
2026-04-24
Qwen3.6-35B-A3B是一款专注于代码生成的LLM,具有35B参数和10倍MoE结构,支持长达1,010,000个token的上下文。其核心能力在于Agentic Coding和Thinking Preservation,通过优化前端工作流程和推理上下文,提升开发效率。在性能上,模型在代码生成任务中表现出色,具有较好的稳定性和实用性。开源协议为Apache-2.0,与Hugging Face Transformers兼容。
Hugging Face
2026-04-22
OpenAI Privacy Filter是一款专注于个人身份信息(PII)检测和屏蔽的token-classification模型,适用于高吞吐量数据清洗工作流程。该模型具有小型化、可微调、长上下文处理和运行时控制等特点,适用于需要快速、上下文感知且可调整的模型场景。它基于GPT-oss架构,具有1.5B参数,支持在浏览器或笔记本电脑上运行。该模型在性能和效率方面表现出色,适用于数据安全和隐私保护领域。
Hugging Face
2026-04-24
Qwen/Qwen3.6-27B是一款专注于代码生成的LLM,具有27B参数和64层结构。它具备前端工作流和仓库级推理的能力,上下文长度可扩展至1,010,000 tokens。该模型在Agentic Coding和Thinking Preservation方面有显著提升,适合开发者和研究人员使用。性能方面,具体基准测试结果未提供,但模型在代码生成和推理方面有优势。开源协议为Apache-2.0,与Hugging Face Transformers兼容。
Hugging Face
2026-04-27
DeepSeek-V4-Flash是一款面向高效百万token上下文理解的混合专家(MoE)语言模型。该模型具有284B参数,支持一百万token的上下文长度,采用混合注意力机制,结合压缩稀疏注意力(CSA)和重度压缩注意力(HCA)以提升长上下文效率。性能方面,模型在权威基准测试中表现优异,具有代码生成、数学推理、多语言能力等优势。开源协议为MIT,硬件需求较高,推理效率良好,与流行推理框架兼容。
Hugging Face
2026-04-22
🔥 unsloth/Qwen3.6-27B-GGUF 是一款基于 Qwen3.6-27B 的开源模型,专注于图像到文本的转换。该模型具有27B参数,上下文长度可达200K,采用GGUF技术进行量化,旨在提高推理效率。它在代码生成、数学推理等方面表现出色,适用于需要多模态交互的场景。模型遵循Apache-2.0开源协议,支持在Unsloth Studio中进行运行和微调。
Hugging Face
2026-04-29
MiMo-V2.5是一款定位在多模态模型领域的强大模型,具备处理文本、图像、视频和音频的能力。其核心技术包括混合注意力架构、原生多模态编码器以及多令牌预测。在性能方面,该模型在多模态感知、长上下文推理和代理工作流程方面表现出色。MiMo-V2.5适用于需要多模态理解和长上下文推理的场景,如视频理解、音频处理等。其开源协议为MIT,适合在多种硬件和推理框架上使用。
Hugging Face
2026-05-02
NVIDIA Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16是一款多模态大型语言模型,定位为通用大模型,具备视频、音频、图像和文本理解能力。该模型采用NVIDIA开发的Nemotron架构,结合了多种技术创新,如视频+语音理解、GUI、OCR和语音转录功能。性能上,模型在多个基准测试中表现出色,适用于企业级问答、摘要、转录和文档智能工作流程。主要应用场景包括客户服务、媒体娱乐、文档智能和GUI自动化等。
Hugging Face
2026-04-27
DeepSeek-V4-Pro是一款通用大模型,具有1.6T参数,支持一百万token的上下文长度。其核心技术为混合注意力机制,结合了压缩稀疏注意力和高度压缩注意力,显著提高了长上下文处理效率。性能方面,模型在MMLU、GPQA、IFEval等基准测试中表现出色。主要应用场景包括文本生成、对话系统等,具有开源协议、硬件需求适中、推理效率较高的特点。
Hugging Face
2026-05-04
Mistral Medium 3.5 是一个通用大模型,具有128B参数量和256k的上下文长度。它支持指令遵循、推理和编码,具有多模态输入和输出能力。该模型在推理和编码任务上表现出色,支持多种语言,并具有强大的系统提示和代理能力。它在MMLU、GPQA、IFEval等基准测试中表现出色,适用于需要复杂推理和代码生成的场景。该模型开源,适用于商业和非商业用途,具有较好的硬件兼容性和推理效率。
Hugging Face
2026-04-23
talkie-1930-13b-it是一款基于talkie-1930-13b-base的指令微调语言模型,专注于1931年之前的英语文本。该模型具有13B参数,上下文长度未指定。它通过从1931年之前的参考作品中提取的指令-响应对进行微调,并使用强化学习技术提升指令遵循能力。模型在LLM生态中定位为特定领域微调模型,具有独特的时代背景和语言风格。在性能上,具体基准测试结果未提供,但模型在历史文献和复古风格文本处理方面具有潜在优势。开源协议为Apache-2.0,适用于对历史语言风格有特定需求的场景。
Hugging Face
2026-04-27
z-lab/Qwen3.6-27B-DFlash是一款定位在通用大模型领域的LLM,具有27B参数和3.6B的上下文长度。其核心技术包括DFlash和speculative-decoding,旨在提高推理效率。在性能上,该模型在多个基准测试中表现出色,具有高效的开源协议和良好的硬件兼容性,适用于需要高性能和高效推理的场景。
Hugging Face
2026-05-03
Laguna-XS.2是一款定位在通用大模型领域的33B参数Mixture-of-Experts模型,专注于代码生成和长周期任务。其核心技术包括混合SWA和全局注意力布局、KV缓存FP8量化、本地推理支持等。在性能上,Laguna-XS.2在基准测试中表现出色,具有强大的推理效率和本地运行能力。主要应用场景包括代码生成、数学推理等,适合对性能和效率有较高要求的场景。
Hugging Face
2026-04-27
SeeSee21/Z-Anime是一款基于Z-Image Base架构的动漫风格图像生成模型,属于特定领域微调模型。该模型采用S3-DiT架构,具有丰富的动漫美学风格和强大的风格多样性。它在HuggingFace平台上的下载量和点赞数表明其受到社区的认可。模型在性能上表现出色,支持自然语言提示,适用于动漫风格的图像生成。其主要应用场景包括动漫艺术创作、游戏设计等。该模型开源,支持BF16、FP8等高效计算格式,对硬件要求较高,适合在具有强大计算能力的设备上运行。
Hugging Face
2026-05-03
Ling-2.6-flash是一款专注于推理效率、token效率和代理性能的指令模型,具有104B总参数和7.4B活跃参数。该模型采用混合线性架构,在4× H20设置上达到340 tokens/s的推理速度。在Artificial Analysis评估套件中,使用仅15M tokens即可实现与更大参数模型相当的性能。Ling-2.6-flash在BFCL-V4、TAU2-bench、SWE-bench等基准测试中表现出色,适用于代理场景,如工具使用、多步规划和任务执行。
Hugging Face
2026-04-28
NVIDIA Nemotron 3 Nano Omni是一款多模态大型语言模型,定位为通用大模型,具有强大的视频、音频、图像和文本理解能力。该模型基于NVIDIA Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16模型,通过集成视频+语音理解、GUI、OCR和语音转录功能,支持企业级Q&A、摘要、转录和文档智能工作流程。模型在性能上表现出色,尤其在多模态内容处理方面具有显著优势。其开源协议为NVIDIA Open Model Agreement,适用于商业使用,对硬件要求较高,推理效率较高,与vLLM、TGI等流行推理框架兼容性良好。
Hugging Face
2026-04-27
SenseNova-U1-8B-MoT是一款多模态模型,定位为通用大模型,具有强大的跨模态理解和生成能力。其核心技术为NEO-Unify架构,支持多模态数据直接处理,上下文长度大,参数量达到8B。在MMLU、GPQA等基准测试中表现优异。适用于图像编辑、文本到图像、图像到文本等多种场景,具有开源Apache-2.0协议,对硬件要求较高,推理效率较高。
Hugging Face
2026-05-04
Granite-4.1-8B 是一款由 IBM 开发的 8B 参数长上下文指令模型,属于通用大模型。该模型基于开源指令数据集和内部合成数据集进行微调,具有监督微调和强化学习对齐等后训练流程,增强了工具调用、指令遵循和聊天能力。模型在多个语言上支持,具有文本摘要、文本分类、问答、代码相关任务等多种能力。在性能上,该模型在多个基准测试中表现出色,具有开源协议、硬件需求合理、推理效率高等实用特性。
Hugging Face
2026-05-04
SulphurAI/Sulphur-2-base是一款基于LTX 2.3的文本到视频生成模型,定位为多模态模型。该模型具有prompt enhancer功能,支持t2v和i2v格式,并具备与其他ltx 2.3格式兼容的特点。模型在性能上具有创新性,但未提供具体的基准测试结果。其开源协议、硬件需求和推理效率等信息未明确,但与流行推理框架的兼容性可能是一个考量点。
Hugging Face
2026-05-01
这篇论文提出了一种名为Odysseus的开放训练框架,用于通过强化学习训练视觉语言模型(VLMs)在长周期决策任务中的表现,如Super Mario Land游戏。该方法通过改进PPO算法和利用预训练的VLMs,显著提高了训练稳定性和样本效率,实现了在游戏多个级别上的性能提升。
Hugging Face
2026-04-27
这篇论文提出了软各向异性图(SAD),一种基于图像平面上自适应站点集的可微分图像表示方法。SAD通过计算每个站点的各向异性度量和一个加权的距离分数,以softmax混合的方式生成像素颜色,并使用可学习的站点温度来诱导软各向异性加性加权沃罗诺伊划分(即阿波罗尼图),从而在保持信息梯度的同时,实现清晰的内容对齐边界和明确的归属。这种方法允许高效的渲染,并通过GPU友好的固定大小局部计算来近似最近邻。实验表明,SAD在标准基准测试中优于Image-GS和Instant-NGP,在Kodak数据集上达到了46.0 dB PSNR,编码时间为2.2秒,并且训练速度比最先进的基线快4-19倍。
Hugging Face
2026-04-30
这篇论文提出了MASCing框架,通过激活引导掩码灵活地重新配置MoE模型的行为,以适应不同的安全场景,无需重新训练。MASCing使用基于LSTM的代理模型来捕捉跨层路由依赖,并优化一个引导矩阵来识别与行为相关的专家回路,从而在推理时应用引导掩码来覆盖专家选择。
Hugging Face
2026-05-01
这篇论文提出了Stable-GFN,一种通过对比轨迹平衡来提高大型语言模型(LLM)红队攻击多样性和鲁棒性的方法。它通过消除GFN中的分区函数Z估计来减少训练的不稳定性,并采用鲁棒的掩码方法来对抗噪声奖励,同时引入流畅度稳定器以防止模型陷入局部最优。
Hugging Face
2026-04-29
这篇论文提出了一种新的sigmoid注意力机制,用于训练稳定的生物基础模型。该方法在多个单细胞数据集上实现了更好的细胞类型分离、更好的细胞类型凝聚度指标和更低的验证损失,同时提高了训练速度和稳定性。
Hugging Face
2026-04-29
这篇论文提出了一种名为Prox-E的无监督框架,用于精细的3D形状编辑。该框架通过将3D形状抽象为几何基元,并利用预训练的视觉语言模型(VLM)进行编辑,从而实现对3D形状的精细控制,同时保持形状的整体身份。
Hugging Face
2026-04-30
这篇论文研究了文本到图像的扩散模型在多对象生成中的可靠性问题。通过在 mosaic 数据集上训练扩散模型,发现场景复杂度是主要限制因素,而非概念不平衡,同时计数在低数据环境下特别困难。此外,随着训练中排除更多概念组合,组合泛化能力下降,这突显了扩散模型的基本局限性,并激励了更强的归纳偏见和数据设计以实现稳健的多对象组合生成。
Hugging Face
2026-05-01
这篇论文提出了一种将决策树和扩散模型统一的方法,通过建立决策树和扩散过程之间的数学对应关系,揭示了两者共享的优化原则——全局轨迹评分匹配(GTSM)。论文实现了两个关键的应用实例: reeflow,在表格数据上实现了具有更高保真度和2倍计算速度的竞争性生成质量;\dsmtree,一种新的蒸馏方法,将层次决策逻辑转移到神经网络中,在许多基准测试中匹配教师性能的2%。
Hugging Face
2026-04-29
这篇论文提出了Web2BigTable,一个基于多智能体的双层架构系统,用于互联网规模的信息搜索和提取。该系统通过分解任务、并行处理和闭环反馈机制,实现了对单一目标的深度推理和对多个实体和异构源的聚合。实验结果表明,Web2BigTable在WideSearch任务上取得了显著的性能提升。
Hugging Face
2026-04-26
这篇论文提出了一种名为Talker-T2AV的联合音频-视频生成模型,该模型通过自回归扩散模型实现,将高级跨模态建模和低级细节细化分离,以提高唇同步准确性、视频质量和音频质量。
Hugging Face
2026-05-01
这篇论文提出了一种名为OSCAR的在线自我校准框架,用于解决视觉语言模型中的幻觉问题。该框架通过蒙特卡洛树搜索和双重粒度奖励机制来构建偏好数据,并通过直接偏好优化迭代地改进模型,从而在幻觉基准测试中实现了最先进的性能。
Hugging Face
2026-05-01
这篇论文提出了一种名为LACMAS的框架,用于分布式黑盒一致性优化。该框架通过自适应内部机制和基于历史优化轨迹的高级指导,实现了智能体内部动作行为和外部合作模式的自我设计,从而在非凸环境中平衡探索、收敛和局部逃逸,提高了解决方案的质量、收敛效率和通信效率。
Hugging Face
2026-05-01
这篇论文提出了一种名为LASE的语言对抗说话人编码器,用于解决多语言语音克隆中说话人身份在不同语系脚本间保持一致性的问题。LASE通过结合监督对比损失和对抗性梯度反转交叉熵损失,在冻结的WavLM-base-plus模型上训练,从而在保持说话人信息的同时消除语言信息,有效提升了跨语系TTS的性能。
Hugging Face
2026-04-27
这篇论文提出了一个名为Scheduling-Structural-Logical (SSL)的技能表示方法,用于解决当前智能体系统中技能表示过于依赖文本描述的问题。SSL通过将技能的调度信号、执行结构和逻辑层面的动作及资源使用证据进行解耦,使得技能更容易被机器获取和利用。实验表明,SSL在技能发现和风险评估任务中优于仅使用文本的基线方法。
Hugging Face
2026-04-25
这篇论文提出了AnalogRetriever,一个用于模拟电路检索的统一三模态检索框架。它通过构建高质量的模拟电路数据集,并使用视觉语言模型和关系图卷积网络来编码不同的模态,实现了跨模态表示的学习,显著提高了检索性能。
Hugging Face
2026-05-01
这篇论文提出了一个名为LWD的框架,用于通过部署中的机器人舰队进行大规模的离线到在线强化学习,以持续改进通用视觉-语言-动作(VLA)策略。该方法通过结合分布性隐式价值学习(DIVL)和Q学习通过伴随匹配(QAM)来稳定学习,并在16台双臂机器人上进行了验证,实现了高成功率。
Hugging Face
2026-05-01
这篇论文提出了Themis,一个用于多语言代码奖励模型的训练框架,旨在实现灵活的多标准评分。通过构建一个包含超过350k偏好对的代码偏好数据库,并使用该数据库训练多语言代码奖励模型,论文展示了在多语言和跨语言迁移方面的性能提升,强调了多标准训练对于可靠代码奖励模型的重要性。
Hugging Face
2026-05-01
UniVidX提出了一种统一的多模态框架,通过扩散先验进行灵活的视频生成。该框架通过随机条件掩码、解耦门控LoRA和跨模态自注意力机制等技术,实现了不同模态之间的信息交换和一致性,从而在多个视频生成任务中取得了与现有方法相当的性能。
Hugging Face
2026-05-01
这篇论文提出了Map2World框架,该框架能够根据用户定义的任意形状和大小的分割地图生成3D世界,通过引入细节增强网络来提高生成世界的质量,并通过利用资产生成器的强先验知识实现跨领域鲁棒性。
Hugging Face
2026-05-01
这篇论文提出了一种使用1D语义标记器进行端到端自回归图像生成的训练方法,通过联合优化重建和生成过程,直接从生成结果对标记器进行监督,从而提高了图像生成的质量和效率。
OpenAI
2026-05-04
OpenAI宣布重建其WebRTC堆栈,以支持低延迟、全球规模的实时语音AI,实现无缝的对话轮换。由于无法访问具体内容,无法详细描述新产品或技术更新。
arXiv cs.LG
2026-05-04
这篇论文提出了一种名为BlenderRAG的检索增强生成系统,通过在生成过程中检索语义相似的示例,显著提高了从自然语言到Blender代码的编译成功率和语义对齐度,从而解决了现有LLM在生成3D对象代码时的语法错误和几何不一致性问题。
arXiv cs.LG
2026-05-04
这篇论文提出了一种名为FSCLB的联邦线性上下文多臂老虎机算法,通过使用奇异值分解和双草图策略,显著降低了联邦上下文线性多臂老虎机中的计算和通信成本,同时保持了可接受的累积奖励。
arXiv cs.LG
2026-05-04
这篇论文提出了一种名为AlphaInventory的框架,通过使用大型语言模型和强化学习来优化在线、非静态环境中的库存策略。该框架结合了需求数据以及需求之外的数值和文本特征,生成具有统计安全保证的透明库存策略,并在合成数据和真实零售数据上优于传统和基于深度学习的库存策略。
arXiv cs.LG
2026-05-04
这篇论文提出了一种名为DPLM-Evo的蛋白质进化生成模型,该模型通过离散扩散和上下文演化噪声核技术,实现了对蛋白质序列的精确编辑和生成,解决了现有离散扩散模型在蛋白质进化模拟中的局限性,并在蛋白质序列理解和突变效应预测方面取得了显著性能提升。
arXiv cs.LG
2026-05-04
这篇论文提出了TimeRFT,一种针对时间序列基础模型(TSFMs)的强化微调范式,通过基于预测质量和预测难度的训练策略,提高了TSFMs在特定下游时间序列预测任务中的泛化能力和数据效率。
arXiv cs.CL
2026-05-04
RunAgent 是一种多智能体计划执行平台,它通过约束和标准执行自然语言计划,结合了自然语言的表达性和编程的确定性。该平台能够自动验证步骤输出,动态选择基于LLM的推理、工具使用和代码生成与执行,并包含错误纠正机制,以提高执行的正确性。
arXiv cs.MA
2026-05-04
这篇论文提出了一个信任模式和双向正确性标准,用于在人类在环(HITL)的代理运行时中验证技能,确保技能在加载前经过验证,从而提高系统的可持续性和安全性。
arXiv cs.CL
2026-05-04
这篇论文通过一个匿名案例研究,分析了面向患者的基于检索增强生成(RAG)的AI聊天机器人的隐私和安全风险。研究采用两阶段策略,首先通过探索性提示测试和结构化漏洞假设进行初步检测,然后通过手动验证确认了敏感系统配置和RAG配置的暴露问题,并发现部署违反了隐私保证。
arXiv cs.CL
2026-05-04
这篇论文介绍了H-RAG,一种用于多轮RAG对话的分层父子检索方法。H-RAG在SemEval-2026 Task 8中针对检索和生成任务进行了评估,通过将细粒度子级检索与父级上下文重建分离,实现了高效的检索和生成过程。