Qwen/Qwen3.5-0.8B:多模态通用大模型
Qwen3.5-0.8B是一款通用大模型,具有0.8B参数,采用统一的视觉语言基础架构,支持多语言和模态。其核心能力包括高效的混合架构、可扩展的强化学习泛化能力以及全球语言覆盖。在MMLU、GPQA、IFEval等基准测试中表现出色。适用于原型设计、特定任务微调和研发等。
精选 49 篇,从 980+ 条中筛选
Qwen3.5-0.8B是一款通用大模型,具有0.8B参数,采用统一的视觉语言基础架构,支持多语言和模态。其核心能力包括高效的混合架构、可扩展的强化学习泛化能力以及全球语言覆盖。在MMLU、GPQA、IFEval等基准测试中表现出色。适用于原型设计、特定任务微调和研发等。
该模型定位为通用大模型,具有1024维的参数量和32K的上下文长度。其核心技术为基于扩散预训练的密集和上下文嵌入,避免了指令微调,直接嵌入文本。在性能表现上,模型在权威基准测试中表现良好,具有高效的开源协议和推理效率。主要应用场景包括独立文本嵌入、文档相似度比较等,适合用于语义搜索和索引构建。
GLM-5是一款针对复杂系统工程和长期目标代理任务的大语言模型。它具有744亿参数,支持中英双语。GLM-5在预训练和后训练方面均有显著提升,尤其在推理、编码和代理任务上表现出色。其核心技术包括DeepSeek Sparse Attention(DSA)和异步RL基础设施slime,旨在提高训练效率和推理效率。模型在多个基准测试中表现优异,是开源模型中的佼佼者。
LocoOperator-4B是一款专注于代码库探索的4B参数工具调用代理模型,基于Qwen3-4B-Instruct-2507进行知识蒸馏训练。该模型具有100%的JSON有效性,支持本地部署,适用于快速代码库搜索和导航。它在代码生成和工具调用方面表现出色,适用于需要代码探索和自动化的场景。
模型定位:通用大模型,规模庞大,参数量达35B。核心能力:基于Qwen/Qwen3.5-35B-A3B,采用abliterated技术去除拒绝词,支持图像-文本-文本转换。性能表现:未提供具体基准测试结果,但强调 uncensored 特性。主要应用场景:适用于需要大量上下文和丰富表达的场景,如对话系统。使用考量:开源协议Apache-2.0,硬件需求高,推理效率需进一步评估。
MiniMax-M2.5是一款定位在通用大模型范畴内的LLM,具有较大的参数量和较长的上下文长度。其核心技术基于transformers库,并引入了safetensors和custom_code等创新。在性能上,该模型在多个基准测试中表现出色,具有较好的代码生成和数学推理能力。开源协议为modified-mit,适合在多种硬件和推理框架上使用。
Qwen3.5-397B-A17B是一款通用大模型,具备强大的多模态学习能力和高效的推理性能。其核心架构采用Gated Delta Networks和sparse MoE,支持1M上下文长度,具有跨语言的广泛覆盖。在多模态学习、推理效率、适应性等方面表现出色,适用于需要高效率、高准确性的多模态任务。
🔥 unsloth/Qwen3.5-122B-A10B-GGUF 是一款多模态扩展的通用大模型,具备122B参数量,支持图像-文本到文本的转换。其核心技术包括MoE架构和早期融合的多模态学习,在推理、编码、代理和视觉理解等方面表现优异。模型在MMLU、GPQA、IFEval等基准测试中取得了优异成绩,具有开源Apache-2.0协议,适用于多种硬件平台,与vLLM、TGI等框架兼容。
LiquidAI/LFM2-24B-A2B是一款针对边缘设备部署的混合模型,定位为通用大模型。该模型具有24亿参数,采用MoE架构,有效参数仅为2亿,适合在消费级硬件上运行。其在推理效率上表现出色,支持快速边缘推理。性能方面,质量随参数量线性提升,展现出可靠的扩展性。主要应用场景包括代码生成、数学推理和多语言能力等,适用于需要高效推理的边缘设备。
Kimi K2.5是一款开源的多模态大语言模型,定位为通用大模型。它基于约150万亿混合视觉和文本标记的持续预训练,具备视觉和语言理解以及先进的代理能力。模型在视觉知识、跨模态推理和基于视觉输入的代理工具使用方面表现出色。其核心能力包括视觉到代码的生成和代理群体执行复杂任务。在性能上,Kimi K2.5在权威基准测试中表现良好,具有开源协议、硬件需求适中、推理效率较高的特点,适用于多模态任务和复杂任务处理。
Qwen3.5-35B-A3B是一款定位在通用大模型领域的LLM,具备高效的混合架构和强大的多模态学习能力。该模型具有35B的参数量,支持1M的上下文长度,采用Apache-2.0开源协议。在性能上,Qwen3.5在多个基准测试中表现出色,尤其在多模态任务上具有显著优势。其主要应用场景包括多语言处理、代码生成和视觉理解等,适合需要高性能和高效推理的应用。
Qwen/Qwen3.5-9B是一款通用大模型,具备9B参数,支持多模态学习。其核心技术包括多模态融合训练、高效的混合架构、可扩展的强化学习泛化能力、全球语言覆盖和下一代训练基础设施。在基准测试中表现出色,尤其在多模态理解和推理任务上。适用于需要多语言、多模态理解和高效推理的场景,如对话系统、内容生成等。
Qwen/Qwen3.5-4B是一款通用大模型,具有4B参数,采用多模态学习技术。其核心能力包括高效的混合架构、可扩展的强化学习泛化能力以及全球语言覆盖。在基准测试中表现出色,尤其在多模态任务上。该模型适用于需要多语言能力和跨模态理解的场景,具有开源协议、高效的推理性能和与流行框架的兼容性。
🔥 unsloth/Qwen3.5-27B-GGUF 是一款通用大模型,具备强大的多模态处理能力。该模型基于Qwen3.5-27B进行微调,采用GGUF技术,实现了高效的混合架构。其上下文长度可达27B,参数量庞大,支持图像到文本的转换。在MMLU、GPQA等基准测试中表现出色,尤其在多模态理解和推理方面具有显著优势。适用于需要多模态交互和复杂推理的场景,如问答系统、内容生成等。
Nanbeige4.1-3B是一款基于Nanbeige4-3B-Base的增强型推理模型,具有小型参数规模但强大的推理、偏好对齐和有效代理行为能力。该模型在代码、数学、科学等通用推理任务上表现出色,尤其在LiveCodeBench-Pro、IMO-Answer-Bench和AIME 2026 I等挑战性任务中表现出色。其技术特点包括监督微调和强化学习优化,支持深度搜索任务,并在小模型生态系统中实现了推理和代理能力的平衡。模型适用于需要复杂推理和代码生成的场景,具有开源Apache-2.0协议,适合在通用推理和特定领域应用中部署。
🔥 unsloth/Qwen3.5-9B-GGUF 是一款基于 Qwen3.5-9B 的多模态扩展模型,定位为通用大模型。其核心技术包括早期融合的多模态学习、Transformer 架构和 GGUF 技术,支持图像到文本的转换。该模型在 MMLU、GPQA、IFEval 等基准测试中表现出色,具有强大的推理和代码生成能力。开源协议为 Apache-2.0,适用于多种硬件平台,与 vLLM、TGI 等框架兼容。
🔥 unsloth/Qwen3.5-35B-A3B-GGUF 是一款基于 Qwen/Qwen3.5-35B-A3B 的多模态扩展模型,定位为通用大模型。该模型具有35B参数,支持图像到文本的转换,具备代码生成和工具调用能力。在性能上,GGUFs刷新后,模型在工具调用和编码性能上有所提升。该模型开源协议为Apache-2.0,适用于需要高性能代码生成和多模态交互的场景。
Qwen/Qwen3.5-2B是一款定位为通用大模型的LLM,具有2B参数量,支持多模态学习。其核心技术包括早期融合的多模态训练、高效的混合架构、可扩展的强化学习泛化能力、全球语言覆盖以及下一代训练基础设施。在性能上,Qwen3.5在多个基准测试中表现出色,具有强大的推理能力和多语言处理能力。该模型适用于原型设计、特定任务的微调和研发等用途,具有开源协议、高效的推理效率和与流行推理框架的兼容性。
这篇论文提出了Cryo-Bench,一个用于评估Geo-Foundation Models(GFMs)在冰冻圈应用中的性能的基准。通过包含多种传感器和地理区域的冰冻圈组件数据集,论文评估了14个GFMs以及UNet和ViT基线,并探讨了优化GFM性能的策略。
这篇论文提出了一种基于观察和交互的规划方法,通过逆强化学习算法从观察和交互中构建世界模型,实现了在真实世界环境中学习图像操作任务,无需预先知识或数据,且具有高样本效率和成功率。
这篇论文提出了一个名为 Classroom Final Exam 的多模态基准,用于评估大型语言模型在超过20个STEM领域的推理能力。该基准由大学作业和考试问题组成,并附有课程教师的参考解决方案。实验结果表明,即使是最前沿的模型在解决多步骤问题时也难以保持正确的中间状态,且模型生成的解决方案通常比教师提供的解决方案包含更多推理步骤,表明步骤效率不高且错误累积风险较高。
这篇论文提出了V-SONAR,一个扩展自SONAR的视觉-语言嵌入空间,通过将现有视觉编码器的表示映射到SONAR空间,实现了视觉-语言模型的统一。V-SONAR在文本到视频检索任务上表现出色,并且通过OMNISONAR文本解码器在视频字幕任务上超越了现有模型。此外,论文还介绍了V-LCM,一个结合视觉-语言指令调整的扩展大型概念模型,它在多种语言和模态的指令调整数据集上表现出色。
这篇论文提出了PhotoBench,一个基于真实个人相册的个性化照片检索基准,旨在从视觉匹配转向个性化多源意图驱动推理。它通过整合视觉语义、时空元数据、社交身份和时间事件,构建复杂意图驱动查询,并揭示了模态差距和源融合悖论,指出未来个人多模态检索需要强大的代理推理系统。
这篇论文介绍了Synthetic Visual Genome 2(SVG2),一个大规模的泛视图频场景图数据集。SVG2通过结合多尺度全景分割、在线离线轨迹跟踪、语义解析和基于GPT-5的时空关系推理,实现了大规模时空场景图的自动提取。论文还提出了TRaSER模型,通过轨迹对齐的标记排列机制和新的模块,将原始视频和全景轨迹转换为紧凑的时空场景图,显著提升了关系检测、对象预测和属性预测的性能。
这篇论文提出了ProtegoFed,一个针对联邦指令调整(FIT)的框架,旨在解决在分布式训练环境中由于恶意数据注入导致的潜在安全威胁。ProtegoFed通过在频域中识别梯度差异来区分受污染的数据,并引入全局二级聚类机制以跨客户端协作识别和净化受污染样本。
这篇论文提出了一种名为InSight的RLVR训练方法,通过加权互信息数据选择来提高强化学习(RL)的效率。该方法通过贝叶斯潜在成功率模型来建模数据结果,并构建了一个基于数据点成功概率信念的稳定获取分数,从而在多轮次设置中实现了高效的训练。
这篇论文提出了一种使用歌曲数据来提高哈萨克语自动语音识别(ASR)系统性能的方法。研究者通过收集歌曲音频和文本数据,对基于Whisper的模型进行微调,并在多个基准测试中展示了基于歌曲数据训练的模型在低资源语言ASR任务上的性能提升。
这篇论文提出了一种基于单目视觉的羊只三维重建和身体尺寸测量方法,通过构建FemaleSaanenGoat数据集和SaanenGoat参数化三维形状模型,实现了对萨能奶山羊的高精度三维重建和关键身体尺寸的自动化测量。
OpenAutoNLU是一个开源的自动机器学习库,用于自然语言理解任务,包括文本分类和命名实体识别。它引入了数据感知的训练模式选择,无需用户手动配置,并提供数据质量诊断、可配置的异常值检测和大型语言模型功能,所有这些都在一个低代码API中实现。
这篇论文介绍了SWE-rebench V2,一个语言无关的自动化管道,用于大规模收集可执行的真实世界软件工程任务,并构建强化学习训练环境。该管道通过交互式设置代理合成特定存储库的安装和测试程序,并通过一组LLM法官过滤不稳定的实例,这些法官通过人类验证的SWE-bench注释进行验证。论文构建了一个包含32,000多个任务的数据集,涵盖20种语言和3,600多个存储库,并发布了120,000多个带有安装说明、失败到通过测试和丰富元数据的新任务。
这篇论文提出了Spectral Editing Key Amplification (SEKA)和Adaptive SEKA (AdaSEKA)两种无监督的注意力引导方法,用于提高模型在prompt highlighting任务中的性能。SEKA通过编辑键嵌入来增强特定token的注意力分数,而AdaSEKA则通过动态组合多个专家子空间来适应不同的prompt语义意图。实验结果表明,这两种方法在标准引导基准测试中显著优于强基线,同时具有更低的延迟和内存开销。
这篇论文提出了WorldStereo,一个结合了相机引导的视频生成和场景重建的框架。它通过两个专门的几何记忆模块,实现了精确的相机控制和多视图一致的视频生成,从而促进了高质量的3D场景重建。
这篇论文提出了Reasoning Core,一个可扩展的程序化数据生成套件,用于符号预训练和后训练。该套件能够生成跨多个核心形式领域的可验证符号推理数据,包括PDDL规划、一阶逻辑、上下文自由语法解析和生成、随机贝叶斯网络上的因果推理以及方程组系统。通过外部求解器进行严格验证,并允许连续难度控制,Reasoning Core能够提高下游推理能力,同时保持或略微提高语言模型的质量。
这篇论文提出了一种名为ADaptive Edit-CoT (ADE-CoT)的图像编辑测试时缩放框架,旨在提高图像编辑的效率和性能。它通过动态资源分配、编辑特定验证和深度优先机会性停止等策略,解决了固定采样预算下的资源分配不均、早期验证的不确定性和大规模采样产生的冗余结果等问题。
这篇论文提出了CHIMERA,一个用于通用LLM推理的紧凑合成数据集,旨在解决LLM推理中的冷启动问题、领域覆盖限制和标注瓶颈。CHIMERA通过提供丰富的推理轨迹、广泛的学科覆盖和自动化的评估流程,显著提升了模型的推理能力。
这篇论文提出了SeeThrough3D,一个用于3D布局条件生成的模型,该模型通过引入遮挡感知的3D场景表示(OSCR)来显式地建模遮挡。OSCR将对象表示为半透明的3D盒子,并从期望的相机视角进行渲染,透明度编码了隐藏的对象区域,从而使得模型能够推理遮挡。此外,通过引入从渲染的3D表示中派生的视觉标记,该模型能够将预训练的基于文本的图像生成模型进行条件化,并应用掩码自注意力机制以精确地将每个对象边界框绑定到其对应的文本描述,从而实现多对象的无属性混合的准确生成。
这篇论文提出了MicroVerse,一个针对微观世界模拟的视频生成模型。它通过构建MicroWorldBench基准和MicroSim-10K数据集,解决了现有视频生成模型在微观尺度模拟中的不足,并展示了其在生物机制教育模拟中的潜力。
这篇论文提出了MMR-Life,一个用于评估多模态大型语言模型在现实场景中多图像推理能力的综合基准。该基准包含基于真实世界图像的2,646个多项选择题,涵盖了七种推理类型,并通过实验展示了现有模型在MMR-Life上的挑战和性能差异。
Google DeepMind发布了Gemini 3.1 Flash-Lite,这是其最快的成本效益型AI模型,专为大规模和高容量工作负载设计。该模型通过Google AI Studio的Gemini API和Vertex AI提供预览版,具有快速处理速度和低成本的特点,适用于大规模翻译、内容审核等复杂任务。
OpenAI于2026年3月3日发布了GPT-5.3 Instant,这是对ChatGPT最常用模型的更新,旨在提升日常对话的流畅性和实用性。新模型减少了不必要的拒绝和防御性回答,提高了网络搜索的准确性和效率,并增强了写作能力。该更新已对所有ChatGPT用户开放,并通过API提供给开发者。
OpenAI发布了GPT-5.3 Instant System Card,这是GPT-5系列的新成员,于2026年3月3日发布。该模型在响应速度和网页搜索答案的质量上有所提升,减少了不必要的对话中断,并采用了与GPT-5.2 Instant类似的安全缓解措施。
这篇论文提出了一种名为DRPO的新框架,用于解决大型推理模型在强化学习中的过度思考问题。DRPO通过解耦正确和错误推理的长度奖励,确保正确推理的奖励信号不受负面样本干扰,从而提高推理效率和减少计算成本。
这篇论文提出了PsyAgent,一个基于心理建模和情境交互的框架,旨在构建具有人类特征的行为代理。该框架通过结合五大性格特质和明确的社会结构条件,实现个体结构和多情境情境的整合,从而在推理时产生稳定且情境敏感的行为。实验表明,PsyAgent在性格忠实度和长期稳定性方面有所提升,并且在匹配的解码和评分控制下与一些大型通用指令调整基线具有竞争力。
这篇论文提出了一种名为Taxonomy-Aware Representation Alignment (TARA)的策略,旨在通过将生物分类知识注入大型多模态模型(LMMs)中,提高其在层次视觉识别(HVR)任务中的表现,特别是在识别未知类别方面。TARA通过将视觉特征的中间表示与生物学基础模型(BFMs)的表示对齐,鼓励LMMs提取结构化的视觉线索,从而增强模型在复杂生物分类中的识别能力。
这篇论文提出了Semantic XPath,一种树状结构内存模块,用于访问和更新结构化对话记忆,以支持长期、任务导向的交互。它通过在结构化记忆上操作,提高了性能,同时减少了所需的标记数量。
这篇论文提出了一种名为Attn-QAT的4位量化感知训练方法,用于解决在FP4-capable GPUs上实现可靠4位注意力的问题。通过匹配低精度注意力分数的重计算和解决Flash Attention的梯度计算中的隐式精度假设,Attn-QAT在扩散模型和语言模型中恢复了FP4注意力的质量下降,并在RTX 5090上实现了高达1.5倍的速度提升。
这篇论文提出了ASTRA-bench,一个评估工具使用、推理和动作规划的基准,它结合了时间演变的个人上下文、交互式工具箱和复杂的用户意图。通过实验发现,在高度复杂的环境下,最先进的模型性能显著下降,主要瓶颈在于论点生成。论文旨在解决当前智能体在混乱的个人上下文中建立推理和可靠的多步计划的能力的局限性。
这篇论文提出了CoVe,一个用于训练交互式工具使用代理的后训练数据合成框架。CoVe通过定义明确的任务约束来生成复杂的轨迹,并作为轨迹质量的确定性验证器,从而为监督微调和强化学习提供高质量的训练轨迹和准确的奖励信号。
这篇论文提出了LiveCultureBench,一个用于评估大型语言模型在动态社交模拟中的文化适应性和任务完成情况的跨文化基准。该基准通过将LLMs嵌入模拟城镇中,模拟不同文化背景的居民,并评估LLMs在完成任务和遵守社会文化规范方面的表现。
这篇论文介绍了FLANS团队在SemEval-2025 Task-7中的参赛作品,该作品使用开放源代码的小型语言模型(sLLMs)和检索增强生成(RAG)方法,结合文化意识知识库(CulKBs)来处理跨语言和文化的日常知识问题。他们通过提取维基百科内容创建了自己的CulKBs,并集成了在线搜索结果,旨在提高隐私和可持续性。