unslath/Qwen3.6-35B-A3B-GGUF:图像文本转换强模
🔥 unsloth/Qwen3.6-35B-A3B-GGUF 是一款基于 Qwen3.6-35B-A3B 的开源模型,专注于图像到文本的转换。该模型定位为通用大模型,具有35B参数量和A3B架构,支持多模态输入。它在性能上表现出色,尤其在图像到文本转换任务中具有显著优势。模型采用Apache-2.0开源协议,适用于多种硬件平台,推理效率高,与vLLM等框架兼容。
精选 49 篇,从 410+ 条中筛选
🔥 unsloth/Qwen3.6-35B-A3B-GGUF 是一款基于 Qwen3.6-35B-A3B 的开源模型,专注于图像到文本的转换。该模型定位为通用大模型,具有35B参数量和A3B架构,支持多模态输入。它在性能上表现出色,尤其在图像到文本转换任务中具有显著优势。模型采用Apache-2.0开源协议,适用于多种硬件平台,推理效率高,与vLLM等框架兼容。
Gemma-4-31B-it 是一款由 Google DeepMind 开发的多模态大型语言模型,定位为通用大模型。该模型具备高达 31B 的参数量和 256K 的上下文长度,支持文本、图像等多种输入和文本输出。其核心技术包括 Dense 和 MoE 架构,并针对移动设备进行了优化。在性能上,Gemma-4-31B-it 在多个基准测试中表现出色,尤其在代码生成和推理任务上具有显著优势。模型开源协议为 Apache 2.0,适用于从手机到服务器的多种部署环境。
GLM-5.1是一款定位在通用大模型领域的旗舰模型,具备强大的编码能力。其核心技术包括Transformer架构、MoE(多智能体)设计,支持多语言处理。在基准测试中,GLM-5.1在代码生成、数学推理等任务上表现出色。该模型适用于需要多语言支持和复杂任务处理的场景,具有开源协议、高效推理等实用特性。
VoxCPM2是一款基于扩散自回归的文本到语音模型,具有2B参数,支持30种语言,输出48kHz音频。该模型无需分词器,能够根据自然语言描述生成新声音,克隆任何声音,并具有上下文感知的合成能力。它在HuggingFace平台上具有较高的下载量和点赞数,支持实时流式传输,并采用Apache-2.0开源协议。VoxCPM2在LLM生态中定位为多模态模型,其核心技术为VLM(语音语言模型),主要应用场景包括语音合成、语音克隆和语音设计。
tencent/HY-World-2.0是一款专注于3D世界重建、生成和模拟的多模态世界模型。该模型定位为多模态模型,具有独特的图像到3D的转换能力。其核心技术包括世界模型、3D建模和图像处理。在性能表现上,模型在相关基准测试中表现出色,具有高效的开源协议和良好的硬件兼容性。主要应用场景包括3D内容创作、虚拟现实和增强现实。
OBLITERATUS/gemma-4-E4B-it-OBLITERATED是一款专注于文本生成的通用大模型,基于Google的Gemma 4 E4B模型,通过OBLITERATUS技术进行强化。该模型具有极高的 uncensored 特性,拒绝率几乎为零,同时在代码生成能力上有所提升。模型在训练数据上进行了扩展,增加了多个类别,包括药物合成、黑客攻击、武器等。性能上,相较于原始模型,OBLITERATED v2在拒绝率上有了显著提升,同时在代码生成能力上有所增强。
Jackrong/Qwopus-GLM-18B-Merged-GGUF 是一个基于 Qwen3.5-9B 和 Qwen3.5-9B-GLM5.1-Distill-v1 的 64 层 Frankenmerge 模型,参数量约为 18B。该模型在代码生成、数学推理和多语言能力方面表现出色,通过 1000 步 QLoRA fine-tune 解决了原始模型在代码输出上的问题。模型适用于需要高性能代码生成和推理的场景,具有开源协议 Apache-2.0,适合在 12-16 GB GPU 上运行。
Qwen3.6-35B-A3B是一款专注于代码生成的LLM,具有35B参数和10倍MoE结构,支持长达1,010,000个token的上下文。其核心能力在于Agentic Coding和Thinking Preservation,通过优化前端工作流程和推理上下文,提升开发效率。在性能上,模型在代码生成任务中表现出色,具有较好的稳定性和实用性。开源协议为Apache-2.0,与Hugging Face Transformers兼容。
MiniMax-M2.7是一款定位在通用大模型范畴内的LLM,具有较大的参数量和较长的上下文长度。其核心技术基于transformers库,并引入了safetensors和custom_code等创新。在性能上,该模型在多个基准测试中表现出色,具有较好的代码生成和数学推理能力。开源协议为modified-mit,适合在多种硬件和推理框架上使用。
ERNIE-Image是一款由百度开发的开放文本到图像生成模型,定位为多模态模型。它基于单流扩散Transformer(DiT)架构,具有8B参数量,在保持视觉质量的同时,提供精确的内容实现和可控性。该模型在复杂指令遵循、文本渲染和结构化图像生成方面表现出色,适用于商业海报、漫画等多媒体内容创作。性能上,ERNIE-Image在开放权重文本到图像模型中达到最先进的水平。其开源协议为Apache-2.0,适合对图像质量和内容精确性有较高要求的场景。
LingBot-Map是一款专注于3D重建的流式处理3D基础模型,定位为特定领域微调模型。其核心技术为Geometric Context Transformer,具有高效的流式推理能力,在长序列上表现优异。性能上,相比现有流式和迭代优化方法,表现卓越。主要应用场景为3D重建,适用于需要高效率、高精度3D重建的场景。开源协议为Apache-2.0,硬件需求较高,推理效率高。
Qwen/Qwen3.6-27B是一款专注于代码生成的LLM,具有27B参数和64层结构。它具备前端工作流和仓库级推理的能力,上下文长度可扩展至1,010,000 tokens。该模型在Agentic Coding和Thinking Preservation方面有显著提升,适合开发者和研究人员使用。性能方面,具体基准测试结果未提供,但模型在代码生成和推理方面有优势。开源协议为Apache-2.0,与Hugging Face Transformers兼容。
OpenAI Privacy Filter是一款专注于个人身份信息(PII)检测和屏蔽的token-classification模型,适用于高吞吐量数据清洗工作流程。该模型具有小型化、可微调、长上下文处理和运行时控制等特点,适用于需要快速、上下文感知且可调整的模型场景。它基于GPT-oss架构,具有1.5B参数,支持在浏览器或笔记本电脑上运行。该模型在性能和效率方面表现出色,适用于数据安全和隐私保护领域。
Lyra-2.0是一款专注于生成持久、可探索的3D世界的框架,属于多模态模型。其核心技术包括长程视频合成和3D重建,具有强全局几何一致性。性能方面,Lyra-2.0在单图像3D场景生成领域达到新水平。模型定位为多模态模型,主要应用场景为3D世界生成和探索。其开源协议为NVIDIA内部科学研究与发展模型许可,硬件需求较高,推理效率依赖于具体应用。
🔥 unsloth/Qwen3.6-27B-GGUF 是一款基于 Qwen3.6-27B 的开源模型,专注于图像到文本的转换。该模型具有27B参数,上下文长度可达200K,采用GGUF技术进行量化,旨在提高推理效率。它在代码生成、数学推理等方面表现出色,适用于需要多模态交互的场景。模型遵循Apache-2.0开源协议,支持在Unsloth Studio中进行运行和微调。
HauhauCS/Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive 是一款基于 Qwen3.6-35B-A3B 的开源多模态模型,专注于图像-文本到文本的转换。该模型具有无审查的特性,能够生成完整的内容,适用于需要无限制文本生成的场景。模型定位为多模态模型,具有强大的文本生成能力,特别适合于需要处理图像和文本信息的任务。技术特点包括基于Qwen3.6-35B-A3B的架构,无审查的生成能力,以及多语言支持。在性能上,模型在图像-文本到文本转换任务中表现出色,但未提供具体的基准测试结果。实用考量方面,模型开源,适用于多种硬件平台,但具体推理效率取决于硬件配置。
Kimi K2.6是一款开源的多模态智能模型,专注于长周期编码、编码驱动设计、自主执行和基于群体的任务编排。该模型在复杂编码任务上表现出色,能够生成生产级界面和全栈工作流程。其核心技术包括压缩张量、多代理和图像-文本到文本的管道。在性能方面,K2.6在多个基准测试中表现出色,具有强大的代码生成和设计能力。适用于需要高效编码和设计的场景,如软件开发和界面设计。
Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled-GGUF 是一个推理优化版本的大型语言模型,定位为通用大模型。该模型基于 Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled 进行微调,具有丰富的上下文长度和参数量,采用 gguf 库进行量化。在 MMLU-Pro 测试中取得了 75.71% 的精确匹配率。模型具备推理和数学推理能力,适用于需要复杂推理和逻辑分析的场景。开源协议为 Apache-2.0,硬件需求较高,推理效率中等。
Qwen3.6-35B-A3B-DFlash是一款专注于文本生成的通用大模型,具有35B参数和长上下文支持。其核心技术DFlash采用轻量级块扩散模型并行生成多个token,显著提升效率。在基准测试中表现出色,适用于需要高效文本生成的场景。开源协议为MIT,硬件需求中等,与vLLM和SGLang等框架兼容良好。
LLaDA2.0-Uni是一款基于MoE的多模态统一扩散大语言模型,融合了图像理解和生成能力。该模型具有统一的dLLM-MoE架构,支持文本到图像生成、图像理解、图像编辑等功能。它在性能上表现出色,尤其在多模态理解与生成方面具有显著优势。LLaDA2.0-Uni适用于需要多模态交互的场景,如图像编辑、视觉问答等。其开源协议、硬件需求以及推理效率使其在多模态LLM领域具有竞争力。
这篇论文提出了专家升级(Expert Upcycling)方法,通过在持续预训练(CPT)期间增加专家数量来逐步扩展混合专家(MoE)模型的能力,同时保持每token的推理成本不变。该方法通过专家复制和路由器扩展,利用源模型的预训练结果,并在后续的CPT中打破复制专家之间的对称性,以驱动专业化。实验表明,该方法在验证损失上与固定大小的基线模型相当,同时节省了32%的GPU时间。
C-GenReg提出了一种无需训练的3D点云配准框架,通过多视图一致的几何到图像生成和概率模态融合,实现了跨域的零样本配准。该框架利用世界级生成先验和面向配准的视觉基础模型(VFMs),将匹配问题转化为图像域,从而提高配准的鲁棒性和泛化能力。
这篇论文提出了COMPASS,一个针对多语言预训练模型(LLMs)的参数高效微调框架,通过自适应语义采样策略来减少跨语言干扰,提高模型在不同语言上的性能。该方法通过在精心选择的辅助多语言数据集上训练轻量级语言特定适配器,并利用多语言嵌入和聚类来识别语义差距,从而实现持续的跨语言迁移学习。
这篇论文提出了一种名为Flash-SemiCRF的算法,通过使用前缀和查找和流式前向-后向算法,解决了在长序列和大量标签集上精确半马尔可夫条件随机场(semi-CRF)推理的内存瓶颈问题,从而使得在基因组规模的数据上也能进行精确的半CRF推理。
这篇论文研究了在音频语言模型(Audio LLMs)中进行良性微调时,模型安全性的下降问题。通过分析三个最先进的模型,论文发现良性微调会显著提高模型的越狱成功率(Jailbreak Success Rate),并揭示了这种风险与模型架构的紧密关联。论文提出了两种防御措施,通过过滤训练数据和添加文本系统提示来降低越狱成功率。
这篇论文提出了OpenMobile,一个开源框架,用于合成高质量的移动任务指令和智能体轨迹。它通过构建全局环境记忆和采用策略切换策略来生成多样化的指令和轨迹,从而在三个动态移动智能体基准测试中实现了有竞争力的结果。
这篇论文提出了一种名为Abstain-R1的模型,通过可验证的强化学习(RL)方法,实现了对大型语言模型在回答不可回答问题时的精确拒绝和后续澄清。该方法通过优化拒绝和澄清的语义一致性,提高了模型在不可回答问题上的拒绝准确性和澄清质量。
这篇论文提出了一种新的图像生成模型,称为Vision Banana,它通过在混合训练数据上使用Nano Banana Pro进行指令微调,展示了强大的视觉理解能力,并在多个视觉任务上达到了最先进的性能,证明了图像生成预训练是通用的视觉学习者。
这篇论文提出了DeVI,一个基于物理的、通过合成视频模仿来实现灵巧的人-物体交互的框架。DeVI利用文本条件化的合成视频,结合3D人体跟踪和2D物体跟踪,实现物理上合理的灵巧代理控制,以与未见过的目标物体交互。该方法不需要高质量的3D运动学演示,从而实现了对多种物体和交互类型的零样本泛化。
这篇论文提出了一种名为TACO的终端代理压缩框架,通过观察上下文压缩来提高终端代理的效率。该框架能够自动发现和优化压缩规则,从而减少冗余信息,降低计算成本,并在多个基准测试中显著提升了性能。
这篇论文提出了Tadabur,一个大规模的《古兰经》音频数据集,包含超过1400小时的来自600多位不同朗诵者的朗诵音频,旨在解决现有《古兰经》数据集规模和多样性不足的问题,为《古兰经》语音研究和分析提供全面和代表性的资源。
这篇论文研究了基于大型语言模型(LLM)的科学研究代理,发现这些代理在执行科学流程时缺乏科学推理的规范性,即使它们在流程执行中表现出色。研究通过性能分析和行为分析,揭示了基础模型对性能和行为的主要影响,并指出当前LLM代理无法通过其生成过程来证明其科学知识的合理性。
这篇论文提出了一个名为“多样化字典学习”的新方法,旨在在没有强假设的情况下,从观测数据中恢复潜在变量。通过分析潜在变量的交集、补集和对称差分,以及潜在变量到观测的依赖结构,论文证明了即使在无法完全识别的情况下,这些信息仍然是可识别的。这种方法可以构建对隐藏世界的结构化和本质视图,并在合成和真实世界数据上验证了其有效性。
这篇论文提出了SAVOIR,一个基于Shapley值分配的奖励归因框架,用于通过强化学习训练具有社交智慧的语言代理。SAVOIR通过预期效用和Shapley值确保了公平的信用分配,并在SOTOPIA基准测试中实现了新的最先进性能。
这篇论文提出了一种新的方法,通过图像优先的合成来重新思考可控高质量的人类视频生成。该方法通过学习高质量的人类外观并将其作为视频合成的先验,解耦了外观建模和时间一致性。论文提出了一种姿态和视角可控的流程,结合了预训练的图像骨干网络和基于SMPL-X的运动引导,以及基于预训练视频扩散模型的无监督时间细化阶段。实验结果表明,该方法能够在不同的姿态和视角下生成高质量、时间一致的视频。
本文提出了一种名为Tool-supervised Reinforcement Learning (ToolsRL)的新框架,用于训练多模态大型语言模型解决复杂视觉推理任务。该框架通过直接工具监督来提高工具使用学习的效果,并使用一系列简单、原生、可解释的视觉工具,如缩放、旋转、翻转和绘制点/线。通过一个强化学习课程,模型首先通过一组工具特定的奖励进行优化,然后在允许调用工具的同时,使用针对准确性的奖励进行训练,从而在完成视觉推理任务之前掌握工具调用能力。
这篇论文提出了一种针对长时程编码代理的测试时扩展计算框架,通过紧凑的回放轨迹表示来提高大型语言模型的表现。该框架包括Recursive Tournament Voting (RTV) 和 Parallel-Distill-Refine (PDR) 两种方法,以实现并行和顺序扩展计算,从而在多个基准测试中显著提升了编码代理的性能。
这篇论文提出了近未来策略优化(NPO),一种混合策略方案,通过从策略自身的近未来自我学习,即同一训练运行中的后续检查点,来提高强化学习的效果。NPO通过平衡轨迹质量与方差成本,解决了现有混合策略方法中存在的挑战,并通过实验验证了其性能提升。
这篇论文探讨了大型语言模型(LLMs)中的奖励黑客攻击问题,提出了代理压缩假设(PCH)作为理解奖励黑客的统一框架,并分析了检测和缓解策略。
这篇论文提出了GSI-Bench,一个用于量化生成式空间智能(GSI)的基准,通过空间基础图像编辑来评估模型在图像生成中尊重和操作3D空间约束的能力。实验表明,在GSI-Syn上进行微调可以显著提高模型在合成和真实任务上的表现,并改善了下游的空间理解能力。
OpenAI 发布了 Codex 工作区的使用指南,详细介绍了如何设置 Codex 工作区、创建和管理线程与项目、管理文件以及如何与 Codex 进行自然语言交流。指南强调了 Codex 的核心元素,包括侧边菜单、项目、设置和聊天窗口,并说明了 Codex 在文件操作和任务执行方面的能力。
OpenAI在其官方博客上发布了一篇关于Codex自动化功能的文章,介绍了如何使用时间和触发器来自动化任务,如生成报告、摘要和重复性工作流程,从而提高效率。该功能允许Codex在预定时间自动执行任务,如准备每日简报、总结近期活动或创建周报,同时保持对话上下文,便于持续任务。有效的自动化应具备明确性、可重复性和易于审查的特点。
OpenAI发布了GPT-5.5,这是其迄今为止最智能、最直观的模型,能够快速理解用户意图并独立完成复杂任务,如代码编写、研究、数据分析等。GPT-5.5在保持与GPT-5.4相同每token延迟的同时,提升了智能水平,并配备了强大的安全保障措施,目前已向多个用户群体推出。
OpenAI发布了GPT-5.5系统卡,这是专为复杂实际工作设计的最新模型,能够处理代码编写、在线研究、信息分析等任务,并具有更早理解任务、减少指导需求、有效使用工具和自我检查的能力。GPT-5.5经过全面的安全评估,并采取了强劲的防护措施以减少滥用。
这篇论文介绍了CoAuthorAI,一个结合了检索增强生成、专家设计的分层大纲和自动参考文献链接的写作系统。该系统允许专家在句子级别迭代地改进文本,确保一致性和准确性。通过在500个多领域文献综述章节的评估中达到98%的最大软标题召回率,以及在100篇文章的人类评估中达到82%的满意度,CoAuthorAI展示了系统化的人机协作如何扩展LLMs的能力,从文章扩展到全长书籍,从而实现更快、更可靠的科学出版。
这篇论文提出了ChipCraftBrain,一个结合符号-神经网络推理和自适应多智能体编排的框架,用于自动生成寄存器传输级(RTL)代码。该框架通过自适应编排、混合架构、知识增强生成和分层规范分解等技术,显著提高了RTL代码生成的准确性和效率。
这篇论文提出了MMCORE,一个用于多模态图像生成和编辑的统一框架。它利用预训练的视觉语言模型(VLM)通过可学习的查询标记预测语义视觉嵌入,这些嵌入随后作为条件信号用于扩散模型。MMCORE的设计简化了模型间的深度融合和从头训练,显著降低了计算开销,同时保持了高保真度的合成。该框架在空间推理和视觉定位等复杂场景中展示了强大的多模态理解能力。
这篇论文提出了一个名为Emergence Transformer的新架构,通过动态时间注意力(DTA)机制,增强了复杂系统中时间序列数据的长期交互,从而在语言模型和数据分析分布之间实现涌现的连贯性。DTA通过时间变化的查询、键和值矩阵,允许组件与其过去状态或邻居的状态通过动态注意力核进行交互,从而促进或抑制涌现的连贯性。实验表明,DTA在塑造社会连贯性方面有显著效果,并应用于Hopfield神经网络,实现了持续的涌现学习。
这篇论文提出了Prism,一个用于多智能体AI系统进行开放式发现的进化记忆基础结构。Prism通过一个决策理论框架统一了四种独立开发的范式,包括分层文件持久化、向量增强语义记忆、图结构关系记忆和多智能体进化搜索。它引入了熵门控分层机制、因果记忆图、价值信息检索策略、心跳驱动的巩固控制器和复制衰减动力学框架,并在LOCOMO基准测试和CORAL风格的进化优化任务中取得了显著的性能提升。
这篇论文提出了一种名为R2IF的推理感知强化学习框架,用于可解释的LLM函数调用。该框架通过整合格式/正确性约束、思维链有效性奖励(CER)和规格修改价值(SMV)奖励,优化了LLM与外部工具的接口,解决了现有方法中推理过程与工具调用决策之间的不匹配问题。实验结果表明,R2IF在BFCL/ACEBench上的性能优于基线,提高了函数调用准确性和可解释性。
这篇论文提出了EvoAgent,一个可演化的大型语言模型(LLM)代理框架,它结合了结构化技能学习和分层子代理委托机制。EvoAgent将技能建模为多文件结构化能力单元,并具备触发机制和进化元数据,通过用户反馈驱动的闭环过程实现技能的持续生成和优化。此外,通过引入三阶段技能匹配策略和三层记忆架构,该框架支持复杂问题的动态任务分解和长期能力积累。实验结果表明,在真实世界的外贸场景中,集成EvoAgent后,GPT5.2在专业性、准确性和实用性方面取得了显著提升。
这篇论文提出了OTask-SRR1,一个结合了搜索、精炼和推理过程的框架,用于增强大型语言模型。该框架通过强化学习训练,能够从检索到的文档中提取关键事实,从而提高大型语言模型在复杂多跳问题上的推理能力。
这篇论文提出了一种名为HaS的加速检索增强生成(RAG)框架,通过同源性感知的投机检索来减少检索延迟,同时保持较高的准确率。该方法通过识别查询的同源性来避免对整个数据库的慢速检索,显著提高了RAG系统的效率。