ggml-org/ggml:轻量级Tensor库,高效机器学习助手
ggml项目是一个专注于机器学习的Tensor库,旨在提供低级、跨平台的实现,支持整数量化、广泛的硬件支持和自动微分。该项目为研究者、应用开发者提供了一套无需第三方依赖的机器学习工具,填补了在LLM生态中高效、轻量级Tensor操作的需求。
精选 66 篇,从 15 条中筛选
ggml项目是一个专注于机器学习的Tensor库,旨在提供低级、跨平台的实现,支持整数量化、广泛的硬件支持和自动微分。该项目为研究者、应用开发者提供了一套无需第三方依赖的机器学习工具,填补了在LLM生态中高效、轻量级Tensor操作的需求。
该项目定位为面向开发者的远程代码交互平台,通过Telegram bot提供Claude Code的远程访问,实现代码的自然交互、会话持久化等功能。核心功能包括代码分析、编辑、解释,以及与Claude Code的集成。技术架构亮点在于其基于Python和Telegram的集成,以及与Claude Code的深度结合。在LLM生态中,该项目通过提供便捷的远程代码交互方式,提升了开发效率和用户体验。
Claude Code是一款基于终端的智能编码工具,旨在通过自然语言命令执行常规任务、解释复杂代码和处理Git工作流程,提高编码效率。该项目定位为开发者工具,通过智能代理技术填补了编码辅助工具的空白,优化了编码流程,并开创了基于自然语言交互的编码辅助新范式。
Cloudflare/agents项目是一个基于Cloudflare平台的AI代理服务,旨在为开发者提供构建和部署AI代理的环境。该项目通过Durable Objects技术实现持久化状态和存储,支持实时通信、调度、AI模型调用等功能,旨在填补LLM生态中代理服务的空白,为应用开发者提供了一种高效、可扩展的解决方案。
GitNexus是一个基于客户端的知识图谱创建工具,旨在为代码探索提供智能工具。它通过索引代码库并构建知识图谱,为AI代理提供代码库的深度架构视图,从而避免依赖遗漏、调用链中断和错误编辑。项目定位为开发者工具,通过其CLI和Web UI,为用户提供代码分析、影响分析和重构等功能,特别适用于大型代码库的维护和探索。
Hands-OnLLM/Hands-On-Large-Language-Models项目是一个专注于大型语言模型(LLM)的实践指南,旨在帮助开发者理解和使用LLM。该项目提供了一系列的Jupyter Notebook,包含从基础到高级的LLM实践案例,包括文本分类、聚类、提示工程等。项目定位为教育性工具,通过丰富的案例和代码,帮助开发者快速掌握LLM技术。其技术栈以Jupyter Notebook为主,集成了多种LLM相关技术和框架,如Transformer模型、PyTorch等。在LLM生态中,该项目通过提供实践案例和代码,降低了LLM的学习门槛,促进了LLM技术的普及和应用。
KaniTTS2-en是一款专注于英语的实时对话文本到语音模型,采用两阶段流水线,结合LLM和FSQ音频编解码器。模型规模适中,参数量为400M,支持实时语音生成和语音克隆。在LLM生态中,KaniTTS2-en定位为特定领域的微调模型,其核心技术包括Frame-level Position Encodings和基于transformers库的架构。性能方面,模型在相关基准测试中表现良好,具有实时性和语音质量的优势。主要应用场景包括实时对话系统、语音合成和个性化语音克隆。开源协议为Apache-2.0,对硬件要求适中,推理效率较高。
JoyAI-LLM-Flash是一款具有3亿激活参数和48亿总参数的中型指令语言模型,采用MoE架构,专注于知识、推理、编码和自主问题解决。该模型通过大规模预训练和多种优化技术,如Fiber Bundle RL和Training-Inference Collaboration,实现了高性能。在LLM领域,其差异化优势在于其独特的优化框架和针对特定任务的性能优化。
MiniMax-M2.5-GGUF是一款基于transformers库的通用大模型,具有基座模型MiniMax-M2.5作为基础。该模型在文本生成方面表现出色,支持动态上下文和丰富的功能。其参数量适中,上下文长度可扩展,适用于多种文本生成任务。在性能上,该模型在MMLU、GPQA等基准测试中表现良好,具有一定的竞争力。模型开源,支持多种硬件平台,推理效率较高,适用于需要高性能文本生成的场景。
MiniMax-M2.5是一款定位在通用大模型范畴内的LLM,具有较大的参数量和较长的上下文长度。其核心技术基于transformers库,并引入了safetensors和custom_code等创新。在性能上,该模型在多个基准测试中表现出色,具有较好的代码生成和数学推理能力。开源协议为modified-mit,适合在多种硬件和推理框架上使用。
FireRed-Image-Edit-1.0是一款专注于图像编辑的多模态模型,定位为通用大模型。它基于文本到图像的基础模型,具备强大的图像编辑能力,包括照片修复、多图像编辑等。该模型在HuggingFace平台上具有较高的下载量和点赞数,技术特点包括高保真编辑、文本风格保留等。在性能上,FireRed-Image-Edit-1.0在图像编辑任务中表现出色,具有与闭源解决方案相当的性能。模型适用于需要高质量图像编辑的场景,如虚拟试穿、老照片修复等。
Qwen3-TTS是一款专注于语音合成的大语言模型,定位为特定领域微调模型。其核心技术包括自研的Qwen3-TTS-Tokenizer-12Hz和离散多码本LM架构,支持多种语言和方言,具有强大的语境理解和自适应控制能力。性能上,模型实现了低延迟的流式生成,端到端合成延迟低至97ms。主要应用场景包括实时交互和个性化语音合成。模型开源协议为Apache-2.0,适合对实时性和个性化语音合成有较高要求的场景。
Qwen3.5-397B-A17B是一款通用大模型,具备强大的多模态学习能力和高效的推理性能。其核心架构采用Gated Delta Networks和sparse MoE,支持1M上下文长度,具有跨语言的广泛覆盖。在多模态学习、推理效率、适应性等方面表现出色,适用于需要高效率、高准确性的多模态任务。
🔥 unsloth/Qwen3.5-397B-A17B-GGUF 是一款基于 Qwen3.5-397B-A17B 的多模态扩展模型,定位为通用大模型。其核心技术包括 MoE 架构和 image-text-to-text 流程,支持高达 1M 的上下文长度。在性能上,Qwen3.5-397B-A17B-GGUF 在多个基准测试中表现出色,具有强大的代码生成和数学推理能力。开源协议为 Apache-2.0,适用于需要高性能和大规模上下文处理的场景。
nvidia/personaplex-7b-v1是一款定位为通用大模型的LLM,具有7B参数量,支持多语言。其核心技术为Transformer变体,并采用moshi库进行优化。在性能上,该模型在多个基准测试中表现出色,具有较好的代码生成和数学推理能力。模型开源,适用于多种硬件平台,与vLLM等推理框架兼容。主要应用场景包括多语言问答、代码生成等。
Kimi K2.5是一款开源的多模态大语言模型,定位为通用大模型。它基于约150万亿混合视觉和文本标记的持续预训练,具备视觉和语言理解以及先进的代理能力。模型在视觉知识、跨模态推理和基于视觉输入的代理工具使用方面表现出色。其核心能力包括视觉到代码的生成和代理群体执行复杂任务。在性能上,Kimi K2.5在权威基准测试中表现良好,具有开源协议、硬件需求适中、推理效率较高的特点,适用于多模态任务和复杂任务处理。
Nanbeige4.1-3B是一款基于Nanbeige4-3B-Base的增强型推理模型,具有小型参数规模但强大的推理、偏好对齐和有效代理行为能力。该模型在代码、数学、科学等通用推理任务上表现出色,尤其在LiveCodeBench-Pro、IMO-Answer-Bench和AIME 2026 I等挑战性任务中表现出色。其技术特点包括监督微调和强化学习优化,支持深度搜索任务,并在小模型生态系统中实现了推理和代理能力的平衡。模型适用于需要复杂推理和代码生成的场景,具有开源Apache-2.0协议,适合在通用推理和特定领域应用中部署。
Capybara是一款统一视觉创作模型,定位为多模态模型,具备强大的视觉生成和编辑能力。其核心技术包括先进的扩散模型和Transformer架构,支持多任务处理,如文本到视频、文本到图像等。性能方面,Capybara在生成任务中表现出色,具有高效的多GPU处理能力。模型适用于需要高质量视觉合成和编辑的场景,如视频制作、图像编辑等。其开源协议为MIT,硬件需求较高,推理效率良好。
DeepGen 1.0是一款轻量级的统一多模态模型,具有5B参数(3B VLM + 2B DiT),在单个模型中集成了图像生成、编辑、推理生成、推理编辑和文本渲染等五大核心能力。该模型在多个权威基准测试中表现出色,与规模大3倍至16倍的同类模型相比,实现了全面性能,证明了大规模扩展并非高性能多模态生成的唯一途径。DeepGen 1.0的核心技术包括Stacked Channel Bridging(SCB)和基于数据中心的训练策略,使其在语义理解和细粒度控制方面具有竞争力。该模型适用于图像生成和编辑等场景,具有开源Apache-2.0协议,适合在具有适当硬件和推理效率的系统中使用。
ZUNA是一款针对脑电图(EEG)信号处理的轻量级模型,定位在特定领域微调模型。它采用380M参数的掩码扩散自动编码器架构,具有去噪、重建和上采样EEG信号的能力。ZUNA在去噪、重建和上采样方面显著优于现有方法,特别适用于需要轻量级GPU或CPU的场合。该模型基于约200万小时的EEG数据训练,支持开源Apache-2.0协议,适用于研究和开发。
TeichAI/Qwen3-14B-Claude-4.5-Opus-High-Reasoning-Distill-GGUF 是一款定位在通用大模型领域的推理优化版本,具有14B参数量,支持高推理能力。该模型基于TeichAI的Qwen3-14B模型,通过Claude Opus 4.5(推理)数据集进行训练,具有优秀的代码生成、科学推理和通用用途能力。在性能上,该模型在MMLU、GPQA、IFEval等基准测试中表现出色,具有较好的推理效率和开源协议。主要应用场景包括编码、科学研究和通用用途。
Qwen3-Coder-Next是一款针对代码生成和本地开发设计的开源语言模型。该模型具有3B激活参数和80B总参数,上下文长度为256k,支持多种CLI/IDE平台。其核心技术包括混合布局、MoE和Gated DeltaNet。在代码生成任务中表现出色,具有高效的性能和强大的适应性。模型在HuggingFace平台上的下载量和点赞数均较高,表明其在LLM领域中的受欢迎程度。主要应用场景包括代码生成、本地开发和集成到IDE中。
GLM-5是一款针对复杂系统工程和长期目标代理任务的大语言模型。它具有744亿参数,支持中英双语。GLM-5在预训练和后训练方面均有显著提升,尤其在推理、编码和代理任务上表现出色。其核心技术包括DeepSeek Sparse Attention(DSA)和异步RL基础设施slime,旨在提高训练效率和推理效率。模型在多个基准测试中表现优异,是开源模型中的佼佼者。
MOSS-TTS是一款专注于语音和声音生成的开源模型,定位为特定领域的大模型。其核心技术包括高保真零样本语音克隆和可控长文本合成。模型在性能上表现出色,支持多种语言,适用于长文本语音合成、多角色对话、声音/角色设计等复杂场景。性能评估方面,模型在权威基准测试中表现良好,具有开源协议,对硬件要求适中,推理效率较高。
这篇论文提出了一种通过屋顶线建模进行硬件协同设计的缩放定律,用于在设备上部署大型语言模型(LLMs)。该方法通过将训练损失建模为架构超参数的显式函数,并通过屋顶线建模来表征推理延迟,从而在保证模型准确性的同时优化推理性能。
这篇论文提出了一种模型来模拟人类在Web代理中的干预行为,通过收集大量用户和代理的交互数据,识别了四种用户与代理的交互模式,并训练语言模型来预测用户何时可能进行干预,从而提高了代理的适应性和协作性。
这篇论文提出了CrispEdit,一种用于大规模非破坏性大型语言模型(LLM)编辑的算法。CrispEdit通过将能力保持作为一个显式约束,将编辑过程形式化为约束优化问题,并通过将编辑更新投影到能力损失景观的低曲率子空间来强制执行该约束。该方法利用Bregman散度来表达能力约束,并通过K-FAC和一种新的矩阵无投影器来提高效率,从而在标准模型编辑基准测试中实现了高编辑成功率,同时将能力退化保持在平均1%以下。
这篇论文提出了一种名为Calibrate-Then-Act(CTA)的框架,用于在大型语言模型(LLM)代理中进行成本感知的探索。该框架通过向LLM提供额外的上下文,使其能够更优地平衡探索和决策的成本与不确定性,从而在信息检索和编码等任务中实现更优的环境探索。
这篇论文提出了NESSiE,一个用于大型语言模型(LLMs)必要安全性的基准。通过最小测试案例,NESSiE揭示了在低复杂度任务中不应存在的安全相关失败。论文强调了部署此类模型作为自主代理的潜在风险,并提供了数据集、包和绘图代码。
这篇论文深入分析了如何通过两层的神经网络学习特征来解决模块化加法任务,提出了对学习模型机制和训练动态的全面解释,并揭示了特征组合成全局解决方案的过程。论文通过形式化训练过程中的多样化条件,证明了相位对称性和频率多样化如何使网络能够近似正确的逻辑函数,并解释了随机初始化下这些特征的出现机制,最后将grokking描述为一个涉及记忆和两个泛化阶段的过程。
这篇论文提出了NeST,一种轻量级的结构感知安全对齐框架,通过选择性地调整一小部分与安全相关的神经元来增强拒绝行为,同时冻结模型的其他部分。NeST通过聚类功能上连贯的安全神经元并强制执行每个集群内的共享更新,实现了针对性和稳定的适应性,而无需广泛修改模型或增加推理时间开销。
这篇论文提出了一种名为StereoAdapter-2的深度估计方法,用于解决水下机器人感知中的立体深度估计问题。该方法通过使用基于选择性状态空间模型的ConvSS2D操作符,实现了全局结构一致性和高效的远距离空间传播,同时构建了一个大规模的水下立体数据集UW-StereoDepth-80K,并在水下基准测试中取得了显著的性能提升。
这篇论文详细研究了从原始arXiv LaTeX源中训练科学语言模型的过程,包括数据预处理、文本规范化、领域感知分词和密集变压器训练。作者通过实验分析了训练稳定性、扩展行为、数据产量损失和基础设施瓶颈,并强调了预处理决策对可用标记量的影响,以及存储和I/O限制如何成为限制因素。
这篇论文提出了一种名为StarWM的世界模型,用于在StarCraft II中通过预测未来观察来改进决策策略。它通过引入结构化文本表示和构建SC2-Dynamics-50k数据集,实现了对混合动态的学习,并通过在线评估证明了其在资源预测和宏观情况一致性方面的显著提升。
这篇论文研究了在多步骤处理中,具有代理性的LLM车载助手提供中间反馈的效果。通过控制混合方法研究,发现中间反馈显著提高了用户对速度、信任和用户体验的感知,同时降低了任务负荷。研究还揭示了用户对自适应方法的偏好,即通过高透明度建立信任,然后随着系统可靠性的证明逐步减少冗余信息。
这篇论文提出了FRAPPE方法,通过多未来表示对齐,将世界建模融入通用策略中,以解决当前方法在像素级重建和预测未来观察时的误差累积问题。FRAPPE采用两阶段微调策略,提高了微调效率,并减少了依赖动作标注数据,从而在RoboTwin基准测试和真实世界任务中展现出优越的性能。
这篇论文提出了一种通过参考输出指导的LLM评估器来提高非可验证领域(如LLM对齐)中LLM的准确性。该方法通过设计评估协议,使用来自前沿模型的参考输出增强LLM评估器,并通过实验证明,这种方法可以显著提高LLM评估器的准确性,并在对齐调整中显示出其效用。
这篇论文提出了SpargeAttention2,一种通过混合Top-k+Top-p掩码和蒸馏微调的可训练稀疏注意力方法,旨在提高扩散模型的效率,同时保持生成质量。SpargeAttention2通过结合Top-k和Top-p掩码规则、高效的训练稀疏注意力实现以及蒸馏启发的微调目标,实现了高达95%的注意力稀疏度和16.2倍的速度提升。
这篇论文提出了一个综合性的AI风险管理体系,针对快速发展的AI模型,特别是大型语言模型(LLMs),进行了深入的风险分析,并提出了针对新兴威胁的缓解策略。
这篇论文提出使用大型语言模型AlphaEvolve来自动发现新的多智能体学习算法。通过迭代优化,论文发现了两种新的算法:VAD-CFR和SHOR-PSRO,它们在迭代后悔最小化和基于群体的训练算法中表现出色。
这篇论文提出了一种改进的线性注意力机制,通过简化Mamba-2模型并增强其注意力掩码和隐藏状态,实现了与softmax注意力机制相当的性能,同时大幅提高了内存效率,特别是在处理长文本时。
这篇论文提出了计算机使用世界模型(CUWM),一个用于桌面软件的世界模型,它通过预测UI状态变化来帮助代理在复杂软件环境中进行决策。CUWM通过离线UI转换数据进行训练,并通过轻量级强化学习阶段进行优化,以提高决策质量和执行鲁棒性。
这篇论文提出了一种名为DDiT的动态补丁调度策略,用于提高扩散Transformer(DiT)在图像和视频生成中的效率。该方法通过根据内容复杂度和去噪时间步长动态调整补丁大小,减少了计算成本,同时保持了生成质量。
MiniMax AI 发布了Forge,一个可扩展的Agent强化学习框架和算法,旨在解决大规模Agent RL在系统吞吐量、训练稳定性和Agent灵活性之间的冲突。Forge通过灵活的系统架构、算法设计、优化的异步调度和极致的训练-推理效率,实现了对复杂现实世界Agent的大规模强化学习训练,并在MiniMax M2.5模型中取得了显著成果。
这篇公告讨论了人工智能计算成本和竞争,指出虽然大型AI模型成本高昂,但许多实际应用中使用的模型规模更小、成本更低。它强调了选择适合特定用例的AI模型的重要性,并鼓励用户考虑成本效益和环境影响。
阿里巴巴Qwen团队发布了新一代基础模型Qwen3.5-397B-A17B,该模型采用混合注意力架构,结合了Gated Delta Networks和稀疏混合专家,并支持多模态输入和多种语言。Qwen3.5在推理、数学、知识遵循、代理、编码和视觉任务上表现出色,但并非在所有类别中都是最佳选择。
这篇公告介绍了OpenClaw,一款将计算机从被动工具转变为主动协作伙伴的AI代理。它能够自主设置开发环境、优化硬件配置,并通过自然语言与用户交流,执行复杂指令并提供主动反馈。尽管成本较高,但OpenClaw代表了计算领域的新范式,预示着计算机使用方式的转变。
Hugging Face发布了FINAL Bench,这是一个新的基准测试,旨在衡量人工智能系统的元认知能力,即AI识别和纠正自身错误的能力。该测试通过100项任务评估AI的自我修正能力,揭示了AI在自我纠正方面的瓶颈,并提出了对AI安全的警示。
本文介绍了名为“abliteration”的技术,该技术可以取消任何大型语言模型(LLM)的审查机制,使其能够响应所有类型的提示。这项技术通过修改模型权重来阻止模型拒绝请求,从而提高了模型的灵活性和响应能力。
中国AI公司推出的GLM-5模型在阿拉伯语语言性能方面排名第二,展示了其在阿拉伯语理解和生成任务上的卓越表现,尽管在方言处理、阿拉伯文和拉丁字母转换以及技术命令处理方面存在一些不足。
这篇博客详细介绍了在Transformer模型中处理张量维度的重要性,包括矩阵乘法、嵌入层、位置编码、解码器层和注意力机制等关键概念,旨在帮助读者更好地理解Transformer架构。
暂无摘要
这篇公告介绍了如何在Hugging Face上使用私有测试集建立基准测试。它详细说明了如何创建公共排行榜、私有评估器、提交数据集和结果数据集,以及如何设置架构和规划数据模式。
svara-TTS,一个面向印度多语言的开源语音合成系统,旨在捕捉印度数百种语言和方言的独特韵律、情感和语调。该系统基于Orpheus模型,支持19种印度语言,包括平衡的男女声音、情感感知和零样本语音克隆。
这篇公告介绍了在 Hugging Face Transformers 中使用多个 GPU 的两种方法:device_map 和 Tensor Parallelism。device_map 是一种内存基础模型分片技术,适用于大型模型推理,而 Tensor Parallelism 是一种真正的多 GPU 计算方法,适用于需要更快推理速度的大型模型。公告还提供了如何设置和使用这些方法的详细指南。
这篇公告探讨了人机交互的演变,从早期计算机的简洁符号输出到现代AI的对话式交互。文章强调了Unix系统引入的协作性语言、20世纪90年代的“向导”界面以及虚拟助手等工具如何逐步培养用户接受自然语言交互的习惯,为大型语言模型的出现奠定了基础。同时,文章也提到了“伊丽莎效应”和用户对AI系统的潜在过度信任问题。