openai/skills:Codex技能目录,提升开发效率
项目定位为为Codex提供技能目录,旨在帮助AI代理发现和使用指令、脚本和资源以执行特定任务。核心功能是提供技能的安装和管理,解决开发者重复性任务执行的问题。技术架构基于Python,集成Codex平台。在LLM生态中,该项目通过提供技能目录和安装机制,优化了任务执行流程,提升了开发效率。
精选 67 篇,从 13 条中筛选
项目定位为为Codex提供技能目录,旨在帮助AI代理发现和使用指令、脚本和资源以执行特定任务。核心功能是提供技能的安装和管理,解决开发者重复性任务执行的问题。技术架构基于Python,集成Codex平台。在LLM生态中,该项目通过提供技能目录和安装机制,优化了任务执行流程,提升了开发效率。
AI Hedge Fund项目旨在利用AI技术进行投资决策,为教育和研究目的提供模拟交易环境。该项目通过集成多个投资策略代理,模拟真实投资过程,不进行实际交易。其核心功能是模拟投资决策,解决的是如何将AI应用于投资领域的问题。技术架构上,该项目基于Python,集成多个LLM和金融数据分析工具。在LLM生态中,该项目通过模拟投资策略,为研究者提供实践平台。
Qwen-Agent是一个基于Qwen框架的LLM应用开发框架,旨在提供指令遵循、工具使用、规划和记忆能力。它支持多种应用,如浏览器助手、代码解释器和自定义助手,并可作为Qwen Chat的后端。该项目填补了LLM应用开发的空白,通过提供丰富的工具和组件,优化了开发流程,并在LLM生态中提供了独特的价值。
MiroFish是一款基于多智能体技术的AI预测引擎,旨在通过构建高保真数字世界,预测各种事件。它面向研究者、应用开发者及企业用户,提供独特的群体智能预测功能。MiroFish的核心价值在于其创新的技术架构,包括现实世界种子信息的提取、智能体交互与社会演化模拟,以及预测报告的生成。它填补了LLM生态中群体智能预测的空白,为决策者提供预演实验室,为个人用户创造创意沙盘。
GoogleCloudPlatform/generative-ai项目是一个专注于Google Cloud平台上的生成式AI工具和资源库,旨在帮助开发者使用Vertex AI构建和管理工作流。该项目提供了Gemini模型的使用示例、搜索功能、视觉和音频处理工具,以及设置环境的指南。它填补了在Google Cloud上使用生成式AI的空白,为研究者、开发者和企业提供了丰富的资源和工具。
Page Agent是一个基于TypeScript的JavaScript in-page GUI agent,旨在通过自然语言控制网页界面。它填补了网页自动化领域中的空白,为开发者提供了一种无需浏览器扩展或特殊权限的网页交互方式。其核心功能包括基于文本的DOM操作、集成自定义LLM以及可选的Chrome扩展支持。Page Agent在LLM生态中的价值在于其易用性和集成度,为开发者提供了强大的网页自动化工具。
Jido是一个基于Elixir的自治代理框架,旨在构建分布式、自主行为和动态工作流程。它通过纯函数代理和OTP运行时提供确定性代理逻辑和测试性,同时支持多种插件和执行策略,适用于需要复杂多代理协调的应用开发者。
Sarvam-30B是一款专注于印度语言和上下文的多语言混合专家模型,具有2.4B非嵌入活跃参数。该模型在22种印度语言中实现了最先进的性能,适用于资源受限的环境。它具有强大的推理、可靠的编码能力和一流的对话质量。Sarvam-30B在数学、代码生成和MBPP基准测试中表现出色,适用于需要多语言能力和高效推理的场景。
Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled 是一个基于 Qwen3.5 架构的推理模型,专注于结构化推理逻辑。该模型通过从 Claude-4.6 Opus 中提取的 CoT 技术进行微调,具有高效的推理效率和减少冗余认知循环的能力。模型定位为推理模型,具有 27B 参数量,支持文本生成。在性能上,模型在推理任务上表现出色,特别适合需要复杂推理和逻辑分析的场景。开源协议为 Apache-2.0,适合在多种硬件和推理框架上使用。
Sarvam-105B是一款定位为通用大模型的混合专家模型,拥有10.3B参数,擅长复杂推理和代理任务。其架构采用MLA风格注意力堆叠,具有高上下文长度和独特的路由机制。在基准测试中,Sarvam-105B在多个领域表现优异,特别是在印度语言上达到顶尖水平。该模型开源,适用于需要高性能推理和复杂任务处理的场景。
Qwen3.5-397B-A17B是一款通用大模型,具备强大的多模态学习能力和高效的推理性能。其核心架构采用Gated Delta Networks和sparse MoE,支持1M上下文长度,具有跨语言的广泛覆盖。在多模态学习、推理效率、适应性等方面表现出色,适用于需要高效率、高准确性的多模态任务。
🔥 unsloth/Qwen3.5-27B-GGUF 是一款通用大模型,具备强大的多模态处理能力。该模型基于Qwen3.5-27B进行微调,采用GGUF技术,实现了高效的混合架构。其上下文长度可达27B,参数量庞大,支持图像到文本的转换。在MMLU、GPQA等基准测试中表现出色,尤其在多模态理解和推理方面具有显著优势。适用于需要多模态交互和复杂推理的场景,如问答系统、内容生成等。
🔥 crownelius/Crow-9B-Opus-4.6-Distill-Heretic_Qwen3.5 是一款基于 Qwen 3.5 架构的 9B 参数模型,经过从 Claude Opus 4.6 精心蒸馏而来。该模型在保持深度推理、细致格式化和遵循指令能力的同时,具有高效的运行性能。它适用于推理、写作、编码和长篇对话,特别适合在消费级 GPU 和边缘设备上运行。模型在多个基准测试中表现出色,具有开源协议 Apache-2.0,适合在多种场景下使用。
Qwen/Qwen3.5-9B是一款通用大模型,具备9B参数,支持多模态学习。其核心技术包括多模态融合训练、高效的混合架构、可扩展的强化学习泛化能力、全球语言覆盖和下一代训练基础设施。在基准测试中表现出色,尤其在多模态理解和推理任务上。适用于需要多语言、多模态理解和高效推理的场景,如对话系统、内容生成等。
Qwen/Qwen3.5-4B是一款通用大模型,具有4B参数,采用多模态学习技术。其核心能力包括高效的混合架构、可扩展的强化学习泛化能力以及全球语言覆盖。在基准测试中表现出色,尤其在多模态任务上。该模型适用于需要多语言能力和跨模态理解的场景,具有开源协议、高效的推理性能和与流行框架的兼容性。
Qwen3.5-35B-A3B是一款定位在通用大模型领域的LLM,具备高效的混合架构和强大的多模态学习能力。该模型具有35B的参数量,支持1M的上下文长度,采用Apache-2.0开源协议。在性能上,Qwen3.5在多个基准测试中表现出色,尤其在多模态任务上具有显著优势。其主要应用场景包括多语言处理、代码生成和视觉理解等,适合需要高性能和高效推理的应用。
Qwen3.5-0.8B是一款通用大模型,具有0.8B参数,采用统一的视觉语言基础架构,支持多语言和模态。其核心能力包括高效的混合架构、可扩展的强化学习泛化能力以及全球语言覆盖。在MMLU、GPQA、IFEval等基准测试中表现出色。适用于原型设计、特定任务微调和研发等。
GLM-5是一款针对复杂系统工程和长期目标代理任务的大语言模型。它具有744亿参数,支持中英双语。GLM-5在预训练和后训练方面均有显著提升,尤其在推理、编码和代理任务上表现出色。其核心技术包括DeepSeek Sparse Attention(DSA)和异步RL基础设施slime,旨在提高训练效率和推理效率。模型在多个基准测试中表现优异,是开源模型中的佼佼者。
🔥 unsloth/Qwen3.5-35B-A3B-GGUF 是一款基于 Qwen/Qwen3.5-35B-A3B 的多模态扩展模型,定位为通用大模型。该模型具有35B参数,支持图像到文本的转换,具备代码生成和工具调用能力。在性能上,GGUFs刷新后,模型在工具调用和编码性能上有所提升。该模型开源协议为Apache-2.0,适用于需要高性能代码生成和多模态交互的场景。
Qwen/Qwen3.5-2B是一款定位为通用大模型的LLM,具有2B参数量,支持多模态学习。其核心技术包括早期融合的多模态训练、高效的混合架构、可扩展的强化学习泛化能力、全球语言覆盖以及下一代训练基础设施。在性能上,Qwen3.5在多个基准测试中表现出色,具有强大的推理能力和多语言处理能力。该模型适用于原型设计、特定任务的微调和研发等用途,具有开源协议、高效的推理效率和与流行推理框架的兼容性。
HauhauCS/Qwen3.5-9B-Uncensored-HauhauCS-Aggressive 是一款通用大模型,具有9B参数和32层,支持多语言和上下文长度可扩展至1M。该模型在HuggingFace平台上具有较高下载量和点赞数,其核心能力在于无审查的文本生成,具有更强的拒绝处理能力。在性能表现上,该模型在MMLU、GPQA、IFEval等基准测试中表现良好,具有多模态支持,适用于需要无审查文本生成的场景。其开源协议为Apache-2.0,硬件需求较高,推理效率中等,与vLLM、TGI等流行推理框架兼容。
模型定位:通用大模型,规模庞大,参数量达35B。核心能力:基于Qwen/Qwen3.5-35B-A3B,采用abliterated技术去除拒绝词,支持图像-文本-文本转换。性能表现:未提供具体基准测试结果,但强调 uncensored 特性。主要应用场景:适用于需要大量上下文和丰富表达的场景,如对话系统。使用考量:开源协议Apache-2.0,硬件需求高,推理效率需进一步评估。
Phi-4-Reasoning-Vision-15B 是微软开发的多模态推理模型,定位为多模态模型。该模型具有15B参数,支持图像和文本的多模态交互,具备推理和数学能力。在多个视觉问答基准测试中表现优异,如AI2D、ChartQA等,准确率在75.2%至88.2%之间。该模型适用于需要多模态推理和数学计算的场景,如教育、科研等。其开源协议为MIT,对硬件要求较高,推理效率良好。
Lightricks/LTX-2.3是一款专注于图像到视频生成的基础模型,定位为多模态模型。它基于DiT架构,具有高效的音频和视频生成能力,支持多种语言和格式。该模型在HuggingFace平台上具有较高的下载量和点赞数,表明其在社区中受到认可。LTX-2.3在性能上表现出色,尤其在图像到视频转换任务上具有显著优势。其开源协议和丰富的应用场景使其在多媒体内容创作领域具有广泛应用潜力。
🔥 unsloth/Qwen3.5-9B-GGUF 是一款基于 Qwen3.5-9B 的多模态扩展模型,定位为通用大模型。其核心技术包括早期融合的多模态学习、Transformer 架构和 GGUF 技术,支持图像到文本的转换。该模型在 MMLU、GPQA、IFEval 等基准测试中表现出色,具有强大的推理和代码生成能力。开源协议为 Apache-2.0,适用于多种硬件平台,与 vLLM、TGI 等框架兼容。
🔥 unsloth/Qwen3.5-4B-GGUF 是一款基于 Qwen3.5-4B 的多模态扩展模型,定位为通用大模型。其核心技术包括早期融合的多模态学习、Transformer 架构和 GGUF 技术。在性能上,该模型在多个基准测试中表现出色,具有强大的推理和代码生成能力。模型支持本地微调,并兼容多种推理框架。其开源协议为 Apache-2.0,适合在多种硬件平台上高效运行。
暂无摘要
这篇论文提出了Latent Particle World Model (LPWM),一种自监督的以对象为中心的世界模型,能够从视频数据中自动发现关键点、边界框和对象掩码,从而学习丰富的场景分解。LPWM通过新颖的潜在动作模块对随机粒子动力学进行建模,并在多个真实世界和合成数据集上实现了最先进的性能。该模型不仅适用于随机视频建模,还适用于决策制定,包括目标条件模仿学习。
暂无摘要
这篇论文提出了AgentVista,一个用于评估通用多模态代理的基准,它通过结合现实世界中的视觉场景和复杂的工具使用,挑战了现有多模态基准的局限性。AgentVista涵盖了25个子领域,要求代理进行跨模态的长期工具交互,包括网络搜索、图像搜索、页面导航和基于代码的操作。实验结果表明,现有模型在执行长期多模态工具使用方面存在显著差距。
这篇论文提出了SageBwd,一种可训练的低比特注意力机制,通过量化注意力矩阵乘法来加速模型推理,并通过实验和理论分析解决了低比特注意力在预训练中与全精度注意力性能差距的问题。
这篇论文提出了DreamWorld,一个统一的视频生成框架,通过联合世界建模范式整合互补的世界知识,以捕捉视频的时序动态、空间几何和语义一致性。它解决了现有视频生成模型在表面合理性上的局限性,并提出了Consistent Constraint Annealing (CCA)和Multi-Source Inner-Guidance来提高世界一致性。
这篇论文提出了DARE,一种通过分布感知检索将LLM代理与R统计生态系统对齐的方法。DARE通过融合分布特征和函数元数据来提高检索的相关性,并构建了RPKB知识库和RCodingAgent代理,以实现更可靠的R代码生成和统计分析任务。
这篇论文提出了OPSDC(On-Policy Self-Distillation for Reasoning Compression),一种通过自我蒸馏模型简洁推理行为的方法。该方法通过在模型上施加“简洁”的指令来获取教师logits,并最小化学生在自己的rollouts上的每token反向KL,从而实现推理压缩。实验表明,OPSDC在MATH-500和AIME 2024任务上均取得了显著的性能提升和token减少。
这篇论文提出了MM-Lifelong数据集和Recursive Multimodal Agent (ReMA)模型,旨在解决视频理解中由于自然生活场景与密集剪辑差异导致的理解问题。MM-Lifelong数据集通过不同时间尺度(日、周、月)捕捉时间密度变化,而ReMA模型通过动态内存管理迭代更新递归信念状态,有效解决了当前模型在处理长时间序列数据时的瓶颈问题。
这篇论文提出了一种名为Locality-Attending Vision Transformer的改进方法,通过引入可学习的高斯核来调节自注意力机制,使模型在图像分割任务中能够更好地关注局部细节,同时保持其在图像分类任务上的性能。
这篇论文提出了UltraDexGrasp,一个用于双臂机器人的通用灵巧抓取框架,通过合成数据学习抓取策略。该框架结合了基于优化的抓取合成和基于规划的演示生成,创建了一个大规模的抓取数据集,并开发了一个简单的抓取策略,在真实世界中的抓取成功率达到了81.2%。
这篇论文提出了MOOSE-Star,一个用于科学发现的统一框架,通过分解子任务、动机引导的分层搜索和有界组合来降低训练和推理的复杂性,从而实现可处理的训练和可扩展的推理。
这篇论文提出了一种名为RealWonder的实时物理动作条件视频生成系统。该系统通过物理模拟将连续动作转换为视觉表示,从而实现从单张图像生成动作条件视频。RealWonder集成了3D重建、物理模拟和精简的视频生成器,能够在480x832分辨率下达到13.2 FPS,支持对刚体、可变形物体、流体和颗粒材料的交互式探索。
商汤科技与南洋理工大学合作推出了NEO-unify,这是一种端到端原生多模态统一模型,旨在直接处理原始像素和文本输入,摆脱传统多模态AI中视觉编码器和变分自编码器的依赖,实现文本和视觉的统一学习,并展现出高数据扩展效率。
NXAI 发布了其边缘计算时间序列模型 TiRex 的初步实验室结果,该模型在推理速度和能耗方面优于竞争对手 Chronos-2,预测质量略低但可接受。TiRex 被认为适合工业应用,并在多种边缘设备上进行了测试,包括工业 PC、树莓派和 NVIDIA Jetson 等。NXAI 正在开发 TiRex2,预计在未来几周内发布。
MiniMax AI 发布了Forge,一个可扩展的Agent强化学习框架和算法,旨在解决大规模Agent RL在系统吞吐量、训练稳定性和Agent灵活性之间的冲突。Forge通过灵活的系统架构、算法设计、优化的异步调度和极致的训练-推理效率,实现了对复杂现实世界Agent的大规模强化学习训练,并在MiniMax M2.5模型中取得了显著成果。
暂无摘要
Photoroom宣布开源其文本到图像模型PRX,该模型现已在Hugging Face的Diffusers中提供。此次发布旨在开放整个训练过程,包括训练方法、经验教训等,旨在成为对文本到图像模型感兴趣的实用资源。Photoroom还计划分享一系列深入探讨模型设计实验、架构基准、加速技巧和后训练方法的文章。
Hugging Face宣布将CARLA,一个3D自动驾驶模拟器,集成到OpenEnv中,并支持视觉输入,以实现使用TRL和HF Spaces进行强化学习训练汽车。这一集成使得研究者能够训练语言模型和视觉语言模型在3D场景中进行决策,并提供了详细的实现方法和训练示例。
本文深入探讨了当前大型语言模型(LLM)背后的关键架构,包括自回归模型、状态空间模型和扩散模型,并介绍了它们的工作原理和应用特点。文章强调了理解这些基础架构对于优化模型性能和效率的重要性,并提供了对LLM技术发展的全面概览。
本文介绍了从GRPO到DAPO再到GSPO的强化学习技术演进,重点关注了在大型语言模型中如何优化长文本输出和复杂任务的性能。文章详细讨论了每种方法的原理、优势和局限性,并展示了如何通过改进采样、剪枝和梯度计算等细节来提高效率和稳定性。
Hugging Face发布了Tucano 2,一套针对葡萄牙语的开源语言模型,旨在提高透明度、性能和可复现性。这些模型基于大规模的葡萄牙语语料库,包括教育、毒性和指令质量分类器,以及用于编码、工具调用、结构化输出、推理和数学的监督微调数据集。
本文介绍了KV缓存技术,这是一种优化Transformer推理效率的方法。通过缓存中间计算结果,模型可以避免重复计算,从而加快文本生成速度,提高效率。
瑞典国家图书馆的KBLab发布了easytranscriber,这是一个自动语音识别库,旨在提供高效、可扩展且具有精确词级别时间戳的转录服务。easytranscriber在速度上比WhisperX快35%到102%,并引入了GPU加速的强制对齐、并行加载和预取音频文件以及批量推理等优化措施,提高了大规模转录的效率。
Hugging Face发布了Kanon 2 Enricher,这是世界上第一个分层图化模型,能够将非结构化文档转化为结构化知识图谱。该模型通过Isaacus API提供,并引入了Isaacus法律图谱模式(ILGS),旨在支持开放的法律AI和数据研究。Kanon 2 Enricher在法律分析和监管加速方面具有广泛应用,并计划未来发布公共法律知识图谱(Blackstone Graph)和Kanon 2 Enricher的继任者Kanon 3 Enricher。
本文介绍了名为“abliteration”的技术,该技术可以取消任何大型语言模型(LLM)的审查机制,使其能够响应所有类型的提示。这项技术通过修改模型权重来阻止模型拒绝请求,从而提高了模型的灵活性和响应能力。
本文介绍了如何从头开始构建一个简单的检索增强生成(RAG)系统,该系统结合了信息检索和文本生成,以增强语言模型的表现。文章详细解释了RAG系统的关键组件,包括检索模型和语言模型,并提供了使用Python和ollama实现RAG系统的示例代码。
Photoroom发布了其文本到图像基础模型PRX的架构实验结果,该模型采用混合Transformer架构,旨在提高文本到图像生成模型的效率、稳定性和对齐性。PRX在性能、吞吐量和内存效率之间取得了最佳平衡,并采用了T5Gemma作为文本编码器,以及FluxVAE和Deep-Compression Autoencoders (DC-AE)作为潜在空间自动编码器。Photoroom计划开源整个开发过程,并鼓励社区参与和贡献。
暂无摘要
暂无摘要
Hugging Face宣布推出Konkani LLM项目,旨在将Konkani语言引入现代AI生态系统。该项目包括一个大规模的多脚本指令微调数据集Konkani-Instruct-100k,以及针对Konkani语言进行微调的多个大型语言模型。这些模型在翻译和转写任务上表现出色,有助于提高低资源语言的数字数据。