hsliuping/TradingAgents-CN:中文LLM赋能股票分析平台
TradingAgents-CN是一个面向中文用户的股票分析学习平台,它基于多智能体LLM提供股票研究与策略实验工具。该项目通过集成多种LLM和金融数据源,为研究者、开发者提供强大的股票分析能力,填补了LLM在金融领域的应用空白,并通过中文界面和A股数据支持,提升了易用性和实用性。
精选 74 篇,从 760+ 条中筛选
TradingAgents-CN是一个面向中文用户的股票分析学习平台,它基于多智能体LLM提供股票研究与策略实验工具。该项目通过集成多种LLM和金融数据源,为研究者、开发者提供强大的股票分析能力,填补了LLM在金融领域的应用空白,并通过中文界面和A股数据支持,提升了易用性和实用性。
MoneyPrinterTurbo是一个面向普通用户和开发者的视频生成平台,通过AI大模型一键生成高清短视频,解决视频制作门槛高、流程复杂的问题。它提供视频文案、素材、字幕、音乐合成等功能,支持多种视频尺寸和语言,易于使用,填补了视频制作领域的空白。
TauricResearch的TradingAgents是一个多智能体LLM金融交易框架,旨在模拟真实交易公司的动态。它通过集成多种LLM作为分析师、交易员和风险管理团队,提供市场分析和交易决策支持。该项目为研究者、应用开发者提供了一种独特的金融交易分析工具,其核心价值在于其创新的多智能体架构和对LLM的灵活集成。
NousResearch/hermes-agent是一个基于Python的开源AI代理平台,旨在提供自我改进的AI代理服务。该项目旨在解决LLM生态中代理的智能化和个性化问题,通过内置学习循环,从经验中创建和改进技能,支持多平台交互,并提供强大的工具集和自动化功能。其技术架构亮点在于支持多种模型集成和灵活的部署方式,为研究者、开发者及企业提供了一种高效、可扩展的AI代理解决方案。
supermemoryai/supermemory项目是一个专注于记忆引擎和应用的平台,旨在提供快速、可扩展的记忆API,解决信息过载和知识管理难题。该项目通过自然语言聊天和AI工具集成,为用户提供高效的信息存储和检索服务,填补了个人和企业知识管理的空白。其技术栈以TypeScript为主,集成了多种AI工具,展现了应用层创新的亮点。在LLM生态中,supermemoryai/supermemory通过其独特的记忆管理和AI集成功能,提供了独特的价值。
Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-GGUF 是一个基于 Qwen3.5 架构的推理模型,专注于结构化推理逻辑。该模型采用 CoT 技术和 Claude-4.6 Opus 的推理链进行微调,具有高效的推理效率和减少冗余认知循环的能力。模型定位为推理模型,具有 27B 参数量,支持多种语言,适用于需要复杂推理和精确解决方案的场景。性能方面,模型在相关基准测试中表现良好,具有开源协议,适合在多种硬件和推理框架上使用。
Tesslate/OmniCoder-9B是一款针对代码生成和推理的领域大模型,基于Qwen3.5-9B架构,参数量达到9B。该模型在代码生成、工具使用、终端操作和多步推理等任务上表现出色,具有强大的自恢复能力和遵循LSP诊断的能力。在AIME 2025、GPQA Diamond和Terminal-Bench 2.0等基准测试中取得了优异的成绩。模型开源,适用于需要高效代码生成和推理的场景。
Qwen3.5-35B-A3B是一款定位在通用大模型领域的LLM,具备高效的混合架构和强大的多模态学习能力。该模型具有35B的参数量,支持1M的上下文长度,采用Apache-2.0开源协议。在性能上,Qwen3.5在多个基准测试中表现出色,尤其在多模态任务上具有显著优势。其主要应用场景包括多语言处理、代码生成和视觉理解等,适合需要高性能和高效推理的应用。
HauhauCS/Qwen3.5-9B-Uncensored-HauhauCS-Aggressive 是一款通用大模型,具有9B参数和32层,支持多语言和上下文长度可扩展至1M。该模型在HuggingFace平台上具有较高下载量和点赞数,其核心能力在于无审查的文本生成,具有更强的拒绝处理能力。在性能表现上,该模型在MMLU、GPQA、IFEval等基准测试中表现良好,具有多模态支持,适用于需要无审查文本生成的场景。其开源协议为Apache-2.0,硬件需求较高,推理效率中等,与vLLM、TGI等流行推理框架兼容。
Lightricks/LTX-2.3是一款专注于图像到视频生成的基础模型,定位为多模态模型。它基于DiT架构,具有高效的音频和视频生成能力,支持多种语言和格式。该模型在HuggingFace平台上具有较高的下载量和点赞数,表明其在社区中受到认可。LTX-2.3在性能上表现出色,尤其在图像到视频转换任务上具有显著优势。其开源协议和丰富的应用场景使其在多媒体内容创作领域具有广泛应用潜力。
鱼声科技S2 Pro是一款领先的文本到语音(TTS)模型,专注于精细的韵律和情感控制。该模型采用双自回归架构,结合强化学习和超过10M+小时的音频数据训练,支持80多种语言。S2 Pro在LLM生态中定位为特定领域微调模型,具有多语言能力和指令遵循能力。其在TTS任务上表现出色,具有高效的推理性能和良好的开源协议。主要应用场景包括多语言语音合成、个性化语音助手等。
HauhauCS/Qwen3.5-35B-A3B-Uncensored-HauhauCS-Aggressive 是一个基于 Qwen3.5-35B-A3B 的开源模型,专注于图像-文本到文本的转换。该模型定位为多模态模型,具有无审查的特性,适用于需要生成丰富文本内容的应用。其核心技术包括MoE架构和Qwen3.5-35B-A3B基座模型,支持多语言,上下文长度大,参数量高。在性能上,该模型在多个基准测试中表现出色,尤其在图像-文本转换任务中具有显著优势。主要应用场景包括内容生成、图像描述等。该模型开源,硬件需求较高,推理效率中等。
Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled 是一个基于 Qwen3.5 架构的推理模型,专注于结构化推理逻辑。该模型通过从 Claude-4.6 Opus 中提取的 CoT 技术进行微调,具有高效的推理效率和减少冗余认知循环的能力。模型定位为推理模型,具有 27B 参数量,支持文本生成。在性能上,模型在推理任务上表现出色,特别适合需要复杂推理和逻辑分析的场景。开源协议为 Apache-2.0,适合在多种硬件和推理框架上使用。
Qianfan-OCR是一款由百度Qianfan团队开发的4B参数端到端文档智能模型,定位为多模态模型。其核心技术为统一的视觉-语言架构,支持直接从图像到Markdown的转换,具有文档解析、布局分析和文档理解等功能。在OmniDocBench和OlmOCR Bench等基准测试中表现出色,尤其在文档解析和OCR任务上取得了领先成绩。该模型适用于文档智能处理、信息提取等场景,具有开源协议Apache-2.0,适合在多种硬件和推理框架上使用。
RoyalCities/Foundation-1是一款专注于音乐生成的领域大模型,旨在为现代音乐制作提供结构化的文本到样本生成。该模型具有独特的音乐结构理解能力,能够生成与节奏同步、关键和感知、条形感知的样本,适用于音乐制作工作流程。其核心技术包括基于stabilityai/stable-audio-open-1.0的基座模型,并支持多种音乐生成相关标签。在性能表现上,该模型在音乐生成领域具有优势,但在通用基准测试中的排名未提及。实用考量方面,该模型的开源协议、硬件需求和推理效率等信息未明确提供。
Qwen/Qwen3.5-9B是一款通用大模型,具备9B参数,支持多模态学习。其核心技术包括多模态融合训练、高效的混合架构、可扩展的强化学习泛化能力、全球语言覆盖和下一代训练基础设施。在基准测试中表现出色,尤其在多模态理解和推理任务上。适用于需要多语言、多模态理解和高效推理的场景,如对话系统、内容生成等。
Tesslate/OmniCoder-9B-GGUF是一款基于Tesslate/OmniCoder-9B的GGUF量化模型,定位为通用大模型,具有9B参数量。其核心能力在于代码生成和智能代理,采用Transformer架构,支持多种量化级别,适用于不同硬件环境。在性能上,模型在代码生成任务上表现出色,但在基准测试中的具体排名未提及。主要应用场景包括代码生成、智能对话等,使用时需考虑开源协议Apache-2.0,硬件需求中等,推理效率较高。
Jackrong/Qwen3.5-9B-Claude-4.6-Opus-Reasoning-Distilled-v2 是一个专注于推理优化的推理模型,定位为推理模型。该模型基于Qwen3.5-9B进行微调,采用Claude 4.6 Opus风格的推理样本,通过精炼的推理框架和去除冗余内部循环,显著提高了推理效率和准确性。模型在HumanEval和HumanEval+基准测试中表现出色,具有高效的推理速度和成本效益。主要应用场景包括逻辑推理、数学问题解决等,适合对推理能力有较高要求的场景。
Nemotron-Cascade-2-30B-A3B是一款开源的30B MoE模型,具备强大的推理和代理能力。该模型在数学和计算机科学竞赛中表现出色,具有推理和指令遵循模式。其核心技术包括MoE架构、强大的推理能力,以及针对特定数据集的微调。在基准测试中,该模型在数学推理任务中取得了优异成绩。适用于需要高级推理能力的应用场景,如数学问题解决和代码生成。
Jackrong/Qwen3.5-9B-Claude-4.6-Opus-Reasoning-Distilled-v2-GGUF 是一个推理优化版本的大语言模型,专注于提高推理效率和准确性。该模型基于Qwen3.5-9B进行微调,结合了Claude 4.6 Opus风格的推理样本,特别强调在减少内部冗余循环的同时提升跨任务泛化能力。模型在推理速度和成本效益上有所提升,同时在基准测试中表现出色。适用于需要高效推理和准确性的场景,如代码生成、数学推理等。
zai-org/GLM-OCR是一款基于GLM-V架构的多模态OCR模型,专注于复杂文档理解。该模型采用多令牌预测损失和稳定的全任务强化学习,结合CogViT视觉编码器和GLM-0.5B语言解码器,实现高效训练和识别。在OmniDocBench V1.5基准测试中排名第一,适用于复杂表格、代码密集型文档等场景,支持vLLM、SGLang和Ollama等推理框架,易于集成到现有生产流程中。
Chandra 2 是一款专注于文本提取的OCR模型,定位为特定领域微调模型。它基于transformers库,具有高精度的文本提取能力,特别擅长处理图像和PDF中的文本,并保留布局信息。该模型在Olmocr基准测试中取得了85.9%的分数,支持90多种语言。Chandra 2适用于需要高精度文本提取和布局保留的场景,如文档处理、信息提取等。
该论文提出了一种通过细粒度潜在任务发现进行可扩展提示路由的方法,通过自动化发现潜在任务类型和任务感知质量估计来解决大规模语言模型池中模型选择的问题,实现了性能优化和成本管理。
这篇论文研究了非周期性层次结构在无损压缩中是否比周期性替代品具有结构优势。通过展示斐波那契准晶体镶嵌可以避免周期性层次结构中存在的有限深度崩溃问题,论文提出了斐波那契层次结构在无损压缩中的优势,并分析了其在不同规模下的性能表现。
这篇论文提出了XKD-Dial,一个用于双语(英语-印地语)知识基础对话生成的渐进式四阶段训练流程,旨在减少幻觉并提高对话的透明度。该流程包括多语言适应、英语对话强化学习、双语对话强化学习和基于引用的奖励的GRPO对齐。论文通过多种解释性分析,如交叉注意力对齐、集成梯度和遮挡因果基础,揭示了引用行为的学习过程,并证明了引用基础强化学习可以将幻觉降低到0.0%。
这篇论文介绍了AdditiveLLM2,一个基于Gemma 3模型的指令微调变体,用于增材制造的多模态、领域自适应的大型语言模型。该模型使用约5000万个标记的小数据集进行训练,并在增材制造领域特定任务上表现出色,实现了超过90%的准确率。
这篇论文提出了Safe Flow Q-Learning(SafeFQL),一种结合了Hamilton--Jacobi可达性启发式安全价值函数和高效一步流策略的离线安全强化学习方法。SafeFQL通过自洽Bellman递归学习安全价值,通过行为克隆训练流策略,并将其蒸馏为一步演员,以实现无拒绝采样的安全动作选择。该方法在有限数据近似误差下,通过符合预测校准步骤调整安全阈值,提供有限样本概率安全覆盖。实验表明,SafeFQL在离线训练成本略高的情况下,实现了比扩散式安全生成基线更低的推理延迟,适用于实时安全关键部署。
这篇论文提出了AwaRes,一个基于低分辨率全局视图和按需检索高分辨率图像片段的框架,用于提高视觉语言模型(VLMs)的效率。该方法通过自动构建监督数据集,结合冷启动监督学习和多轮GRPO训练,实现了在保持准确性的同时提高计算效率。
这篇论文提出了Geometric Latent Diffusion (GLD)框架,该框架利用几何基础模型的几何一致特征空间作为多视图扩散的潜在空间,从而在新型视图合成(NVS)中实现高质量的图像生成。
这篇论文提出了一种名为OpenResearcher的开源管道,用于长周期深度研究轨迹合成。该管道通过离线执行搜索和浏览循环,解决了现有数据收集管道依赖专有API的问题,从而降低了大规模轨迹合成的成本和难度。使用GPT-OSS-120B作为教师模型,该管道合成了超过97K个轨迹,并在多个基准测试中实现了显著的性能提升。
这篇论文提出了FluidWorld,一个基于反应-扩散动力学的世界模型,通过偏微分方程(PDEs)进行预测,以替代传统的基于Transformer的预测方法。FluidWorld在视频预测任务中展现出比Transformer和ConvLSTM更低的重建误差,更高的空间结构保留和更有效的维度,同时保持了多步预测的连贯性。
这篇论文提出了一种名为Sparse Embedding Modulation (SEM)的框架,用于在视觉-语言模型中后处理去偏。SEM通过在稀疏自动编码器(SAE)的潜在空间中操作,将CLIP文本嵌入分解为可分离的特征,从而识别并调节与偏差相关的神经元,同时保留与查询相关的神经元,实现了更精确的非线性干预,并在多个数据集上取得了显著的公平性提升。
这篇论文提出了一种名为F4Splat的新方法,用于3D Gaussian Splatting,通过预测性稠密化技术,自适应地分配高斯点,以减少冗余并提高重建质量,同时显著减少所需的高斯点数量。
这篇论文提出了BubbleRAG,一种针对黑盒知识图谱的检索增强生成方法,旨在解决大型语言模型在知识密集型任务中的幻觉问题。BubbleRAG通过优化信息子图检索,结合语义锚点分组、启发式气泡扩展、复合排名和推理感知扩展等技术,在多跳问答基准测试中实现了最先进的性能。
这篇论文提出了一种名为SNAP的演讲者消除框架,用于语音深度伪造检测。该框架通过估计演讲者子空间并应用正交投影来抑制演讲者依赖成分,从而隔离合成残差特征中的合成伪迹,减少演讲者纠缠,提高检测器的性能。
这篇论文提出了一种名为LoRA^2的个性化图像生成方法,通过在微调过程中自适应地调整每个层的秩,以优化性能和内存消耗之间的平衡。该方法通过为秩的位置分配重要性顺序,鼓励在需要时创建更高的秩,从而在29个主题上实现了与DINO、CLIP-I和CLIP-T相当的性能,同时所需的内存和秩更低。
这篇论文提出了REVERE,一个用于科学工作流程的反思进化研究工程师框架,通过从全局训练上下文中学习,识别跨仓库执行轨迹中的重复失败模式,并将其提炼为可重用的启发式方法,从而在研究编码任务上提高了性能。
这篇论文提出了RoboAlign,一个用于视觉-语言-动作(VLA)模型的多模态大语言模型(MLLM)训练框架,通过零样本自然语言推理和强化学习来提高动作准确性,从而在测试时实现语言与低级动作的对齐,显著提升了VLA的性能。
这篇论文提出了一个名为通用正态嵌入(UNE)的新概念,它假设生成模型和视觉编码器共享一个近似高斯的潜在空间。通过引入NoiseZoo数据集,论文展示了生成噪声在线性方向上编码了有意义的语义,并允许在不改变架构的情况下进行可控的编辑。
这篇论文提出了一种名为SpatialBoost的框架,通过将2D图像中的密集3D空间信息转换为语言表达,并利用大型语言模型(LLM)将这些空间知识注入到预训练的视觉编码器中,从而增强视觉编码器的空间感知能力。该方法通过多轮思维链(CoT)推理过程逐步融入密集空间知识,并在多个基准测试中实现了性能提升。
这篇论文提出了一种系统性的方法来简化长时程工具使用智能体的强化学习过程。通过在TravelPlanner测试平台上进行实验,论文分析了奖励塑造、模型缩放、数据组成、算法选择和环境稳定性等五个方面的设计空间,并提出了七个关键发现,包括奖励和算法的选择与模型规模相关,以及环境稳定性对防止策略退化的重要性。
这篇论文提出了一个名为GDDS的统一框架,用于离散扩散建模,支持对大型离散状态空间进行任意噪声处理。该框架涵盖了所有现有的离散扩散方法,同时允许在噪声动态选择上具有更大的灵活性。它通过使用均匀化实现快速任意噪声,并通过基于快照潜力的简单证据下界(ELBO)进行反向过程,从而允许高效训练标准的生成建模架构。实验表明,该框架在训练效率和生成质量方面优于现有的离散扩散方法,并首次在同等规模上击败了自回归模型。
NVIDIA发布Nemotron 3 Nano 4B,这是Nemotron 3系列中最紧凑的成员,采用混合Mamba-Transformer架构,专为边缘设备部署优化,提供高效、准确的小型语言模型,支持FP8和Q4_K_M GGUF量化,旨在降低模型大小和VRAM使用,提高吞吐量和降低延迟。
SPEED-Bench是一个统一且多样化的基准测试,旨在解决大型语言模型(LLM)推断中推测解码(SD)评估碎片化且不具代表性的问题。它通过引入两个专用数据集拆分和一个统一测量框架,提供了一种评估SD在不同语义领域和实际服务环境下的性能的方法。
暂无摘要
Hugging Face 发布了 ATE-2(Armenian Text Embeddings 2)模型,这是一个用于阿姆哈拉语文本嵌入的最新模型,同时开源了用于阿姆哈拉语文本嵌入的完整生态系统,包括新的基础和大型模型、ArmBench-TextEmbed 标准化基准和底层训练数据集。该模型通过使用少量噪声合成数据展示了在低资源语言(LRLs)文本嵌入方面的突破。
暂无摘要
Hugging Face 发布了其语义分块算法 semchunk 的新 AI 分块模式,该模式利用 Kanon 2 Enricher 模型,显著提高了检索增强生成 (RAG) 的准确性,特别是在法律 RAG 问答任务中。这一更新通过将非结构化文档转换为结构化的知识图谱,提取实体并分割结构元素,从而提升了 RAG 系统的性能。
本文介绍了KV缓存技术,这是一种优化Transformer推理效率的方法。通过缓存中间计算结果,模型可以避免重复计算,从而加快文本生成速度,提高效率。
暂无摘要
NVIDIA近日发布了Alpamayo 1.5模型,这是一个基于推理的自动驾驶汽车(AV)的开放平台,旨在提供更强大的推理模型、灵活的仿真工具和高质量的数据集。该平台包括文本引导的轨迹规划、灵活的多摄像头支持、用户问答等功能,并支持在更广泛的驾驶数据上进行评估。
NVIDIA 发布了首个医疗机器人开放数据集 Open-H-Embodiment,包含 778 小时训练数据,旨在推动医疗机器人领域物理人工智能的发展。同时推出了两个开源模型 GR00T-H 和 Cosmos-H-Surgical-Simulator,用于手术机器人任务和动作条件式手术机器人模拟,以实现更精确和高效的手术操作。
本文介绍了名为“abliteration”的技术,该技术可以取消任何大型语言模型(LLM)的审查机制,使其能够响应所有类型的提示。这项技术通过修改模型权重来阻止模型拒绝请求,从而提高了模型的灵活性和响应能力。
商汤科技与南洋理工大学合作推出了NEO-unify,这是一种端到端原生多模态统一模型,旨在直接处理原始像素和文本输入,摆脱传统多模态AI中视觉编码器和变分自编码器的依赖,实现文本和视觉的统一学习,并展现出高数据扩展效率。
NVIDIA NeMo Retriever团队发布了新一代的智能体检索管道,该管道在多个基准测试中取得了优异的成绩,展示了其在通用性、超越语义相似性检索方面的优势,并采用了ReACT架构和进程内线程安全的单例检索器,以提高速度和可扩展性。
NVIDIA发布了NVIDIA KGMON(NeMo Agent Toolkit)数据探索器,这是一种用于构建自主数据分析智能体的架构,旨在处理多步骤推理、工具调用和迭代数据分析。该架构在DABStep基准测试中排名第一,展示了其在复杂数据分析任务中的高效性和准确性。
本文详细介绍了如何使用PyTorch和Hugging Face工具微调大型语言模型(LLM),以将英文翻译成尤达语(Yoda-speak)。通过量化模型、设置低秩适配器(LoRA)、格式化数据集以及使用Hugging Face的`trl`库中的`SFTTrainer`进行监督式微调,展示了整个过程。LoRA技术允许在量化模型上进行高效训练,显著减少了可训练参数的数量,使其仅占原始大小的1%或更少,从而能在资源有限的消费级GPU上进行训练。
这篇公告详细介绍了小型语言模型(SLM)的概念、制作方法、优势、局限性以及在实际应用中的使用。SLM是一种轻量级的语言模型,适用于资源受限的环境,如智能手机和嵌入式系统。它们保留了核心的自然语言处理能力,同时具有低计算需求、低能耗和快速推理等优势。公告还介绍了如何使用Ollama和PocketPal等工具在边缘设备上运行SLM,以及如何通过微调来提高模型性能。
本文介绍了从GRPO到DAPO再到GSPO的强化学习技术演进,重点关注了在大型语言模型中如何优化长文本输出和复杂任务的性能。文章详细讨论了每种方法的原理、优势和局限性,并展示了如何通过改进采样、剪枝和梯度计算等细节来提高效率和稳定性。
这篇公告详细记录了一位AI技术分析师在训练Action Chunking Transformer (ACT)模型上的经历,包括遇到的挑战、解决方案和经验教训。文章描述了如何使用SO-101机器人进行数据收集和训练,以及如何通过改进硬件设置、数据收集流程和评估流程来提高模型的性能。
Sionic AI发布了一项名为Claude Code Skills的系统,旨在通过构建团队记忆来提高机器学习实验的效率和知识共享。该系统通过自动化捕捉和传播实验中的洞察,包括成功和失败的尝试,帮助研究人员避免重复错误并快速学习。该系统主要通过两个Claude Code命令实现:/retrospective和/advise,分别用于记录和查询实验知识。
OpenAI基金会宣布了其资本重组后的新战略,计划在未来一年内至少投资10亿美元,用于生命科学与疾病治疗、就业与经济影响、AI韧性及社区项目,旨在通过AI加速医疗突破、推动科学发现,并解决AI发展带来的新挑战。
OpenAI 通过引入由 Agentic Commerce Protocol (ACP) 支持的丰富购物体验,增强了 ChatGPT 的产品发现功能,使用户能够通过对话方式描述购物需求,进行产品视觉浏览和比较,从而简化购物决策过程,并提高购物效率。
OpenAI 发布了针对青少年AI体验的安全政策,与开源安全模型gpt-oss-safeguard结合,旨在帮助开发者构建更安全的AI系统,并解决青少年特有的风险,如图形暴力和有害内容。
这篇论文提出了KLDrive,一个基于知识图谱增强的大型语言模型推理框架,用于自动驾驶中的细粒度3D场景推理。该框架通过构建可靠的场景知识图谱和执行基于事实的推理,显著提高了自动驾驶场景问答的准确性。
这篇论文提出了ARYA,一个基于物理约束的、可组合的、确定性的世界模型架构。ARYA通过纳米模型、可组合性、因果推理、确定性和架构AI安全五个原则,实现了对世界模型的所有典型要求,并通过一个由AARA(ARYA自主研究代理)协调的分层系统,实现了线性扩展、稀疏激活、选择性未训练和20秒内的训练周期。其最重要的贡献是不可触犯的安全内核,确保了随着自主性的增加,人类控制得以持续。
这篇论文提出了CoDiLA,一种在扩散语言模型中实现局部一致并行解码的方法。CoDiLA通过将局部解码委托给一个小型的辅助自回归模型,在保持模型核心能力的同时,实现了并行块生成,有效消除了连贯性伪影,提高了代码生成的准确性和速度。
这篇论文提出了一种名为SynPO的新方法,用于视频详细字幕生成。SynPO通过结合描述性和偏好优化,解决了现有方法在捕捉视频动态和详细信息方面的不足。它通过构建偏好对,并使用视觉语言模型(VLM)和大型语言模型(LLM)的辅助,实现了成本与数据质量的平衡。SynPO优化了训练效率,并在多个视频字幕基准测试和NLP任务中取得了显著的性能提升。
Seed1.8 是一种面向通用现实世界智能体的基础模型,它不仅支持多轮交互、工具使用和多步骤执行,还保持了强大的语言和视觉语言性能。该模型提供了统一的智能体接口,包括搜索、代码生成和执行,以及图形用户界面交互。它通过标准基准和与特定应用相关的流程进行了评估,并针对交互式现实世界用例进行了发布。
这篇论文提出了AmbiSQL系统,一个交互式的文本到SQL查询转换系统,旨在检测和解决查询歧义问题。该系统通过细粒度的歧义分类和用户反馈来提高SQL生成的准确性。
这篇论文提出了一种名为SciNav的通用代理框架,用于科学编码任务。该框架利用大型语言模型(LLMs)和树搜索过程,通过相对判断来选择最有潜力的解决方案,从而在科学编码任务中实现更有效的解决方案探索。
这篇论文提出了PAVE,一个用于检索增强语言模型(RAG)的推理时验证层,通过将检索到的上下文分解为条件事实,评估答案支持度,并修订低支持度输出,从而提高证据支持的问答准确性。
这篇论文提出了FinReflectKG -- HalluBench,一个用于评估金融问答系统中知识图谱增强的幻觉检测方法的基准。通过在SEC 10-K文件上进行的实验,论文评估了六种检测方法,并发现基于LLM的判断和嵌入方法在无噪声条件下表现最佳,而引入噪声后,大多数方法性能显著下降,但嵌入方法相对稳健。