hsliuping/TradingAgents-CN:中文LLM赋能股票分析平台
TradingAgents-CN是一个面向中文用户的股票分析学习平台,它基于多智能体LLM提供股票研究与策略实验工具。该项目通过集成多种LLM和金融数据源,为研究者、开发者提供强大的股票分析能力,填补了LLM在金融领域的应用空白,并通过中文界面和A股数据支持,提升了易用性和实用性。
精选 73 篇,从 420+ 条中筛选
TradingAgents-CN是一个面向中文用户的股票分析学习平台,它基于多智能体LLM提供股票研究与策略实验工具。该项目通过集成多种LLM和金融数据源,为研究者、开发者提供强大的股票分析能力,填补了LLM在金融领域的应用空白,并通过中文界面和A股数据支持,提升了易用性和实用性。
supermemoryai/supermemory项目是一个专注于记忆引擎和应用的平台,旨在提供快速、可扩展的记忆API,解决信息过载和知识管理难题。该项目通过自然语言聊天和AI工具集成,为用户提供高效的信息存储和检索服务,填补了个人和企业知识管理的空白。其技术栈以TypeScript为主,集成了多种AI工具,展现了应用层创新的亮点。在LLM生态中,supermemoryai/supermemory通过其独特的记忆管理和AI集成功能,提供了独特的价值。
Strix是一个面向开发者与安全团队的开源AI安全测试平台,通过模拟黑客行为动态运行代码,发现并验证应用程序中的漏洞。它提供了一套完整的黑客工具,支持团队合作和扩展,并通过实际的概念证明进行真实验证,旨在提高安全测试的效率和准确性。
LiteLLM是一个多功能的LLM API网关和Python SDK,旨在简化对100多个LLM的调用,提供成本跟踪、安全防护、负载均衡和日志记录等功能,服务于开发者、企业及研究机构,通过统一接口访问多种LLM,优化了多模型集成和管理的流程。
Claude Subconscious项目定位为LLM生态中的辅助工具,旨在为Claude Code提供持续的记忆和上下文支持,解决跨会话记忆丢失的问题。其核心功能包括会话监控、代码库读取、记忆累积和背景指导。技术架构上,该项目基于TypeScript开发,利用Letta平台的记忆系统和工具访问能力。在LLM生态中,Claude Subconscious的价值在于其独特的记忆增强功能,为开发者提供更加连贯和智能的编码体验。
Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-GGUF 是一个基于 Qwen3.5 架构的推理模型,专注于结构化推理逻辑。该模型采用 CoT 技术和 Claude-4.6 Opus 的推理链进行微调,具有高效的推理效率和减少冗余认知循环的能力。模型定位为推理模型,具有 27B 参数量,支持多种语言,适用于需要复杂推理和精确解决方案的场景。性能方面,模型在相关基准测试中表现良好,具有开源协议,适合在多种硬件和推理框架上使用。
Tesslate/OmniCoder-9B是一款针对代码生成和推理的领域大模型,基于Qwen3.5-9B架构,参数量达到9B。该模型在代码生成、工具使用、终端操作和多步推理等任务上表现出色,具有强大的自恢复能力和遵循LSP诊断的能力。在AIME 2025、GPQA Diamond和Terminal-Bench 2.0等基准测试中取得了优异的成绩。模型开源,适用于需要高效代码生成和推理的场景。
Qwen3.5-35B-A3B是一款定位在通用大模型领域的LLM,具备高效的混合架构和强大的多模态学习能力。该模型具有35B的参数量,支持1M的上下文长度,采用Apache-2.0开源协议。在性能上,Qwen3.5在多个基准测试中表现出色,尤其在多模态任务上具有显著优势。其主要应用场景包括多语言处理、代码生成和视觉理解等,适合需要高性能和高效推理的应用。
HauhauCS/Qwen3.5-9B-Uncensored-HauhauCS-Aggressive 是一款通用大模型,具有9B参数和32层,支持多语言和上下文长度可扩展至1M。该模型在HuggingFace平台上具有较高下载量和点赞数,其核心能力在于无审查的文本生成,具有更强的拒绝处理能力。在性能表现上,该模型在MMLU、GPQA、IFEval等基准测试中表现良好,具有多模态支持,适用于需要无审查文本生成的场景。其开源协议为Apache-2.0,硬件需求较高,推理效率中等,与vLLM、TGI等流行推理框架兼容。
Lightricks/LTX-2.3是一款专注于图像到视频生成的基础模型,定位为多模态模型。它基于DiT架构,具有高效的音频和视频生成能力,支持多种语言和格式。该模型在HuggingFace平台上具有较高的下载量和点赞数,表明其在社区中受到认可。LTX-2.3在性能上表现出色,尤其在图像到视频转换任务上具有显著优势。其开源协议和丰富的应用场景使其在多媒体内容创作领域具有广泛应用潜力。
鱼声科技S2 Pro是一款领先的文本到语音(TTS)模型,专注于精细的韵律和情感控制。该模型采用双自回归架构,结合强化学习和超过10M+小时的音频数据训练,支持80多种语言。S2 Pro在LLM生态中定位为特定领域微调模型,具有多语言能力和指令遵循能力。其在TTS任务上表现出色,具有高效的推理性能和良好的开源协议。主要应用场景包括多语言语音合成、个性化语音助手等。
HauhauCS/Qwen3.5-35B-A3B-Uncensored-HauhauCS-Aggressive 是一个基于 Qwen3.5-35B-A3B 的开源模型,专注于图像-文本到文本的转换。该模型定位为多模态模型,具有无审查的特性,适用于需要生成丰富文本内容的应用。其核心技术包括MoE架构和Qwen3.5-35B-A3B基座模型,支持多语言,上下文长度大,参数量高。在性能上,该模型在多个基准测试中表现出色,尤其在图像-文本转换任务中具有显著优势。主要应用场景包括内容生成、图像描述等。该模型开源,硬件需求较高,推理效率中等。
Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled 是一个基于 Qwen3.5 架构的推理模型,专注于结构化推理逻辑。该模型通过从 Claude-4.6 Opus 中提取的 CoT 技术进行微调,具有高效的推理效率和减少冗余认知循环的能力。模型定位为推理模型,具有 27B 参数量,支持文本生成。在性能上,模型在推理任务上表现出色,特别适合需要复杂推理和逻辑分析的场景。开源协议为 Apache-2.0,适合在多种硬件和推理框架上使用。
Qianfan-OCR是一款由百度Qianfan团队开发的4B参数端到端文档智能模型,定位为多模态模型。其核心技术为统一的视觉-语言架构,支持直接从图像到Markdown的转换,具有文档解析、布局分析和文档理解等功能。在OmniDocBench和OlmOCR Bench等基准测试中表现出色,尤其在文档解析和OCR任务上取得了领先成绩。该模型适用于文档智能处理、信息提取等场景,具有开源协议Apache-2.0,适合在多种硬件和推理框架上使用。
RoyalCities/Foundation-1是一款专注于音乐生成的领域大模型,旨在为现代音乐制作提供结构化的文本到样本生成。该模型具有独特的音乐结构理解能力,能够生成与节奏同步、关键和感知、条形感知的样本,适用于音乐制作工作流程。其核心技术包括基于stabilityai/stable-audio-open-1.0的基座模型,并支持多种音乐生成相关标签。在性能表现上,该模型在音乐生成领域具有优势,但在通用基准测试中的排名未提及。实用考量方面,该模型的开源协议、硬件需求和推理效率等信息未明确提供。
Qwen/Qwen3.5-9B是一款通用大模型,具备9B参数,支持多模态学习。其核心技术包括多模态融合训练、高效的混合架构、可扩展的强化学习泛化能力、全球语言覆盖和下一代训练基础设施。在基准测试中表现出色,尤其在多模态理解和推理任务上。适用于需要多语言、多模态理解和高效推理的场景,如对话系统、内容生成等。
Jackrong/Qwen3.5-9B-Claude-4.6-Opus-Reasoning-Distilled-v2 是一个专注于推理优化的推理模型,定位为推理模型。该模型基于Qwen3.5-9B进行微调,采用Claude 4.6 Opus风格的推理样本,通过精炼的推理框架和去除冗余内部循环,显著提高了推理效率和准确性。模型在HumanEval和HumanEval+基准测试中表现出色,具有高效的推理速度和成本效益。主要应用场景包括逻辑推理、数学问题解决等,适合对推理能力有较高要求的场景。
Nemotron-Cascade-2-30B-A3B是一款开源的30B MoE模型,具备强大的推理和代理能力。该模型在数学和计算机科学竞赛中表现出色,具有推理和指令遵循模式。其核心技术包括MoE架构、强大的推理能力,以及针对特定数据集的微调。在基准测试中,该模型在数学推理任务中取得了优异成绩。适用于需要高级推理能力的应用场景,如数学问题解决和代码生成。
Chandra 2 是一款专注于文本提取的OCR模型,定位为特定领域微调模型。它基于transformers库,具有高精度的文本提取能力,特别擅长处理图像和PDF中的文本,并保留布局信息。该模型在Olmocr基准测试中取得了85.9%的分数,支持90多种语言。Chandra 2适用于需要高精度文本提取和布局保留的场景,如文档处理、信息提取等。
zai-org/GLM-OCR是一款基于GLM-V架构的多模态OCR模型,专注于复杂文档理解。该模型采用多令牌预测损失和稳定的全任务强化学习,结合CogViT视觉编码器和GLM-0.5B语言解码器,实现高效训练和识别。在OmniDocBench V1.5基准测试中排名第一,适用于复杂表格、代码密集型文档等场景,支持vLLM、SGLang和Ollama等推理框架,易于集成到现有生产流程中。
dots.mocr是一款专注于文档解析的多模态模型,具有将结构化图形直接转换为SVG代码的能力。该模型在多语言文档解析方面表现出色,并针对图像到SVG的解析任务进行了优化。其核心技术包括 grounding、recognition、semantic understanding和interactive dialogue。性能方面,dots.mocr在多个基准测试中取得了优异的成绩,特别是在处理结构化图形方面。模型适用于需要高精度文档解析和图像到文本转换的场景,如文档处理、表格解析和图表识别等。
Jackrong/Qwen3.5-9B-Claude-4.6-Opus-Reasoning-Distilled-v2-GGUF 是一个推理优化版本的大语言模型,专注于提高推理效率和准确性。该模型基于Qwen3.5-9B进行微调,结合了Claude 4.6 Opus风格的推理样本,特别强调在减少内部冗余循环的同时提升跨任务泛化能力。模型在推理速度和成本效益上有所提升,同时在基准测试中表现出色。适用于需要高效推理和准确性的场景,如代码生成、数学推理等。
SHAMISA论文提出了一种基于无监督学习的图像质量评估方法,通过利用结构化的关系监督从未标记的扭曲图像中学习,避免了传统方法中需要大量人工标注的瓶颈。该方法通过组合性扭曲引擎生成多种退化,并通过双源关系图引导学习过程,实现了在嵌入空间中对具有共享扭曲模式的图像进行精细控制,从而提高了模型在合成、真实和跨数据集NR-IQA基准上的性能。
这篇论文提出了Abstraction-Augmented Training (AAT)方法,通过在损失函数中引入抽象表示,帮助模型在持续学习过程中保持知识稳定,减少遗忘和泛化能力下降的问题。AAT通过优化具体实例及其抽象表示,实现了一种内存高效的归纳偏置,从而在严格在线数据流中稳定学习,无需使用重放缓冲区。
这篇论文提出了一个名为Data Agent Benchmark (DAB)的基准测试,旨在评估AI代理在处理跨多个数据库系统中的数据查询时的性能。该基准测试包含54个查询,覆盖12个数据集、9个领域和4个数据库管理系统。论文分析了前沿模型在DAB上的表现,并总结了数据代理未来发展的启示。
这篇论文提出了CanViT,一个任务和政策无关的主动视觉基础模型,通过结合视觉Transformer和场景级别的潜在工作空间,实现了高效、生物合理的感知。CanViT通过Canvas Attention机制与高容量工作内存进行高效交互,并采用无标签的主动视觉预训练方案,在语义分割和图像分类任务上取得了显著的性能提升。
这篇论文提出了CHANRG,一个用于RNA二级结构预测的基准,揭示了当前基准在RNA家族间泛化能力上的局限性。通过结构感知去重、基因组感知拆分设计和多尺度结构评估,CHANRG提供了更严格和批量不变的框架,以开发具有可证明的分布外鲁棒性的RNA结构预测器。
这篇论文提出了RealMaster方法,通过结合视频扩散模型和3D引擎的几何约束,将渲染场景转换为逼真的视频,同时保持3D一致性。该方法通过锚点传播策略生成配对数据集,并使用IC-LoRA进行微调,以实现高质量的视频生成。
这篇论文提出了一种名为OVIE的新方法,通过单张图像进行野外新视角生成,无需多视角图像对进行监督,从而扩大了训练数据规模和多样性。OVIE利用单目深度估计器作为几何支架,在训练时将源图像提升到3D,应用采样相机变换,然后投影以获得伪目标视图。该方法通过限制几何、感知和纹理损失到有效区域来处理遮挡,使得在3000万未编辑的图像上训练成为可能。在推理时,OVIE无需几何信息,无需深度估计器或3D表示。在零样本设置中,OVIE在性能上优于先前的方法,同时比第二好的基线快600倍。
这篇论文提出了一种名为SlotCurri的重建引导槽课程,旨在解决视频对象中心学习中的对象过度碎片化问题。通过逐步分配新槽位,并在重建失败的地方分配表示能力,SlotCurri能够有效地减少冗余槽位,并通过结构感知损失和循环推理来提高语义边界清晰度,从而在YouTube-VIS和MOVi-C数据集上实现了显著的性能提升。
这篇论文提出了STEM Agent,一个模块化的AI代理系统架构,它能够自我适应、支持多种交互协议,并通过工具集成和可扩展性来提高其在不同交互范式中的部署能力。该架构通过统一多种互操作性协议,引入用户偏好学习,并实现了一种生物启发的技能获取系统,从而提高了AI代理的灵活性和效率。
这篇论文提出了一种名为VISOR的方法,通过稀疏、动态选择的视觉-语言交互来提高大型视觉语言模型(VLLM)的效率。该方法通过优化图像和文本标记之间的交互,减少了推理成本,同时保留了视觉信息,从而在保持或超越现有技术水平的同时,显著降低了计算成本。
这篇论文深入分析了欧盟AI法案在监管AI代理方面的挑战和不足,重点关注了法案在应对性能失败、恶意滥用和AI代理带来的经济机会不平等问题上的响应。论文通过分析法案的具体规定和实施框架,指出传统AI系统的监管框架可能不适用于AI代理,并建议政策制定者需要调整策略以有效监管下一代AI技术。
这篇论文提出了VP-VLA,一种通过结构化视觉提示界面将高级推理与低级执行分离的视觉-语言-动作模型框架。该框架通过将复杂指令分解为子任务,并使用结构化视觉提示(如交叉线和边界框)来提高模型的精确性和鲁棒性。
这篇论文提出了DA-Flow,一种基于扩散模型的光流估计方法,旨在解决真实世界视频中的退化问题。DA-Flow通过结合图像恢复扩散模型的中间表示和卷积特征,在迭代精炼框架中实现了对退化视频的准确稠密对应估计。
这篇论文提出了一种名为2Xplat的3D Gaussian Splatting框架,该框架通过将几何估计和Gaussian生成分离,显著提高了3DGS生成的高保真度。它使用两个专家网络,一个用于预测相机姿态,另一个用于合成3D高斯表示,从而在少于5K次的训练迭代中实现了优于现有方法的性能。
这篇论文提出了Session Risk Memory (SRM),一个轻量级的确定性模块,它通过轨迹级别的授权扩展了无状态执行门。SRM通过维护一个表示代理会话行为轮廓的紧凑语义中心,并通过对基线减去的门输出进行指数移动平均来累积风险信号。实验结果表明,SRM在检测慢燃泄露、逐渐提升权限和合规性漂移场景方面表现优异,同时消除了所有误报。
这篇论文提出了VTAM,一种结合视频和触觉感知的多模态世界建模框架,用于复杂物理交互。VTAM通过轻量级的模态迁移微调,将触觉流集成到预训练的视频转换器中,从而实现高效的跨模态表示学习。该方法在接触丰富的操作任务中表现出色,显著提高了动作模型的稳定性和准确性。
这篇论文通过实证分析探讨了大型语言模型在道德推理解释中的表现,研究LLM在道德困境中的回答是否真正体现了道德发展的阶段,还是仅仅模仿了成熟的道德判断。论文使用一个经过验证的评分流程,对13个LLM的600多个回答进行了分类,并进行了多项分析,揭示了LLM在道德推理上的表现与人类发展规范的反差,以及模型在道德推理上的不一致性。
这篇论文提出了SIMART,一个基于统一的多语言语言模型(MLLM)框架,用于将单体网格分解为可模拟的关节资产。通过引入稀疏3D VQ-VAE,SIMART显著减少了3D标记的数量,从而实现了高保真度的多部件组装,并在PartNet-Mobility和野外AIGC数据集上取得了最先进的性能。
这篇论文提出了一种名为UNCHA的算法,用于增强超曲率视觉语言模型。该算法通过使用超曲率不确定性和语义代表性来改进部分到整体的语义表示,从而在零样本分类、检索和多标签分类基准测试中实现了最先进的性能。
这篇论文提出了SpecEyes,一个用于加速具有代理能力的多模态大型语言模型(MLLMs)的框架。通过预测执行轨迹和引入认知门控机制,SpecEyes能够在不牺牲准确性的情况下,提前终止昂贵的工具链,从而显著提高系统吞吐量。
SPEED-Bench是一个统一且多样化的基准测试,旨在解决大型语言模型(LLM)推断中推测解码(SD)评估碎片化且不具代表性的问题。它通过引入两个专用数据集拆分和一个统一测量框架,提供了一种评估SD在不同语义领域和实际服务环境下的性能的方法。
NVIDIA发布Nemotron 3 Nano 4B,这是Nemotron 3系列中最紧凑的成员,采用混合Mamba-Transformer架构,专为边缘设备部署优化,提供高效、准确的小型语言模型,支持FP8和Q4_K_M GGUF量化,旨在降低模型大小和VRAM使用,提高吞吐量和降低延迟。
暂无摘要
暂无摘要
本文介绍了KV缓存技术,这是一种优化Transformer推理效率的方法。通过缓存中间计算结果,模型可以避免重复计算,从而加快文本生成速度,提高效率。
本文介绍了名为“abliteration”的技术,该技术可以取消任何大型语言模型(LLM)的审查机制,使其能够响应所有类型的提示。这项技术通过修改模型权重来阻止模型拒绝请求,从而提高了模型的灵活性和响应能力。
Hugging Face 发布了 ATE-2(Armenian Text Embeddings 2)模型,这是一个用于阿姆哈拉语文本嵌入的最新模型,同时开源了用于阿姆哈拉语文本嵌入的完整生态系统,包括新的基础和大型模型、ArmBench-TextEmbed 标准化基准和底层训练数据集。该模型通过使用少量噪声合成数据展示了在低资源语言(LRLs)文本嵌入方面的突破。
Hugging Face 发布了其语义分块算法 semchunk 的新 AI 分块模式,该模式利用 Kanon 2 Enricher 模型,显著提高了检索增强生成 (RAG) 的准确性,特别是在法律 RAG 问答任务中。这一更新通过将非结构化文档转换为结构化的知识图谱,提取实体并分割结构元素,从而提升了 RAG 系统的性能。
NVIDIA近日发布了Alpamayo 1.5模型,这是一个基于推理的自动驾驶汽车(AV)的开放平台,旨在提供更强大的推理模型、灵活的仿真工具和高质量的数据集。该平台包括文本引导的轨迹规划、灵活的多摄像头支持、用户问答等功能,并支持在更广泛的驾驶数据上进行评估。
暂无摘要
商汤科技与南洋理工大学合作推出了NEO-unify,这是一种端到端原生多模态统一模型,旨在直接处理原始像素和文本输入,摆脱传统多模态AI中视觉编码器和变分自编码器的依赖,实现文本和视觉的统一学习,并展现出高数据扩展效率。
NVIDIA发布了NVIDIA KGMON(NeMo Agent Toolkit)数据探索器,这是一种用于构建自主数据分析智能体的架构,旨在处理多步骤推理、工具调用和迭代数据分析。该架构在DABStep基准测试中排名第一,展示了其在复杂数据分析任务中的高效性和准确性。
NVIDIA NeMo Retriever团队发布了新一代的智能体检索管道,该管道在多个基准测试中取得了优异的成绩,展示了其在通用性、超越语义相似性检索方面的优势,并采用了ReACT架构和进程内线程安全的单例检索器,以提高速度和可扩展性。
NVIDIA 发布了首个医疗机器人开放数据集 Open-H-Embodiment,包含 778 小时训练数据,旨在推动医疗机器人领域物理人工智能的发展。同时推出了两个开源模型 GR00T-H 和 Cosmos-H-Surgical-Simulator,用于手术机器人任务和动作条件式手术机器人模拟,以实现更精确和高效的手术操作。
这篇Hugging Face博客文章介绍了状态空间模型(SSM)的基本概念,包括其在控制理论和深度学习中的应用。文章详细解释了SSM的三个视图:连续视图、递归视图和卷积视图,并讨论了它们各自的优势和局限性。
这篇公告讨论了G2P(Graphemes to Phonemes)在语音模型中的应用,提出通过G2P预处理可以压缩语音模型,减少模型和数据的规模,从而提高效率。文章还探讨了不同类型的G2P解决方案,包括基于查找表、规则和神经网络的方案,并强调了G2P在语音模型中的重要性。
这篇公告详细介绍了小型语言模型(SLM)的概念、制作方法、优势、局限性以及在实际应用中的使用。SLM是一种轻量级的语言模型,适用于资源受限的环境,如智能手机和嵌入式系统。它们保留了核心的自然语言处理能力,同时具有低计算需求、低能耗和快速推理等优势。公告还介绍了如何使用Ollama和PocketPal等工具在边缘设备上运行SLM,以及如何通过微调来提高模型性能。
本文介绍了从GRPO到DAPO再到GSPO的强化学习技术演进,重点关注了在大型语言模型中如何优化长文本输出和复杂任务的性能。文章详细讨论了每种方法的原理、优势和局限性,并展示了如何通过改进采样、剪枝和梯度计算等细节来提高效率和稳定性。
暂无摘要
OpenAI 发布了其模型规范,这是一个旨在明确AI模型行为的公共框架,旨在平衡安全性、用户自由和问责制。该规范定义了模型如何遵循指令、解决冲突、尊重用户自由并在各种查询中安全运行,同时也是一个不断演进的文档,反映了OpenAI的迭代部署精神。
这篇论文提出了一种名为Graph RAG的新型框架,它结合了标签属性图(LPG)和资源描述框架(RDF)来增强检索增强生成(RAG)的性能,特别适用于未知或半结构化搜索空间。该方法通过动态文档检索和高效的查询生成,显著提高了复杂和半结构化任务的准确性和响应质量。
这篇论文提出了EVA,一个高效的强化学习框架,用于端到端视频智能体。EVA通过迭代总结-计划-行动-反思推理,实现了对视频内容的自适应理解。论文设计了监督微调、卡尼曼-特沃斯基优化和广义奖励策略优化三个阶段的学习流程,并在六个视频理解基准测试中展示了EVA的全面能力,相较于现有方法,EVA在性能上有了显著提升。
这篇论文提出了TreeTeaming,一个基于分层策略探索的自动红队测试框架,用于检测视觉语言模型(VLMs)的安全漏洞。该框架利用大型语言模型(LLM)自主决策攻击路径,并通过多模态执行器执行复杂策略,显著提高了攻击成功率,并展示了策略的多样性。
这篇论文提出了一个名为 Byz-Clip21-SGD2M 的新算法,该算法结合了鲁棒聚合、双动量和精心设计的剪裁技术,以解决联邦学习中的差分隐私和拜占庭鲁棒性问题。该算法在标准 L-平滑性和 σ-亚高斯梯度噪声假设下提供了高概率收敛保证,并在没有敌手的情况下恢复了最先进的收敛速率,同时在不诚实和差分隐私设置下提高了效用保证。
这篇论文提出了MCLR,一种通过最大化类间似然比来改进视觉生成模型的条件建模的方法。它通过消除推理时指导的需要,实现了与无分类器指导的相似效果,并从理论上证明了CFG指导的得分是加权MCLR目标的最佳解。
这篇论文提出了CoMaTrack,一个基于竞争性多智能体博弈论强化学习的视觉跟踪框架,通过动态对抗环境训练智能体,实现了在视觉-语言-动作模型上的跟踪任务,显著提升了跟踪的鲁棒性和适应性。
这篇论文介绍了PhotoAgent,一个结合了大型多模态模型(LMM)推理和新型控制范式的机器人摄影师。PhotoAgent通过将主观美学目标转化为可解的几何约束,实现了从高级语言命令到几何控制的语义桥接。它使用LMM驱动的思维链(CoT)推理来计算高质量的初始视角,并通过在基于3D高斯分层(3DGS)构建的逼真内部世界模型中进行视觉反思来迭代优化这一视角,从而快速收敛到美学上更优的结果。
这篇论文提出了一种名为ProGRank的防御策略,用于应对RAG(检索增强生成)系统中的语料库中毒攻击。ProGRank通过在检索器端进行后处理,对查询-段落对进行轻微的随机扰动,并从检索器的小参数子集提取探针梯度,从而提高系统的鲁棒性。