AMD MI300X上LLM推理单核优化达到3,300 tokens/s
一项研究展示了在AMD MI300X硬件上构建单核(monokernel)进行LLM推理的成果,通过优化,实现了每个请求高达3,300 tokens/s的惊人输出速度。该优化充分利用了芯片的拓扑结构。
Gemini Code Assist更新:2.5 Pro/Flash GA与代理模式
Google Gemini Code Assist工具持续更新,包括Gemini 2.5 Pro和Flash模型全面可用(GA),并在VS Code内部通道中提供Agent模式预览功能,支持配置.aiexclude文件以排除本地上下文文件。
llama.cpp 优化VRAM使用,降低本地LLM运行门槛
Hacker News上有讨论指出,llama.cpp通过引入f16掩码等优化措施,显著减少了运行LLM所需的VRAM。这一进展使得更多用户能在消费级硬件上运行大型语言模型。
MONET:发布超过1亿张高质量图像数据集
Reddit社区讨论一项名为MONET的新数据集,包含超过1亿张高质量、带标注和元数据的图像。该数据集Apache 2.0协议授权,已在Hugging Face上可用。
Liquid AI发布边缘模型LFM2.5-8B-A1B:128K上下文,38T预训练
Liquid AI 发布了 LFM2.5-8B-A1B,一个专注于边缘应用的80亿参数模型。该模型具有128K的超长上下文窗口,并在38万亿Token数据上进行了预训练。
StepFun 3.7 Flash:可在128GB RAM本地运行的多模态MoE模型
Reddit社区讨论StepFun发布的StepFun 3.7 Flash模型,这是一个拥有196B总参数、11B活跃参数的多模态MoE模型,可在128GB RAM的本地设备上运行,并内置1.8B ViT用于视觉任务。
通过探针微调让LLM表达真实置信度
Reddit上的一项研究探讨了通过探针目标微调(如LoRa)来校准LLM口头置信度的方法。结果显示,通过探测LLM的隐藏状态,可以在0.76的准确率下区分正确和不正确的答案。
LCO:基于LLM的约束优化,提升Agentic LLM在实际任务中的安全性
一篇arXiv论文提出LCO(LLM-based Constraint Optimization),旨在通过LLM驱动的约束优化,提高Agentic LLM在真实世界任务中的安全性,解决“情境奖励劫持”(ICRH)等问题。