牛哥精选 · 本月

📋 全部 🤖 AI·大模型 ⚡ 效率工具 📝 深度技术 🚀 产品观察 💰 商业科技 🔓 开源项目 🎨 设计创意 📖 阅读推荐 🏷 资源合集 🌱 成长效率

📝 深度技术 Hacker News LLM 2026-05-29

Real-time LLM Inference on Standard GPUs (3k tokens/s per request)

标准GPU上实现每秒3000 tokens的实时LLM推理，突破速度瓶颈，为AI Agent落地提供硬核方案。

Article URL: https://blog.kog.ai/real-time-llm-inference-on-standard-gpus-3-000-tokens-s-per-request/ Comments URL: https://news.ycombinator.com/item?…

llm推理实时推理 gpu优化推理加速模型优化

📝 深度技术 arXiv AI 2026-05-27

Xe-Forge: Multi-Stage LLM-Powered Kernel Optimization for Intel GPU

多阶段LLM流水线自动优化Intel GPU内核，释放硬件潜力，开辟AI驱动编译器新方向

arXiv:2605.26118v1 Announce Type: cross Abstract: Porting deep learning algorithms to new hardware accelerators requires developers to repeatedly appl…

llm gpu优化内核优化 intel gpu 多阶段优化

📅 日期

2026-05-20 2026-05-19

🐂 牛哥精选

Real-time LLM Inference on Standard GPUs (3k tokens/s per request)

Xe-Forge: Multi-Stage LLM-Powered Kernel Optimization for Intel GPU

📅 日期