
本文结合一个真实的 AI 翻译平台项目,深入讲解 RRF(Reciprocal Rank Fusion)的原理、纯 Python 实现,以及如何用 Elasticsearch 8.9+ 原生支持的 RRF 构建生产级混合检索。

原来是"FastAPI + command 脚本"拼起来的 RAG 检索服务,这次把它重构成了一个会自己决定何时调工具、并且记得住上次聊了什么的 ReAct Agent。真正费劲的不是写循环,而是三件事——想清楚 Agent 循环到底在循环什么、给对话历史选对存储、以及填平不同 LLM 供应商之间的格式坑。




Go 的内存管理设计,核心思路就一个:用空间换时间,用复杂度换低延迟 ——运行时 GC,但拼命压低 STW 时间。这个选择带来的后果是:GC 本身的吞吐量不算高,但延迟确实低,p99 通常在毫秒级以内。