代码搜索的下一形态:ast-grep 与 PageIndex 的双向增强
问题:代码搜索的两难困境 “这个项目的用户认证流程是怎么实现的?” 这个问题看似简单,但现有工具都不太好回答: 向量搜索:把代码切成 chunks,做 embedding,然后相似度匹配。问题是"相似"不等于"相关"——搜"认证"可能返回一堆包含 auth 字符串的注释和配置文件,而不是真正的认证逻辑。 ...
问题:代码搜索的两难困境 “这个项目的用户认证流程是怎么实现的?” 这个问题看似简单,但现有工具都不太好回答: 向量搜索:把代码切成 chunks,做 embedding,然后相似度匹配。问题是"相似"不等于"相关"——搜"认证"可能返回一堆包含 auth 字符串的注释和配置文件,而不是真正的认证逻辑。 ...
PageIndex 深入解析:面向推理型 RAG 的文档索引系统(技术详解与实战指南) 摘要:本文面向工程实践,系统解析开源项目 PageIndex(Document Index System for Reasoning‑based RAG)的设计理念、数据结构、部署方法与落地方案。文章从“相似度≠相关性”的检索痛点出发,讲清 推理型(Reasoning‑based)RAG 与传统“向量相似度”范式的根本差异;深入到 PageIndex 的树形索引结构与节点级摘要/页码映射;再到参数调优、数据库建模、检索编排、评测与监控,并附上可复用的代码片段、Schema 设计与集成建议,帮助团队快速把 PageIndex 融入生产级 RAG 系统。 ...
今天给大家介绍一下师兄主导和我一起开发的一个基于大模型 RAG 技术的知识库与知识图谱问答平台,项目名称叫 Yuxi-Know。 https://github.com/xerrors/Yuxi-Know 该项目前身:KnowledgeGraph-based-on-Raw-text-A27 我们是基于最早的基于 uie 抽取的实体关系,然后构建的知识图谱,然后基于知识图谱进行问答,在 graphRAG 出来后,我们又基于 graphRAG 进行了重构,并增加了知识库的支持。 ...