我教 AI 像资深开发者一样思考的那天 - 利用代码知识图谱提升 AI 代码理解能力

The day I taught AI to think like a Senior Developer

Source | HN Comments

文章探讨了作者如何提升 AI 代码理解能力，使其像资深开发者一样思考。作者发现现有 AI 代码工具缺乏对代码库的真正理解，仅依赖高级自动补全。他提出将代码库视为分层知识图谱，并开发了“排序递归摘要”（RRS）算法，通过递归构建代码理解。进一步，作者引入“棱镜排序递归摘要”（PRRS），通过多个概念“镜头”分析代码，显著提升了 AI 对代码的理解，例如文件放置、模式遵循等。这种方法有助于发现技术债务、安全漏洞，并加速新成员的入职。作者认为，这种基于上下文理解的 AI 工具将是未来趋势，并已将其应用于工具 Giga 中。

Namanyay Goel 的博客 ( )

我教 AI 像资深开发者一样思考的那天

2025年4月7日 Namanyay Goel

只有我这么觉得吗，我们现在用的那些代码生成 AI 从根本上就是坏的？

几个月来，我看着开发者们称赞 AI 代码工具，却默默地收拾着它们留下的烂摊子，不敢承认他们实际上需要多少“照看”。

我意识到 AI 集成开发环境 (IDE) 实际上并不_理解_代码库 —— 它们只是具有出色营销能力的高级自动补全工具。皇帝的新衣，我已经厌倦了假装没看见。

在经历了两年多的挫败感，眼睁睁看着我的 AI 助手不断“忘记”文件在哪里、创建重复文件、使用完全不正确的模式之后，我终于构建出了大型 AI 公司无法（或不愿）构建的东西。

我决定弄清楚：如果我能让 AI _真正_理解我的代码库是如何工作的，会怎么样？

理解的错觉

去年 12 月，我忍无可忍了。我那所谓“智能”的 AI 助手一直生成不遵循我们既定模式的组件。当我指出这一点时，它道歉了 —— 然后在十分钟后继续犯完全相同的错误。

这并非个例，而是常态。

问题变得清晰：这些 AI 工具根本不具备将代码库视为相互连接的系统的实际理解能力。它们在小范围的上下文窗口中运行，并且在维护项目的心智模型方面惨败。

特别令人沮丧的是，大型 AI 公司的营销暗示他们的工具“理解”你的代码。它们并没有，它们只是在进行有根据的猜测 —— 并且在任何稍微复杂的项目中，这种差异都会变得非常明显。

关于代码的普遍真理

在思考这个问题时，我试图理解支配我们组织代码方式的基本原则。我意识到的一些“普遍真理”：

相关文件分组在文件夹中，这在语义上表示目的。
同级文件夹反映了概念上的相似性。
子文件夹结构表示层次关系和依赖关系。
并非每一行代码都同样“相关”。代码库包含大量的样板代码和库代码，这些代码虽然必要，但没有定义项目的独特特征。

这些见解对于经验丰富的开发者来说显而易见，但它们代表了 AI 助手完全错失的关键语义知识。

突破

解决方案出现在凌晨 2 点的编码过程中，当时我正在处理另一个错误生成的文件：如果我们把代码库视为分层知识图谱而不是扁平文件会怎么样？

人类开发者不会记住整个代码库。我们构建组件之间如何关联的心智模型。我们理解某些代码是样板代码，而其他部分是关键的业务逻辑。我们根据想要完成的任务，自然地通过不同的“镜头”查看代码。

我开发了一种我称之为“排序递归摘要”（Ranked Recursive Summarization, RRS）的算法，该算法从项目目录树的叶子开始，并使用 LLMs 递归地向上构建理解：

# 伪代码:
def ranked_recursive_summarization(folder):
  if is_file(folder):
    chunks = split_into_chunks(read_file(folder))
    ranked_chunks = rank_by_importance(chunks)
    return summarize(ranked_chunks)
  
  summaries = []
  for child in folder.children:
    summary = RRS(child)
    summaries.append(summary)
  
  return summarize(summaries)

这效果惊人地好，但我很快意识到这还不够。根据我试图处理的内容，RRS 遗漏了一些细节。如果它有关于架构和数据模型的信息，它就会错过前端组件。如果它过于关注用户界面 (UI)，它就会错过描述数据流。

我不得不更深入地思考：是什么使代码的某个部分变得_重要_？

透镜化理解

我的第二个洞察力导致了真正具有变革性的技术：“棱镜排序递归摘要”（Prismatic Ranked Recursive Summarization, PRRS）。

PRRS 没有一个关于“重要性”的全局定义，而是通过多个概念镜头来分析代码：

# 伪代码:
def prismatic_rrs(folder, lenses=['architecture', 'data_flow', 'security']):
  summaries = {}
  for lens in lenses:
    context = f"Analyze importance from {lens} perspective"
    summaries[lens] = RRS(folder, context=context)
  return summaries

结果是无可否认的。 AI 突然明白了：