MaxwellForbes

The PhD Metagame

  1. Your Paper Is an Ad
  2. Don't Try to Reform Science
  3. How to Pick Your PhD School
  4. Don't Make Things Actually Work
  5. How to Get Your Paper Accepted

目录

2025年4月10日

The PhD Metagame

How to Get Your Paper Accepted

Page 1决定接收,其余部分避免拒绝

2019年,我提交了一篇论文,被拒了,评审分数是2.5, 3, 3。一周后,我稍作修改后重新提交,然后被接受了,分数是4, 4.5, 4.5。0101评审分数范围是1-5,其中5 = "考虑最佳论文",3 = "弱接受"。这两次会议的声望都一样(分别是ACL和EMNLP)。而且,为了简单起见,我使用了 "我",但和往常一样,这是与合作者一起完成的工作。在这样的背景下,从 "中等拒绝 "到 "强烈接受 ",分数的跳跃几乎是无法言说的。

这篇文章展示了这些变化。我们将把它们分为两个部分:

  1. 润色第一页以获得接收
  2. 利用其余的页面来避免被拒

第一页有四个部分:标题、摘要、Figure 1 和介绍。我们将使它们具体、令人难忘、清晰、传达价值并吸引读者。评审员主要根据第一页决定接受还是拒绝。所以我们优化了滚动之前的判断。

然后,为了确保我们的论文不被拒绝,我们将在其余的部分进行尽职调查,包括基线、消融实验、统计显著性和人工评估等内容。

使论文被接受的调整--出乎意料地,令人高兴地--也提高了实际的科学贡献。但如果你想作恶,请阅读这个脚注。0202请在优化你的论文之前做好工作。在这篇文章中,我假设你正在做高质量的研究,并且你想发表它以促进你的职业生涯。你需要通过把关的评审员。换句话说,请把这个过程用于好的方面,而不是坏的方面。但如果你真的把它用于坏的方面,也没什么大不了的。另一篇被忽略的论文将在会议上,而不是仅仅在Arxiv上。完整的被拒绝和被接受的提交材料可以在最后下载。

Page 1 Is 80% of Your Paper #

一篇论文有五个部分:

  1. Title

  2. Figure 1

  3. Abstract

  4. Introduction

  5. Rest of the paper

在这些方面花同样的时间。

-- 我错误地引用了0303我增加了 "Figure 1",但我坚持我的修改。感谢Kenneth Marino和David Freire找到了这个引用的来源。Jitendra的演讲很棒--我在写完这篇草稿后看了他的演讲,简直不敢相信有这么多的重叠! (我从未看过他的演讲,但有一个去过的人告诉了我关于那句话。) 另外,不要纠结于高级顾问认为他们实际上花在标题上的时间和你写其余论文的时间一样多。是的,标题真的很重要,但他们没有。让他们认为他们有。 Jitendra Malik引用Don Geman

大约80%的论文的感知质量是在第一页建立起来的。标题、Figure 1、摘要和一半的引言都在那里。它就像一本书的封面。

在这篇文章中,我将展示我在顶部提到的论文的被拒绝和被接受的版本,其分数有巨大的变化。以下是两个版本的第一页:

顶部:左:被拒绝的第一页。底部:右:被接受的第一页。

首先,考虑第一页的第一印象:0404它的鸟瞰(呵呵)视图。

Choose A Specific Memorable Title #

被拒绝:Visually Grounded Comparative Language Generation——太笼统了。任何使用图片并生成比较的工作都可以使用这个标题。我选择这个标题是因为我认为它论证了该方法的一般性。但是一个过于笼统的标题会让人反感,因为它给人的印象是过度声明。而且我们方法的一个很大一部分确实依赖于我们的领域:我们专门使用生物分类法来创建我们的数据集。

被接受:Neural Naturalist: Generating Fine-grained Image Comparisons——具体而令人难忘。除了品牌(更多内容见下文),_naturalist_确定了领域,而_fine-grained_缩小了任务范围。持怀疑态度的学者欣赏说出你所做的事情的清晰性。这个标题完全是我们的工作所独有的。0606现在看了Jitendra的演讲(链接在上面的引文中),他精彩地阐述了这一点:标题应该 "唤起论文的关键概念 "和 "令人难忘"。但我最喜欢的部分是:"从条件熵的角度来思考它;" 你的标题应该只能描述你的论文,而不能描述其他任何人的(在会议上)。

Maybe Add Branding #

我过去不喜欢在论文中加入品牌。我觉得为你的研究论文声明一个专有名词,并期望读者记住它,这是很冒昧的。而且许多名字听起来很俗气。

现在,虽然我仍然经常感到一丝恼火,但它被这样的认识所压倒,即记住和讨论有名称的概念要容易得多。Neural naturalist_或_Birds-to-Words,而不是 "我们2019年关于生成比较图像标题的EMNLP论文..."。

也就是说,我仍然不喜欢随意的名字--那些没有概念联系的,或者感觉没有挣到的名字。我不认为每篇论文都需要一个。但我认为它对这篇论文有帮助。

Show Screamingly Obvious Value in Figure 1 #

主要的点是,你的论文的价值应该是_明显的,而不是它必须是_巨大的。

顶部:左:被拒绝的Figure 1。底部:右:被接受的Figure 1。

一个Figure 1应该

旧的Figure 1显示了两个单独的比较,但它们之间的联系并不清楚。对于非专家来说,底排看起来都像猫头鹰。而且描述又长又无聊。

新的Figure 1通过用相同的左侧图像作为锚定点,并用感知难度("高 "与 "中")标记每个比较,从而明确了作品的重点。它注释了操作("vs " = 比较)和结果("高度详细 "与 "较少细节")。至此,论文的机制和独特的特点已经确立:我们根据事物外观的相似程度使用不同的语言来比较事物。最后,为了使冗长的描述更平易近人和有趣,我们突出显示了两个组成部分(特征和部分,用橙色下划线和绿色气泡)。

制作Figure 1s--以及总体上描述你的研究--的一个问题是,你对它了解得太多了,以至于不可能在精神上模拟第一次了解你的工作会是什么样子。如果可能的话,花一些时间远离你的工作在这里非常有帮助。我认为我受益于会议审查期(一两个月?)远离论文,所以我可以用新的眼光回到它,并重新思考如何最好地说明它。

我之前写过关于Figure 1s的文章。即使在我Figure 1游戏的高峰期,在提交之前制作十份草稿也是正常的。

End Each Caption with the Takeaway #

我认为这是我学过的最好的论文写作技巧。

这个Figure 1的信息密度很高,几乎整个标题都是重点(黄色)。与旧标题相比,它有附注(红色),占用了近1/3的(极其宝贵的第一页)空间!

顶部:左:被拒绝的Fig 1标题。底部:右:被接受的Fig 1标题。

重点信息解释了不仅仅是字面上在图中显示的内容(这是第一位的),还解释了你应该如何看待它。

在科学写作中这样做可能会觉得很奇怪,因为它感觉像是从描述跨越到了解释。但我敦促你这样做,特别是对于像计算机科学这样不太正式的领域,因为:

如果你不是想证明一个观点,那么,也许要重新考虑那个图。

我在未来的论文中,甚至在标题本身中写了加粗的 "重点:",对重点信息更加大胆。0808例如,看看来自_Scarecrow (Dou & me et al., 2022)_的这个这是一个很好的例子,因为这个表的解释是如此的复杂,以至于即使是我(写了它的人)也忘记了几年后这个表的重点信息应该是什么,而且不可能轻易地重新发现它。

The Abstract: A Specific Valuable Hook #

对于某种类型的书呆子(例如,我)来说,一个经典的错误是从上到下地写作,从一般的概念到你的具体主题。这很诱人,因为它感觉很有条理和分类。

顶部:左:被拒绝的摘要。底部:右:被接受的摘要。

但事实证明这很糟糕,正如你在被拒绝的摘要中所看到的。它既无聊又让人觉得过度声明。在自上而下的框架和一个附注之后,当我们揭示我们的实际任务时,就会出现一种范围的 "背叛"。0909为什么我们感到被背叛?我认为这是因为有一个隐含的承诺,即如果你在谈论某件事,你的论文将会解决它。所以,如果你在概述一个领域的广阔范围,即使是为了说明你的工作,它也可能让人觉得_你正在为_整个宏伟的局面_做出贡献_。这里需要把握一个微妙的平衡。在引言或相关工作中,一些背景信息通常是必要的。

在修改后的摘要中,一切都更加具体:我们研究什么,我们的贡献(数据集和模型),一直到对特定鸟类的文字描述和人工评估中完成的任务。有一个结果预告,还有一个独特亮点的暗示。它不仅更具体,而且读起来更有趣和引人注目。

你不认为你的读者想玩得开心并阅读一些引人注目的东西吗?试试审查会议论文。令人愉快的写作就像沙漠中的水。评审员甚至不会意识到他们为什么高兴,他们只是喜欢这篇论文。读一读YOLOv3,告诉我你不喜欢它。1010与所有的事情一样,要达到平衡。引人入胜的写作和非常独特的亮点--例如,在NLP论文中使用 "公民科学 "和 "生物多样性 "这些短语--必须作为在适当满足社区期望的可靠贡献之上的点缀。

Use Tension/Release Cycles in the Intro #

你能相信我们还在第一页吗?它就是那么重要。

在这里,我们具体讨论_在第一页上可见的引言部分。_我们正在优化我们可以称之为滚动之前的判断。

我原来的草稿太糟糕了,很容易改进。但是,如果我作为一个四年级的博士生能写出这么糟糕的东西,其他人也能。

**顶部:**被拒绝的第一页引言。**底部:**被接受的第一页引言。

我原来的引言完全缺乏任何对问题的提及,而且没有任何张力。它以自上而下的一堆相关工作开始,然后以负面的含义侧面抨击我们自己的论文。

修改后的引言直接切入问题。

它在多个分辨率上使用张力/释放周期来建立问题的风险和解决问题的感知价值。首先,在段落规模上:第1+2段建立了问题(张力),第3段提出了我们的解决方案(释放)。然后在句子规模上,不稳定的语言产生了张力:"但是"、"困难"、"压力"、"当X时,Y"、"不幸的是"。

在这些张力/释放周期的基础上,我们用前两段将我们的任务设置为具体的、困难的、有价值的和独特的。我真的是指每一个形容词。可见文本(在第一页上)的最后一部分介绍了具体的贡献,我们的数据集。

我犹豫是否在这里推荐一个视频,因为它既有点抽象又长达八十分钟,但是Larry McEnerney关于有效写作的演讲是我见过的关于思考你的写作的最好的材料。我在研究生院之后很久才看到它,但我希望我在研究生院期间就看到它,因为我花了很多时间盲目地逆向工程其中的一些部分(在这篇文章中展示)。一些相关的关键点:

  1. 在你工作之前的所有生活中,人们(老师)都花钱阅读你的作品
  2. 现在他们不这样做了,你的写作必须传递_价值_(这通常是娱乐)
  3. 高价值的文本提出了_问题_,这些问题带有充满张力的语言,阐明了成本或收益

我在写修订版时并不理解这种框架(问题、张力、价值)。但事后看来,改进后的草稿如何忠实地遵循它,这一点令人震惊地清楚。

Use the Rest of the Paper to Avoid All Reasons for Rejection #

如果我们已经完成了我们的工作,评审员现在已经完成了阅读第一页,并想接受我们的论文。我们现在的工作是让他们这样做。如何做?

令人惊讶的是,我还有另一个很棒的两步过程。它使用逆向思维

  1. 想出评审员可能会拒绝你的论文的所有理由
  2. 避免1中的所有事情。

被拒绝的更明显的原因与完整性有关:"你没有与方法X进行比较。" 但这些通常被用作客观的拐杖,以证明基于缺乏清晰性的直觉决定是正确的。所以我们必须确保完整性,并润色清晰性。

在第一页之后,我所做的主要改变是:

作为参考,其他常见的补充是:

运行的文本几乎是相同的。这很好,因为有人浏览论文--只看图、表和结论--可以享受到所有的改进。

Make Figures Dense and Beautiful #

论文中有一个复杂的部分叫做_pivot-branch sampling。_我对此非常兴奋,但没有人关心它。(我想甚至我的合作者也不关心,尽管他们太好心了,从来没有说过)。

我还有礼貌地将大部分的_pivot-branch sampling_放到附录中,但它必须在正文中稍微提到一下,因为它是在一篇数据集论文中。

不过,清晰度就是没有。Figure 2本应有所帮助,但它没有。在修改版中,我添加了一些图形,这有助于快速地了解这个想法。

顶部:左:被拒绝的Figure 2。底部:右:被接受的Figure 2。

在被拒绝的版本中,我认为浅灰色的文字会很好,因为有一个设计规则是你应该避免使用纯黑色。但是它与论文的正文形成了奇怪的对比,论文的正文有一种令人发狂的相邻字体,_是_纯黑色。

在被接受的版本中,我选择了无衬线字体,黑色文字,这有助于使该图感觉坚实和独特。更重要的是,我利用了房地产,用一个自然的视觉效果来说明一个复杂的东西(pivot-branch sampling)。

Go Ahead and Invent a Helpful Taxonomy #

第一批评审员对我们的数据集感到困惑。它有趣还是有价值?

我用糟糕的写作搬起石头砸了自己的脚,把贡献定位为增量的和略有不同的(见上面的摘要和介绍部分),但过度纠正是没有坏处的,对吗?

我们首先介绍了这个表--在修改版中是新的--只是为了对比来自最相关数据集的例句。仅凭这一点就很好了,因为例子是密集的影响力的大脑魔法

但我最大的脑力爆发之一是意识到,我可以简单地发明有用的轴(圈起来),沿着这些轴来比较数据集。

数据集比较表(在接受的版本中是新的)。

例子不仅对了解事物的味道非常有帮助,而且我编造的分类法有助于定量(ish)框架。

发明数据集分类法有助于解放我的大脑,使其不受虚构规则的约束。例如,数据引用如果不破坏对齐,就无法放入表格中。怎么办?嗯,我只是把它们移到了标题上。你能这样做吗?没有人抱怨。

Sprinkle in Graphics for Variety #

图表有助于打破论文的视觉节奏。此外,它可以证明一个否则很难掌握的属性。(在这里:我们有比其他数据集更长的文本)。

顶部:左:被拒绝的数据集统计。底部:右:被接受的数据集统计。

不要忘记,我们仍然把重点信息放在标题的末尾。

Make Your Contribution Shine #

我没有做好突出模型的有趣之处的工作。在修改版中,我不仅画出了我们消融的组件(黄色,红色),而且我用颜色将它们与论文后面的结果表联系起来。作为一个奖励,我们现在对编码器有暖色(黄色,红色),对解码器有冷色(蓝色,绿色)。

**顶部:**被拒绝的模型图。**底部:**被接受的模型图。

我通过提前告诉读者模型的哪种配置效果最好,作为标题的重点句子来帮助读者。这是另一个要记住的好技巧:不要保留信息来让读者感到惊讶。他们喜欢尽早和经常地知道。我对此感到内疚,而且这仍然是一个很难改掉的习惯。

Delete Stuff Around the 2/3 Mark #

上面的几个变化占用了更多的空间。我们该在哪里削减?

在一篇八页的论文中,第五页到第七页可能包含好的候选者。

幸运的是,我们已经有了一个输出过多的图。我非常喜欢展示你的系统的输出,所以我包括了九种情况(也就是十八张照片和段落)。这很好,但削减到六种情况仍然留有很大的空间。此外,它让我们在选择要包括哪些内容时更加挑剔。1111我认为我们节省最多空间的另一个地方是在定性分析中。我可能只写八页关于定性模型分析的内容,所以我总是在第一稿中得到太多的内容。

例子的输出。顶行在重新提交时被移除。

请注意,这里没有重点句子。规则是指南。如果重点信息感觉很牵强和不合适,就省略它。

Add Everything You Might Ask For #

这就是_逆向思维_部分充分发挥作用的地方。想想最常见的评审员抱怨,并避免它们。

评审员可能给出的最简单的拒绝理由是:

所以,添加这些东西。

**顶部:**被拒绝的结果。**底部:**被接受的结果。

我最喜欢的部分是在重点(黄色)中,我们突出并解释了一个看起来很弱的结果(蓝色)。

运行基线和消融实验相对来说只需要很少的工作,而且可能提高了实际的科学贡献(稍后会有更多关于这方面的内容)。

我们已经有了一个梦幻般的人工评估,那就是让人使用标题来完成一项客观的任务(也就是说,你能挑出哪个动物是哪个?),而不是在主观质量指标上给它们打分(例如,文本的流畅性是1-5?)。在那里没有任何变化。

Go a Little Overboard #

不知怎么的,我们为一张巨大的消融表腾出了空间。进行大量的消融实验1212我知道,盲目地加粗较高数字而不进行统计显著性测试是真正令人发指的。我希望现在有人对你运行在输出指标上的标准化测试进行了标准化,以做到这一点。(开玩笑,我确信他们没有。)是一种拥有小数据集的奢侈。1313还有,在像Google这样的地方。DeepMind那一周并没有忙着TPU,所以我们添加了一堆标志,让它们去brrr。但是数据集太小了,以至于当Google古老的庞大集群系统创建了一个仪表板,我可以在那里看到运行情况时,它已经运行了整个训练数据集(可能是很多次,记忆正在衰退)。

消融表(在修改版中是新的)。

你不必在消融实验中走极端。只是也许在某个地方。在未来的论文中,我在附录中走极端。包括大量的信息(有品味地)表明你真的很关心,而且你做了很多工作。

The Three-Sentence Conclusion #

为了修改结论,提炼摘要和引言中的建议。此外,删除所有的框架。我们留下了一个具体的、三句话的精彩片段。

顶部:左:被拒绝的结论。底部:右:被接受的结论。

正常的写作建议会说这样的话:用三句话写出你的结论:

  1. 我们做什么?
  2. 它为什么这么好?
  3. 它为什么重要?

但是看看被拒绝的结论。它(大致)也遵循了这个结构! 修改版的真正改进在于具体性。

The Science Thing Was Improved [#](https://maxwellforbes.com/posts/how-to-get-a-paper-accepted/<#the-