用于“长篇创意写作”的 LLM 基准测试

LLM Benchmark for 'Longform Creative Writing'

Source | HN Comments

该文章介绍了一个用于评估 LLM 长篇创意写作能力的基准测试 (v3)。该基准测试包含集思广益、修改计划和分章节写作等环节。文章展示了多个模型的测试结果，包括长度、Slop 分数、重复性、衰退和总分等指标。测试使用 openrouter，并由 Claude Sonnet 3.7 评估。

长篇创意写作

一个由 LLM 评估的长篇创意写作基准测试 (v3)。了解更多隐藏详情

模型 | 长度 | Slop | 重复性 | 衰退 | 分数 | 示例 ---|---|---|---|---|---|--- 🆕gemini-2.5-pro-preview-03-25 | 6,544 | 40.4 i | 7.3 | 0.156 | 80.2 | Samples 🆕DeepSeek-V3-0324 | 4,131 | 47.4 i | 11.6 | 0.144 | 78.1 | Samples claude-3-7-sonnet-20250219 | 9,380 | 22.6 i | 6.1 | 0.186 | 77.6 | Samples 🆕chatgpt-4o-latest-2025-03-27 | 5,399 | 33.9 i | 9.4 | 0.114 | 76.8 | Samples DeepSeek-R1 | 4,035 | 55.1 i | 8.5 | 0.099 | 74.6 | Samples 🆕quasar-alpha | 6,722 | 46.7 i | 10.8 | 0.330 | 73.7 | Samples qwq-32b | 5,320 | 63.5 i | 11.1 | 0.656 | 60.8 | Samples gemma-3-27b-it | 5,367 | 61.5 i | 17.8 | 0.950 | 59.3 | Samples c4ai-command-a-03-2025 | 6,892 | 66.0 i | 20.4 | 1.029 | 58.0 | Samples gpt-4o-mini | 7,855 | 63.6 i | 18.3 | 0.580 | 55.2 | Samples gemini-2.0-flash-001 | 4,915 | 70.2 i | 21.0 | 0.701 | 55.1 | Samples reka-flash-3 | 4,531 | 61.6 i | 10.7 | 0.563 | 51.8 | Samples gemma-3-12b-it | 4,344 | 68.9 i | 16.6 | 0.609 | 51.7 | Samples gemma-3-4b-it | 4,244 | 75.2 i | 21.1 | 0.686 | 47.3 | Samples 🆕Llama-4-Maverick-17B-128E-Instruct | 4,363 | 74.6 i | 40.5 | 0.627 | 39.7 | Samples Mistral-Nemo-Instruct-2407 | 7,388 | 75.3 i | 36.4 | 1.110 | 37.7 | Samples 🆕Llama-4-Scout-17B-16E-Instruct | 5,093 | 80.9 i | 47.9 | 0.809 | 35.9 | Samples aion-rp-llama-3.1-8b | 4,110 | 57.3 i | 23.3 | 0.556 | 32.6 | Samples l3.3-euryale-70b | 11,632 | 55.7 i | 90.3 | 0.871 | 29.8 | Samples phi-4-multimodal-instruct | 9,738 | 86.5 i | 84.5 | 0.619 | 26.9 | Samples 显示 1 到 20 条，共 20 条记录

长篇创意写作基准

此基准测试评估以下几种能力：

从一个最小的提示语中集思广益并规划出一个短篇小说/中篇小说。
反思计划并进行修改。
通过 8 个 1000 字的回合来撰写短篇小说/中篇小说。

模型通常通过 openrouter 进行评估，使用 temp=0.7 和 min_p=0.1 作为生成设置。输出结果由 Claude Sonnet 3.7 使用评分标准进行评估。

长度

平均章节长度（字符数）。

Slop 分数

Slop 列衡量了每个已完成章节中 LLM 通常过度使用的单词/短语（“GPT-isms”）的频率。数值越低越好。

重复性指标

重复性 列衡量了模型在多个任务中重复单词/短语的程度。数值越高意味着重复性越高。

衰退

8 个章节分数（平均值）的迷你趋势线，可以直观地看到模型章节质量是否随着写作的进行而下降。衰退分数是趋势线梯度的绝对值。

分数 (0-100)

由评估 LLM 分配的总体最终评分，缩放到 0-100。数值越高越好。

Slop 概况

加载中... 关闭