用于“长篇创意写作”的 LLM 基准测试
长篇创意写作
用于 LLM 的情感智能基准测试 Github | Paper | 联系方式 | Twitter | 关于 💙EQ-Bench3 | ✍️长篇写作 | 🎨创意写作 v3 | ⚖️Judgemark v2 | 🎤BuzzBench | 🌍DiploBench | 🎨创意写作 (Legacy) | 💗EQ-Bench (Legacy)
一个由 LLM 评估的长篇创意写作基准测试 (v3)。了解更多 隐藏详情
模型 | 长度 | Slop | 重复性 | 衰退 | 分数 | 示例 ---|---|---|---|---|---|--- 🆕gemini-2.5-pro-preview-03-25 | 6,544 | 40.4 i | 7.3 | 0.156 | 80.2 | Samples 🆕DeepSeek-V3-0324 | 4,131 | 47.4 i | 11.6 | 0.144 | 78.1 | Samples claude-3-7-sonnet-20250219 | 9,380 | 22.6 i | 6.1 | 0.186 | 77.6 | Samples 🆕chatgpt-4o-latest-2025-03-27 | 5,399 | 33.9 i | 9.4 | 0.114 | 76.8 | Samples DeepSeek-R1 | 4,035 | 55.1 i | 8.5 | 0.099 | 74.6 | Samples 🆕quasar-alpha | 6,722 | 46.7 i | 10.8 | 0.330 | 73.7 | Samples qwq-32b | 5,320 | 63.5 i | 11.1 | 0.656 | 60.8 | Samples gemma-3-27b-it | 5,367 | 61.5 i | 17.8 | 0.950 | 59.3 | Samples c4ai-command-a-03-2025 | 6,892 | 66.0 i | 20.4 | 1.029 | 58.0 | Samples gpt-4o-mini | 7,855 | 63.6 i | 18.3 | 0.580 | 55.2 | Samples gemini-2.0-flash-001 | 4,915 | 70.2 i | 21.0 | 0.701 | 55.1 | Samples reka-flash-3 | 4,531 | 61.6 i | 10.7 | 0.563 | 51.8 | Samples gemma-3-12b-it | 4,344 | 68.9 i | 16.6 | 0.609 | 51.7 | Samples gemma-3-4b-it | 4,244 | 75.2 i | 21.1 | 0.686 | 47.3 | Samples 🆕Llama-4-Maverick-17B-128E-Instruct | 4,363 | 74.6 i | 40.5 | 0.627 | 39.7 | Samples Mistral-Nemo-Instruct-2407 | 7,388 | 75.3 i | 36.4 | 1.110 | 37.7 | Samples 🆕Llama-4-Scout-17B-16E-Instruct | 5,093 | 80.9 i | 47.9 | 0.809 | 35.9 | Samples aion-rp-llama-3.1-8b | 4,110 | 57.3 i | 23.3 | 0.556 | 32.6 | Samples l3.3-euryale-70b | 11,632 | 55.7 i | 90.3 | 0.871 | 29.8 | Samples phi-4-multimodal-instruct | 9,738 | 86.5 i | 84.5 | 0.619 | 26.9 | Samples 显示 1 到 20 条,共 20 条记录
长篇创意写作基准
此基准测试评估以下几种能力:
- 从一个最小的提示语中集思广益并规划出一个短篇小说/中篇小说。
- 反思计划并进行修改。
- 通过 8 个 1000 字的回合来撰写短篇小说/中篇小说。
模型通常通过 openrouter 进行评估,使用 temp=0.7 和 min_p=0.1 作为生成设置。 输出结果由 Claude Sonnet 3.7 使用评分标准进行评估。
长度
平均章节长度(字符数)。
Slop 分数
Slop 列衡量了每个已完成章节中 LLM 通常过度使用的单词/短语(“GPT-isms”)的频率。数值越低越好。
重复性指标
重复性 列衡量了模型在多个任务中重复单词/短语的程度。数值越高意味着重复性越高。
衰退
8 个章节分数(平均值)的迷你趋势线,可以直观地看到模型章节质量是否随着写作的进行而下降。衰退分数是趋势线梯度的绝对值。
分数 (0-100)
由评估 LLM 分配的总体最终评分,缩放到 0-100。数值越高越好。
Slop 概况
加载中... 关闭