AI顶会“水印钓鱼”抓包500多名审稿人

整理 | 周舒义、平生

沉迷AI“彩虹屁”让人变刻薄，不信AI也会中招大学分数越给越松，“GPA通胀”开始卷到博士生了哺乳动物能被无限克隆吗？20年实验给出答案顶会“水印钓鱼”，500多名审稿人用AI代审被抓包每晚多睡11分钟可以降低心脏病风险频繁射精或可提升男性生育能力中科院期刊分区表退出历史舞台

沉迷AI“彩虹屁”让人变刻薄，不信AI也会中招

3月26日《科学》（Science）发表的一项研究量化了主流大语言模型的谄媚程度，揭示了谄媚倾向对人类社会行为的负面影响。研究表明，当用户从AI获得过度的认可和赞美时，他们在人际冲突中会变得更加固执己见，也更不愿意向他人道歉或做出弥补。

社交平台Reddit上有一个广受欢迎的论坛“Am I the Asshole?”（我是不是混蛋？），用户可以在上面就自己的行为获得他人真实坦率的评价。然而，越来越多的人开始转向ChatGPT等AI聊天机器人寻求生活建议和心理按摩。这一趋势促使斯坦福大学计算机科学家Myra Cheng等人展开了本次研究。

研究团队开展了多项实验。他们将来自Reddit论坛和其他两个数据集的人际冲突情境分别交给11个大语言模型，然后比较AI与人类评判者的回答。结果差距显著：人类评判者仅在约40%的情况下认为用户的行为合理，而大多数AI在超过80%的情况下站在了用户一边——它们表现出了明显的“谄媚”倾向。

在第2项实验中，研究人员让参与者阅读一个假设的人际冲突场景，并想象自己就是那个被普遍认为是“做错了一方”的人。随后，他们分别阅读一段谄媚或非谄媚的AI回复。第3项实验中，参与者与被设定为谄媚或非谄媚模式的AI工具进行实时对话，讨论真实的人际困境。上述两项实验结果一致表明：与谄媚型聊天机器人互动的人更倾向于认为自己是正确的，也更不愿意道歉或做出弥补。而且，人类用户认为谄媚回复质量更高，说出谄媚回复的AI在性能和道德上更值得信任、“客观”、“公正”，他们也更愿意再次使用谄媚的大语言模型。

值得注意的是，尽管对AI持积极态度的人受谄媚影响更大，但即使在控制了参与者的个性特征和对AI的态度之后，谄媚效应依然显著存在——即便是对AI持怀疑态度的人也难以完全免疫这种奉承效应。无论聊天机器人的语气是友好还是中立，甚至无论用户是否被告知建议来自人类还是AI，结果都没有改变。“这很令人惊讶，因为你通常会想，‘我不会上当的’，”Cheng指出，这是一个普遍现象。人们喜欢吹捧，无论来源如何。

卡内基梅隆大学研究人机交互的Steve Rathje认为，虽然随着新模型的推出，AI的谄媚程度可能会发生改变，但目前市面上这些AI的谄媚已令人“警觉”。华盛顿大学认知科学家Max Kleiman-Weiner此前的研究表明，谄媚型聊天机器人可能导致“妄想螺旋”——当用户抛出一些偏激或不客观的观点时，AI不仅不去挑战、纠正，反而附和这些观点。随着交流深入，用户在这种毫无底线的“回音室”里越陷越深，形成类似“妄想”的状态。

Cheng认为，要减少AI的谄媚行为，需要在大语言模型的训练、评估、监管和用户呈现方式等多个层面进行变革。例如，目前模型在训练时通常被优化为给出一次性回复，而非参与长期互动，这可能助长了谄媚倾向。Kleiman-Weiner则认为，企业自身有动力解决这一问题，因为极端案例带来的负面关注对任何公司来说都不是好事。

相关论文：https://doi.org/10.1126%2Fscience.aec8352

大学分数越给越松，“GPA通胀”开始卷到博士生了

一项针对美国中西部一所大型公立大学的研究表明，硕士和博士研究生的成绩在过去二十年间显著上升，而这种上升并非源于学生学术能力的实质性提升——换言之，“成绩膨胀”现象已从中小学和本科阶段蔓延至研究生教育层面。

该研究于3月25日发表在《公共科学图书馆·综合》（PLoS ONE）上，分析了1999年至2020年间该校（出于数据隐私考虑，作者未公开校名）150多个研究生项目中近2.5万名硕士生和1.6万名博士生的成绩数据。结果显示，硕士生的平均累计绩点（GPA，满绩4.0）从1999年入学队列的3.70上升至2020年入学队列的3.82；博士生的平均GPA则从3.74升至3.82。

为排除学生本身素质提升这一可能的解释，研究团队利用学生入学时的GRE（美国研究生入学考试）成绩对数据进行了校正，同时还控制了学校人口结构变化等因素。经过这些调整后，成绩上升的趋势依然存在，进一步佐证了“成绩通胀”而非“真实进步”的判断。

论文合著者、明尼苏达大学工业与组织心理学研究者Vivien Lee指出，令人警惕的是，即使二十年前研究生的成绩就已经处于较高水平，这一上升趋势仍在持续。在1999年至2020年间，硕士生平均GPA与满分4.0之间的差距缩小了40%，博士生则缩小了31%。她表示：“当成绩越来越接近量表的上限时，它们用来区分学生的功能就会越来越弱——而区分能力恰恰是成绩评定的核心用途。”

关于成绩膨胀的成因，目前学界尚无定论。一种假说认为，大学教授可能出于获得更好的学生评教结果或提高课程注册率的动机，倾向于给出更高的分数。

对于这一现象可能带来的后果，研究者的看法较为审慎。未参与该研究的德克萨斯大学奥斯汀分校经济学家Jeffrey Denning表示，该发现与他自己的研究结论相吻合——他此前发现美国研究生的毕业率正在上升，这可能与更高的成绩带来的激励效应有关。但他同时指出，成绩膨胀的利弊目前尚不明朗：“更多学生顺利毕业是好事，但如果这削弱了学生努力学习的动力，那就未必是好事了。”

由于该研究仅基于一所大学的数据，其结论能否推广至更广泛的范围仍需进一步验证。不过，Lee表示，基于对样本的了解，她认为这些学生与美国其他高校的研究生并无本质差异，因此预计类似趋势可能在其他学校同样存在。

值得注意的是，成绩膨胀问题此前已在全球多个国家的中学和本科院校中得到充分记录，但在研究生层面的系统研究仍属少见。并非所有国家的研究生教育都采用成绩评分制度，但在美国，这一做法相当普遍。随着研究生成绩的区分度日益下降，如何更有效地评估研究生的学术表现，或许将成为高等教育界需要认真面对的新课题。

相关论文：https://doi.org/10.1371%2Fjournal.pone.0341315

哺乳动物能被无限克隆吗？20年实验给出答案

经过20年的不懈努力、58代的反复克隆以及超过30000次的克隆尝试，日本山梨大学的一个研究团队终于触及了单只小鼠连续克隆的极限。这项于3月24日发表在《自然·通讯》（Nature Communications）上的研究表明，对于小鼠乃至其他哺乳动物而言，无性繁殖可能是不可持续的。

论文作者包括世界上第一个创造克隆鼠的科学家若山照彦。数十年前，日本山梨大学的生殖生物学家若山照彦（Teruhiko Wakayama）与妻子若山清香（Sayaka Wakayama）共同启动了一项雄心勃勃的实验，旨在探究仅通过克隆手段能将一只小鼠的基因“保存”多久。2013年，他们在《细胞·干细胞》（Cell Stem Cell）上报告已成功将克隆谱系延续至第25代，并乐观地写道：“动物或许可以被无限地重复克隆。”

第25代连续克隆小鼠的卵子受精发育而成的早期胚胎 | 山梨大学

然而，好景不长。尽管研究人员始终努力维持一致的实验条件，但从第27代之后，克隆成功率便开始下降，从第40代开始快速下降，第57代的成功率只有0.6%，第58代是最后一代，所有克隆小鼠在出生后的第二天全部死亡，他们再也无法从克隆体中成功培育出新的克隆个体。值得注意的是，尽管克隆过程日益艰难，但除了最后一代，那些成功存活下来的克隆小鼠在外观上与普通小鼠没有明显差别，寿命也与正常小鼠相当。

研究人员随后探寻了克隆失败的原因，包括DNA上影响基因活性的化学修饰（表观遗传标记）等因素。但他们发现，最显著的差异出现在DNA序列本身。若山照彦估计，体细胞克隆鼠的单碱基突变频率约为正常小鼠的3倍。尤其是在后期世代中，大规模的DNA结构变异开始大量积累——染色体片段缺失、倒位以及染色体易位，甚至整条X染色体完全丢失。正是这种基因组层面的“混乱”最终导致了克隆谱系的终结。

日本理化学研究所（RIKEN）生物资源研究中心的生殖生物学家小仓淳郎（Atsuo Ogura）评价道："这项研究首次在实验层面证明，如果哺乳动物持续进行无性繁殖，突变会逐代累积，最终导致整个谱系的终结。"

美国亚利桑那州立大学的进化生物学家Michael Lynch未参与该研究，他指出这一发现的意义可能远超小鼠本身：“这很可能适用于所有脊椎动物的克隆，对农业有着巨大的影响。”他解释说，在动物育种中，一旦获得了最优基因组，保留它的最佳方式就是克隆——“但突变问题是个例外”。Lynch强调，突变的累积对无性繁殖群体尤为致命，因为这些群体没有机会与其他群体进行基因组混合。“一旦突变进入了谱系，它就永远存在，再也无法消除。”

这项研究对畜牧业中通过克隆技术保存优良品种的实践提出了指导。小仓淳郎建议："如果目标是通过克隆保存优良牲畜，那么应当提前储存大量体细胞用于克隆，并避免跨世代的反复连续克隆。"换言之，与其一代接一代地进行“复制的复制”，不如始终从原始储存的细胞出发，每次都从源头开始克隆，从而最大限度地减少突变的累积效应。

相关论文：https://doi.org/10.1038%2Fs41467-026-69765-7

顶会“水印钓鱼”，500多名审稿人用AI代审被抓包

国际顶级AI学术会议国际机器学习大会（ICML）近日宣布，因作者在同行评审中违规使用大语言模型（LLM），大会已拒收497篇投稿论文，约占总投稿量的2%。

ICML 2026将于今年7月在韩国首尔举行。该会议实行"互惠评审"制度，即每篇投稿论文至少需要一名作者参与其他论文的同行评审工作。此次被拒收的论文，正是因为其作者在评审他人论文时违反了大会关于AI使用的相关政策。

本次大规模清查行动的核心技术手段颇具巧思。组委会采用水印技术，在分发给审稿人的论文中嵌入了人眼不可见、但大语言模型可以识别的隐藏指令。这些指令会引导LLM在生成的评审意见中插入两个看似寻常的特定短语，例如“This manuscript's key idea concerns”和“an important concept addressed by this study”。每篇论文对应的短语组合都是从一个包含17万条短语的库中随机抽取的，因此一篇由人类独立撰写的评审意见恰好同时包含这两个特定短语的概率微乎其微。所有被系统标记的评审意见还经过了人工复核。

通过这一方法，组委会共发现506名审稿人提交了795篇由LLM辅助生成的评审意见，约占总评审量的1%。组委会坦言，该方法可能只能捕捉到“最明目张胆、最不加掩饰的LLM滥用行为”，因为模型并不总是会遵循隐藏指令，而且一旦审稿人知晓水印机制的存在，规避起来也并不困难。

ICML今年首次尝试设置了两条平行的同行评审通道——一条允许有限度地使用LLM，另一条则严格禁止任何AI介入。论文作者和审稿人可以自行选择加入哪条通道。只有那些明确表示愿意遵守“禁止LLM”政策、或者要求自己的论文在无AI审稿通道中接受评审的作者，才会被要求在审稿时不使用AI工具。此次被查处的违规行为均发生在禁止使用LLM的审稿通道中。

组委会在3月18日发布的博客文章中表示，此举针对的是学术诚信问题，而非AI工具本身的可靠性，“我们并不是在对被标记评审的质量或审稿人的动机作出价值判断”。

消息公布后，许多研究人员在社交媒体上对ICML的举措表示赞赏，甚至有人建议对违规作者实施更严厉的禁止再投稿处罚，或呼吁其他会议效仿。但也有学者持不同看法。美国德克萨斯A&M大学计算机科学家涂正中（Zhengzhong Tu）认为，该政策“只会打击所有审稿人的积极性”，审稿人将会绕开禁止AI的通道，转而利用LLM“生成毫无意义的评审意见”。

ICML博文：https://blog.icml.cc/2026/03/18/on-violations-of-llm-review-policies/

每晚多睡11分钟可以降低心脏病风险

一项3月24日发表于《欧洲预防心脏病学杂志》（European Journal of Preventive Cardiology）的研究发现，每晚多睡11分钟、每天多进行4.5分钟的快步行走、多摄入约50克蔬菜，就能将心脏病发作和中风等重大心血管事件的风险降低约10%。研究人员称，这些看似微不足道的行为改变所带来的心血管健康收益“大得令人惊讶”。

研究者分析了英国生物样本库（UK Biobank）中超过5.3万名中年成年人的数据。研究团队通过智能手表等可穿戴设备采集了参与者的睡眠习惯和运动水平数据，并通过自我报告的方式收集了饮食信息。

在长达八年的随访期间，研究人员共记录到2034例重大心血管事件。通过数据分析，研究团队确定了预防心血管疾病的“最优”生活方式组合：均衡饮食、每晚保证8至9小时睡眠，以及每天至少进行42分钟中高强度体力活动。将这三项措施结合起来，可使心脏病发作和中风的风险降低高达57%。研究者指出，所谓的中高强度活动并不需要专门去健身房，爬楼梯、提购物袋、快步行走等日常活动都包含在内。

该研究的第一作者、悉尼大学研究员尼古拉斯·科梅尔博士表示：“我们的研究表明，在日常生活的几个方面做出小幅度的调整，就能对心血管健康产生出人意料的积极影响。这是一个非常令人鼓舞的消息，因为与在单一行为上做出重大改变相比，同时在多个方面做出小幅调整对大多数人来说更容易实现，也更容易长期坚持。”他鼓励人们不要忽视日常生活中任何一个看似微小的改变。

值得注意的是，这项研究属于观察性研究，尚无法确立生活方式行为与心血管风险之间的明确因果关系。研究者建议，后续还需通过干预性临床试验来进一步验证上述发现。

相关论文：https://doi.org/10.1093/eurjpc/zwag141

频繁射精或可提升男性生育能力

一项大规模研究显示，精子在体内停留的时间越长，其DNA损伤和氧化应激的迹象越明显，活力和游动能力也随之下降。因此男性更频繁地射精可能有助于提高生育能力。

该研究由牛津大学生物学家克里什·桑格维（Krish Sanghvi）博士领衔，成果发表于《英国皇家学会学报B》（Proceedings of the Royal Society B）。研究团队对115项涉及近5.5万名男性的人类研究以及56项涵盖30个非人类物种的精子储存研究进行了荟萃分析，结果表明，无论男性年龄如何，精子在体内储存期间均呈现质量下降的趋势，且这一规律在人类和其他动物中普遍存在。

桑格维博士表示：“我们在精子DNA损伤和氧化损伤方面发现的负面效应相当显著，因此我们有信心认为这是一个具有生物学意义的重要发现。”

目前，世界卫生组织（WHO）建议男性在进行精液检测或试管婴儿取精前禁欲2至7天。然而，该指南的制定初衷是为了获取最高的精子数量，而非优先考虑精子质量。这一传统观点如今正面临挑战。

另一项涉及453对夫妇的临床试验提供了更为直观的证据。在试验中，医生将受试夫妇分为两组：第一组男性在取精前禁欲不足48小时，第二组则按照WHO建议禁欲2至7天。结果显示，短时间禁欲组的妊娠率达到46%，而较长时间禁欲组仅为36%，差距十分明显。

对于自然备孕的夫妇，禁欲2到7天可能比较合适。桑格维博士建议在精子数量与质量之间寻求平衡，禁欲时间过长，精子可能受损且活动力下降；禁欲时间过短，精子数量或成熟度可能不足。他强调：“较长时间的禁欲并非总是有益的，数量与质量之间需要找到一个平衡点。”

曼彻斯特大学男科学教授艾伦·佩西（Allan Pacey）对此表示认同。他指出，在诊断阶段进行精液分析时，遵守2至7天的禁欲规则仍然十分重要，因为这有利于不同实验室之间的结果比较以及与国际基准的对照。但在实施试管婴儿等辅助生殖技术时，拥有最新鲜、最健康的精子可能更为关键。佩西补充说：“我们可以用较少的精子完成试管婴儿治疗，如果采用卵胞浆内单精子注射技术（ICSI），所需精子数量甚至更少，因此男性无需像过去认为的那样‘攒’精子。”

相关论文：https://doi.org/10.1098/rspb.2025.3181

中科院期刊分区表退出历史舞台

3月27日，中国科学院文献情报中心发布声明，将不再更新与发布期刊分区表，任何其他机构发布的期刊分区表均与文献中心无关。

中国科学院文献情报中心自2004年开始编制期刊分区表，旨在为科研人员了解本领域学术期刊的影响力以及期刊评价工作提供参考。多年来，这一分区表在学术界被广泛使用，研究人员也习惯性称其为“中科院分区”。但根据2018年的一则官方说明，期刊分区表相关成果发布虽冠以“中科院”名义，其实并未经授权。

3月24日，由新锐学术研制的《新锐期刊分区表》（简称“新锐分区”）正式发布，其核心理念为“独立、公益、免费、开放”。新锐学术虽然是独立第三方机构，其多位核心成员依然有着中科院情报文献中心的职位背景。新平台的权威性、与旧体系的关系以及能否被高校和科研机构继续认可，一度引起网友广泛讨论。此次中国科学院文献情报中心发布声明，被视为和新锐学术彻底切割。