一、http://arxiv.org/abs/2512.22382、http://arxiv.org/abs/2603.00541论文中的方法算得上scaling law方法吗?严格来说,这两篇都不算经典意义上的“scaling law 方法”。更准确地说,它们属于μP / 参数化 / 超参数迁移(hyperparameter transfer)这一类“面向规模扩展的训练方法”,而不是 Kaplan/Chinchilla 那种直接研究“模型规模、数据量、算力与 loss/性能之间幂律关系”的 scaling law 方法。经典 scaling law 工作的核心是:拟合或利用性能随参数量、数据量、计算量变化的经验规律,并据此做 compute-optimal 设计;例如 Kaplan 研究的是 loss 与 model size / dataset size / compute 的 power-law 关系,Chinchilla 研究的是给定算力预算下模型参数和训练 token 的最优配比。(arXiv)第一篇Completed Hyperparameter Transfer acro