谷歌只收录首页怎么办?提升Google抓取额度的2个关键
官方后台状态栏上的“已发现 - 尚未建立索引”数字停留在850。服务器运行了整整三个月收录报表里仅有1条记录指向主页。带有商品分类前缀的内页抓取频次常年为0。每天都有大量新注册地址面临收录停滞现象。爬虫程序每天在互联网上读取数万亿个网页分配给全新低权重站点的访问时间短至3秒。3秒钟内爬虫找不到通向内页的门带着空白记录离开。查阅服务器访问记录是弄清爬虫去向的手段。在Linux环境下下载昨天的纯文本访问日志。使用文本编辑器搜索官方爬虫特有字符。全天有20条访问记录。查看全天20条记录请求的具体路径18条集中在主页根目录剩下2条读取了爬虫协议文本。庞大的商品详情页根本不在日志列表里。没有任何机器程序光顾过内页。网页内部的链接网决定了爬虫行走的路线。鼠标点击次数是衡量网页深浅的尺子。经历4次以上鼠标点击才能到达的详情页被分配到的抓取概率成指数级衰减。电商站点的老旧商品页被排在分页导航的第25页。爬虫顺着第1页往下爬到第5页停止前进。旧商品页成为无法被触及的孤岛。把近期发布的50个重点商品提取出来放置在首页下方专门开设的文字推荐区块中。含有超文本标记的代码将首页权重输送给内页爬虫读取首页源码便能读取一长串内页地址。爬虫工程师在系统内部设定了上下浮动的访问阈值。一台响应迟缓的服务器单日接纳的官方爬虫访问总数被严格限制在极低水平。网页代码的体积与服务器响应速度决定了单位时间内的抓取量。爬虫抓取一条完整的超文本代码耗费1200毫秒当天的访问配额会被极其缓慢的加载速度耗尽。打开Chrome浏览器开发者面板Network网络选项卡下的Waiting时间是一项参考指标。将等待时间压缩到200毫秒以内爬虫的工作效率成倍增加。把网页体积压缩到50KB以下剔除页面头部多余的样式代码和无用的内联脚本。处理重复内容能节省大量被浪费的访问额度。带参数的繁杂链接会制造海量雷同页面。一件包含红、黄、蓝3种颜色搭配大、中、小3个尺码的冲锋衣由后台程序生成了9个带有不同颜色与尺码参数代码的独立链接。爬虫花费9次抓取配额读取了9次除了颜色参数外毫无差别的图文描述。编写一段正则代码拦截无效参数在页面的代码头部加入规范标签指向纯净版路径。纯JavaScript渲染的页面是一堵阻挡抓取的墙。采用Vue或React编写的单页面应用初始源码中只有1个空壳排版标签。爬虫需要调动网页渲染服务去执行多重脚本代码排队等待渲染的时间长达14天。采用服务端渲染技术由服务器预先拼接输出完整的静态文档内容将文字毫无保留地呈现给爬虫程序。丰富的信息密度让网页具备被建立索引的资格。一页只包含2张商品图片和30个字简短描述的页面被算法判定为内容单薄。单页内填充包含500字以上的参数介绍、测试指标以及使用说明。增加文字占比将文本与代码的比率拉高到25%以上。为每一张插图补充图像替换文本给无法识别图像的爬虫提供文字解说。网域的历史足迹影响机器程序的访问频率。一个刚注册30天的新名字每天的抓取配额上限固定在100次左右。老地址停靠5年重新建站后的首周依然能获得每天超过800次的抓取宽容度。在时光机工具里输入地址能看到过去10年间的所有历史快照记录。老旧名字遗留了成百上千个外部引荐痕迹。顺着过往的痕迹爬虫成群结队地顺着外网进入新服务器。针对新站在全网高权重信息板面上发布20篇包含纯文本名字的介绍文章人工制造访问热度。服务器日志审查细则筛选状态码为301的跳转链条超过3次自动断开。排查404死链数量占比超过整站15%需彻底清理。识别假冒爬虫来源通过反向解析核实真实访问者的身份标示。统计每日抓取总数低于50次属于严重停滞。分析响应包体积超2MB的页面极度占用带宽。过滤503状态码排查服务器过载引发的宕机记录。页面代码瘦身指标样式表文件捆绑打包外部请求总数控制在5个以内。清除无效内联样式缩减源码总体积至规范要求。图片转码为高压缩比格式单张大小缩减至100KB内。非首屏图片采用延迟加载添加特定延迟属性代码。剔除冗余排版节点总数量控制在1500个上限。压缩中文字体库文件剔除未使用的字形符号。网址结构规范化调整移除路径内的中文字符统一转码为短英文字母。目录层级控制在3层以内。使用连字符代替下划线分隔各个英文单词。统一采用小写字母避免大小写混合导致双重收录。带有会话标识的乱码路径在控制台配置禁止读取规则。删除末尾无意义的数字后缀与特殊符号。网址类型分类处理表页面访问类型机器爬虫处理方式HTTP响应状态码鞋类单品详情页完整读取代码200 OK带价格排序代码的单品页指向纯净版原链接200 OK下架旧商品页永久重定向至新版301 Moved Permanently购物车结算程序代码爬虫协议文件拦截屏蔽读取请求已彻底删除商品页返回明确错误提示404 Not Found内容查重与质量审核提取文本段落放进查重工具重复率高于40%需重写。页面正文增加行业专属名词提升词汇丰富度。替换千篇一律的厂商通稿加入自采照片5张。建立站内文章互联网络每篇文章添加3个内部引荐。检查网页标题字数截断在60个字符以内。增加带有清晰数值的参数对比列表代替模糊描述。移动设备适配排查在手机模拟器下测试页面横向滚动条消除溢出宽度。调整触控目标间距按钮之间保留8像素以上的安全距离。设定网页字体标准尺寸为16px提升小屏幕阅读舒适度。关闭全屏遮挡的弹窗广告代码防止内容被遮盖。使用官方测速工具跑分移动端性能分数需达80。外部干预操作备案在官方站长后台手动提交包含5000条上限的目录清单文件。使用抓取检查工具发起单次读取请求每日限额50条。设定Ping推送程序内容更新后向服务端发送通知代码。定期清理无效旧文章使用410状态码告知已永久移除。观察日志内图像爬虫的活动频率判断图片建库情况。监测移动端和桌面端机器人的访问比例常态保持在8比2左右。