与多位百度人员沟通得到的内部信息
此贴记录一些我曾和百度内部一些人员的沟通中,比较重要的几部分,内容会比较散。
1. From 运营@百度空间
百度内部产品的网页收录,不是由百度爬虫进行抓取,而是直接提交结构化数据。
百度产品也想要从其它搜索引擎获取流量。
2. From PM@百度知道
百度的几个流量产品,其流量的SEO占比极其高。
百度的产品也想方设法从百度搜索获取更多流量。
之所以目前SERP上多数百度知道的结果下面都有相关问题链接,这和一些人想象当中相反,是百度在打压百度知道。因为本来百度知道很多时候在SERP可以占据多条搜索结果,现在很多情况下被并为一条。
3. From RD@大搜索-基础排序
百度判断网页的层级关系,主要依赖于面包屑导航。
竞价与自然搜索是完全分开的两块,彼此拿不到对方的数据。
百度的流量产品想获取更多百度SEO流量十分简单,只要内部调整一下权重值。
在基础排序的角度看来,多数页面的相关性都一样——标题有关键词、内容有关键词...所以在这种情况下会依赖于【站点的权重】、【用户行为数据】来决定最终排名。
4. From RD@大搜索-反作弊
百度内部想让一个站提升或者下降SEO流量十分简单,且可以控制变化的流量量级。
反作弊规则有两大类,上策略与上数据。上数据的话,会有一批作弊URL被处理,隔段时间可能下一批URL被处理;上策略的话,新的作弊URL一旦产生即被处理。
5. From RD@大搜索-爬虫(通过他人间接沟通)
对于单IP多子域名,百度会提取一个子域名作为核心,重点抓取。其余均视为*.xxx.com,近似平均分配抓取。
抓取限制的策略比较复杂,总体而言抓取以抓取总量为上限。
6. From RD@大搜索-爬虫(另一人)
哪怕总体而言抓取以抓取总量为上限,因为规则不是单一的,因此加快网页加载速度让每个页面抓取更快的话,总抓取量还是会上升。