ZERO与多位百度人员沟通得到的内部信息

2015 年 6 月 26 日10:57:30SEO知识3,173

与多位百度人员沟通得到的内部信息
此贴记录一些我曾和百度内部一些人员的沟通中，比较重要的几部分，内容会比较散。
1. From 运营@百度空间

百度内部产品的网页收录，不是由百度爬虫进行抓取，而是直接提交结构化数据。

百度产品也想要从其它搜索引擎获取流量。
2. From PM@百度知道

百度的几个流量产品，其流量的SEO占比极其高。

百度的产品也想方设法从百度搜索获取更多流量。

之所以目前SERP上多数百度知道的结果下面都有相关问题链接，这和一些人想象当中相反，是百度在打压百度知道。因为本来百度知道很多时候在SERP可以占据多条搜索结果，现在很多情况下被并为一条。
3. From RD@大搜索-基础排序

百度判断网页的层级关系，主要依赖于面包屑导航。

竞价与自然搜索是完全分开的两块，彼此拿不到对方的数据。

百度的流量产品想获取更多百度SEO流量十分简单，只要内部调整一下权重值。

在基础排序的角度看来，多数页面的相关性都一样——标题有关键词、内容有关键词...所以在这种情况下会依赖于【站点的权重】、【用户行为数据】来决定最终排名。
4. From RD@大搜索-反作弊

百度内部想让一个站提升或者下降SEO流量十分简单，且可以控制变化的流量量级。

反作弊规则有两大类，上策略与上数据。上数据的话，会有一批作弊URL被处理，隔段时间可能下一批URL被处理；上策略的话，新的作弊URL一旦产生即被处理。
5. From RD@大搜索-爬虫（通过他人间接沟通）

对于单IP多子域名，百度会提取一个子域名作为核心，重点抓取。其余均视为*.xxx.com，近似平均分配抓取。

抓取限制的策略比较复杂，总体而言抓取以抓取总量为上限。
6. From RD@大搜索-爬虫（另一人）

哪怕总体而言抓取以抓取总量为上限，因为规则不是单一的，因此加快网页加载速度让每个页面抓取更快的话，总抓取量还是会上升。

登录 找回密码