跳至主要内容

如何在18天内让Google收录超过55亿个网页

点击看大图   今天这个新闻成为了热点,同时也让人感到非常吃惊。这也许是有史以来最成功的Spam个案,因为它成功地骗过了Google,让Google在18天内收录了它的超过55亿个网页。这是一个前所未有的例子,同时也对Google的形象造成了一定的影响。那么到底是谁这么厉害,用什么样的方法做到这一点的呢?下面我们一起来看一下实现的方法。

  根据 Monetize(via digg )的报道,下面这两个网站被Google收录的网页数量达到了惊人的几十亿:

  直接点击这里看站点一的Google收录结果

   直接点击这里看站点二的Google收录结果

  要提醒一下的是,点击上面的链接时,每个人返回的结果数并不一定相同,这是因为每个人访问的Google数据中心不一定相同。但结果都是十分惊人的。为了保存记录,我截了两个图:

点击看大图
这是站点一的收录结果,接近24亿个。

点击看大图
这是站点二的收录结果,少一些,但也接近20亿个。

  根据数据中心的结果的不同,以上两个站点能查询到的Google收录数量分别最多可达55亿个和24亿个。当然,不排除这件事曝光后Google会对这个站采取行动,估计以后查询的话,结果数量会更少。

  然而更令人吃惊的是上面的两个站点的域名都只有18天历史,也就是说这两个站在3个星期内,就已经被Google收录了几十亿个网页。更不可思议的是,这两个站点的拥有者为同一个人,并且站点的每个网页上竟然都投放着Google AdSense广告!(写到这里,我再次打开这两个站点,却找不到AdSense广告了,因为站点被曝光后站长已经快速地撤走了所有广告,但之前的确是有的)可想而知这两个站点已经从Google手里赚走了多少广告费。

  那么到底这种超级Spam是怎样实现的呢?下面是大概的方法:

1.注册一个无意义的域名,域名由数字、字母及特定符号组成。注册多一些,比如100个;

2.用服务器把这些域名及相关的子域名管理起来。为域名建立尽可能多的子域名。当然,你需要一个足够强大的服务器,因为在接下来的几个星期里,它将要承受巨大的访问压力;

3.弄来尽可能多的文章数据库。不管你是采集还是用钱买的,尽量弄多一些,至于内容是什么并不重要。最好把这些数据库中的某些字符替换成相应的ASCII码,这样就不会被搜索引擎认为是重复的内容;

4.自己编写或购买一个特定的脚本。这个脚本的作用是用来返回不同关键词的相关结果,并且有效地让数据库的内容分配到不同的子域名里。这个脚本应该能应付所有的查询。并且在服务器里设置所有的子域名都自动转向域名主页,并且由这个脚本决定显示的内容。并且你还要为这些子域名创建无限多的子域名,比如abc.xyz.com,变成123.abc.xyz.com。这是为了欺骗Google,因为Google(或者MSN、Yahoo!等)都认为一个子域名是一个新站点。这一点是成功的关键,如果你自己没有这种能力,那么最好出钱叫别人做。由于某些原因,这里只写大概。

5.发动blog评论spam攻势。把你的子域名遍布尽可能多的blog或其它网站;

6.等待几个星期,你将会有惊喜。

  上面例子中的站点可谓超级垃圾站,并且Google没能成功地识别这是一种Spam行为,反而收录了它的几十亿个网页。相比国内的一些单纯通过采集数据而建立起的垃圾站而言,这两个站的站长就聪明得多了。但无论如何,这种行为都是应该要受到所有搜索引擎的惩罚才行,否则对于广大正规做站的站长而言,是极不公平的行为。同时这种行为也会极大地损害Google在用户心里的形象,破坏用户对Google的信赖感。

  我的估计是这两个站很快就会被Google处以极刑。当然,与Spam站点作斗争是所有搜索引擎共同面对的任务,这是一个漫长的过程。但作为普通用户,我们更希望的是包括Google在内的搜索引擎可以提高识别垃圾站的能力,净化搜索结果,提高准确度。

评论

此博客中的热门博文

How to Design a Store Front Sign

In this Article we will talk about designing a store front for a business. What color or size should your Letters & designs be? What to put on your sign and why?, then be ready to Get in touch with sign people and get your best deal. Large lettering with out a front sign could save you time and money Do your products have a special shape or color to emulate on your sign? Kodak is always in yellow and black, Coca-Cola white on red, Etc. Muffler places, have a sign in the shape of a muffler. your phone number on the store front some place, but not on the identification sign, (door, or window) Your Product & logos can be arranged on the front sign, or window. Not on the Pole sign, Store hours & phone number could fit in your design and by using the product color, it could add product recognition & enhance your design. Suppliers may provide plenty of advert

music forum (zt)

24. moonlight - ≡ Sound Of Nature ≡ -     15. Tone Quebec Network 17.Ukoo http://www.hispeed.com.cn/Forum/LoadForum.asp?Foru m / a> http://bbs.dd81.com/index.php 30. Jazz pawnshop http://www.sogua.com/ 6. Lyrics 吾爱 http://www.inkui.com Reading of the singer in mind 2. Hyun tone http://d.sogou.com/ http://www.beihai365.com/bbs/forumdisplay.php?f/a> 20. Left Bank • Teana http://bbs.flamesky.com/ 8. Sogou sogou- 25.U Shadow 吾爱 sound waves 4. Need 14.HDCD http://www.commus.com/ 29, Buddhist music, do not know the name of the http://www.itpub.net/forum79.html http://bbs.kugoo.com/index.asp http://bbs.uying.com/176/Index.aspx http://board.verycd.com/ http://board.verycd.com/f8.html 13.MP3 barrage http://bbs.51lrc.com/index.asp?board/a> A pleasant song - "Dancing circulation" 19.Verycd of http://bbs.breezecn.com/ http://www.mp4cn.com/2008/index.html Sound of Music Forum, http://www.jazzsky.com/lb/cgi-bin/leobbs.cgi http://www.luopo.co

找到一个可以替代ghs.google.com的地址

用Goole Blogger的自定义域名功能需要用到 ghs.google.com 做CNAME,或者用ping ghs.google.com 得出的IP做一个A记录.但是,伟大的GFW已经把 ghs.google.com 和部分IP屏蔽在大陆之外.这样的壮举使得我们的自定义域名不能正常访问,或者让你的网页背景.图片被滤掉,精心做成的模板变得惨白不堪. 那么,我们可不可以找一个替代 ghs.google.com 的地址呢?当然能.因为Google是强大的.它有许多有用的IP地址让你去探寻. 对 ghs.google.com 分析研究后发现, ghs.google.com 这台服务器并没有提供实质性的服务,而只是选择访问者访问最快的服务器(Google全球性公司,很多地区都有服务器).我们只要找到其他服务器的IP地址,并且这个IP地址没被屏蔽,那么就成了. 寻找这样的IP地址需要用到tracert命令.即在CMD模式下输入:tracert ghs.google.com ,在已经屏蔽的当下,最后自然得不出结果,这就需要我们使用代理了.使用不同地区的代理运行tracert ghs.google.com 命令. tracert ghs.google.com 的最后一跳会有类似这样的域名: eh-in-f121.google.com 如果在不用代理的情况下,你能ping通这个域名,那么恭喜你,你找到了!现在就可以用这个域名代替 ghs.google.com 设置你的CNAME了,ping出的IP地址可以做A记录,CNAME和A记录,只做其中之一就可以. hs-in-f121.google.com 64.233.179.121 eh-in-f121.google.com 72.14.207.121 bx-in-f121.google.com 66.249.81.121 ik-in-f121.google.com 66.249.91.121 这4个在我所在地区不能使用,而可以使用 tw-in-f121.google.com 72.14.235.121 或者209.85.171.121也可用 下面是一些不断更新的:74.125.43.121 除了使用代理来寻找,也可以通过一些网站提供的功能来寻找这个地址,很方便,就是使用网站提供的Traceroute.这些网站有: h