跳至主要内容

如何在18天内让Google收录超过55亿个网页

点击看大图   今天这个新闻成为了热点,同时也让人感到非常吃惊。这也许是有史以来最成功的Spam个案,因为它成功地骗过了Google,让Google在18天内收录了它的超过55亿个网页。这是一个前所未有的例子,同时也对Google的形象造成了一定的影响。那么到底是谁这么厉害,用什么样的方法做到这一点的呢?下面我们一起来看一下实现的方法。

  根据 Monetize(via digg )的报道,下面这两个网站被Google收录的网页数量达到了惊人的几十亿:

  直接点击这里看站点一的Google收录结果

   直接点击这里看站点二的Google收录结果

  要提醒一下的是,点击上面的链接时,每个人返回的结果数并不一定相同,这是因为每个人访问的Google数据中心不一定相同。但结果都是十分惊人的。为了保存记录,我截了两个图:

点击看大图
这是站点一的收录结果,接近24亿个。

点击看大图
这是站点二的收录结果,少一些,但也接近20亿个。

  根据数据中心的结果的不同,以上两个站点能查询到的Google收录数量分别最多可达55亿个和24亿个。当然,不排除这件事曝光后Google会对这个站采取行动,估计以后查询的话,结果数量会更少。

  然而更令人吃惊的是上面的两个站点的域名都只有18天历史,也就是说这两个站在3个星期内,就已经被Google收录了几十亿个网页。更不可思议的是,这两个站点的拥有者为同一个人,并且站点的每个网页上竟然都投放着Google AdSense广告!(写到这里,我再次打开这两个站点,却找不到AdSense广告了,因为站点被曝光后站长已经快速地撤走了所有广告,但之前的确是有的)可想而知这两个站点已经从Google手里赚走了多少广告费。

  那么到底这种超级Spam是怎样实现的呢?下面是大概的方法:

1.注册一个无意义的域名,域名由数字、字母及特定符号组成。注册多一些,比如100个;

2.用服务器把这些域名及相关的子域名管理起来。为域名建立尽可能多的子域名。当然,你需要一个足够强大的服务器,因为在接下来的几个星期里,它将要承受巨大的访问压力;

3.弄来尽可能多的文章数据库。不管你是采集还是用钱买的,尽量弄多一些,至于内容是什么并不重要。最好把这些数据库中的某些字符替换成相应的ASCII码,这样就不会被搜索引擎认为是重复的内容;

4.自己编写或购买一个特定的脚本。这个脚本的作用是用来返回不同关键词的相关结果,并且有效地让数据库的内容分配到不同的子域名里。这个脚本应该能应付所有的查询。并且在服务器里设置所有的子域名都自动转向域名主页,并且由这个脚本决定显示的内容。并且你还要为这些子域名创建无限多的子域名,比如abc.xyz.com,变成123.abc.xyz.com。这是为了欺骗Google,因为Google(或者MSN、Yahoo!等)都认为一个子域名是一个新站点。这一点是成功的关键,如果你自己没有这种能力,那么最好出钱叫别人做。由于某些原因,这里只写大概。

5.发动blog评论spam攻势。把你的子域名遍布尽可能多的blog或其它网站;

6.等待几个星期,你将会有惊喜。

  上面例子中的站点可谓超级垃圾站,并且Google没能成功地识别这是一种Spam行为,反而收录了它的几十亿个网页。相比国内的一些单纯通过采集数据而建立起的垃圾站而言,这两个站的站长就聪明得多了。但无论如何,这种行为都是应该要受到所有搜索引擎的惩罚才行,否则对于广大正规做站的站长而言,是极不公平的行为。同时这种行为也会极大地损害Google在用户心里的形象,破坏用户对Google的信赖感。

  我的估计是这两个站很快就会被Google处以极刑。当然,与Spam站点作斗争是所有搜索引擎共同面对的任务,这是一个漫长的过程。但作为普通用户,我们更希望的是包括Google在内的搜索引擎可以提高识别垃圾站的能力,净化搜索结果,提高准确度。

评论

此博客中的热门博文

How to Design a Store Front Sign

In this Article we will talk about designing a store front for a business. What color or size should your Letters & designs be? What to put on your sign and why?, then be ready to Get in touch with sign people and get your best deal. Large lettering with out a front sign could save you time and money Do your products have a special shape or color to emulate on your sign? Kodak is always in yellow and black, Coca-Cola white on red, Etc. Muffler places, have a sign in the shape of a muffler. your phone number on the store front some place, but not on the identification sign, (door, or window) Your Product & logos can be arranged on the front sign, or window. Not on the Pole sign, Store hours & phone number could fit in your design and by using the product color, it could add product recognition & enhance your design. Suppliers may provide plenty of advert...

How to Make Money from Home Posting Links With No Out of Pocket Expense

Many people are earning money working from home just posting links on a blog, a website, or on well organized Social network marketing website. Anyone can earn substantial income by knowing what to do, where to do it, and how to do it. This article is designed around the Know How concepts to help people without that knowledge to set up their Blogs or Websites to achieve goal. Money is a medium of exchange that brings financial success TRAFFIC EXCHANGE ACCOUNT Log into your website or blog account and place the adsense code into the html document. Then save your document. Upload you website or blog to the internet following any instruction you received from your webmaster. Remember that your webmaster host your website or blog absolutely free. You must publish your site or blog for changes to take place. You now need free traffic resources to advertise and promote your new blog...

找到一个可以替代ghs.google.com的地址

用Goole Blogger的自定义域名功能需要用到 ghs.google.com 做CNAME,或者用ping ghs.google.com 得出的IP做一个A记录.但是,伟大的GFW已经把 ghs.google.com 和部分IP屏蔽在大陆之外.这样的壮举使得我们的自定义域名不能正常访问,或者让你的网页背景.图片被滤掉,精心做成的模板变得惨白不堪. 那么,我们可不可以找一个替代 ghs.google.com 的地址呢?当然能.因为Google是强大的.它有许多有用的IP地址让你去探寻. 对 ghs.google.com 分析研究后发现, ghs.google.com 这台服务器并没有提供实质性的服务,而只是选择访问者访问最快的服务器(Google全球性公司,很多地区都有服务器).我们只要找到其他服务器的IP地址,并且这个IP地址没被屏蔽,那么就成了. 寻找这样的IP地址需要用到tracert命令.即在CMD模式下输入:tracert ghs.google.com ,在已经屏蔽的当下,最后自然得不出结果,这就需要我们使用代理了.使用不同地区的代理运行tracert ghs.google.com 命令. tracert ghs.google.com 的最后一跳会有类似这样的域名: eh-in-f121.google.com 如果在不用代理的情况下,你能ping通这个域名,那么恭喜你,你找到了!现在就可以用这个域名代替 ghs.google.com 设置你的CNAME了,ping出的IP地址可以做A记录,CNAME和A记录,只做其中之一就可以. hs-in-f121.google.com 64.233.179.121 eh-in-f121.google.com 72.14.207.121 bx-in-f121.google.com 66.249.81.121 ik-in-f121.google.com 66.249.91.121 这4个在我所在地区不能使用,而可以使用 tw-in-f121.google.com 72.14.235.121 或者209.85.171.121也可用 下面是一些不断更新的:74.125.43.121 除了使用代理来寻找,也可以通过一些网站提供的功能来寻找这个地址,很方便,就是使用网站提供的Traceroute.这些网站有: h...