站長俱樂部:站长论坛


返回   站長俱樂部:站长论坛 > 網站經營區 > 搜尋引擎綜合討論 > Google
Blog 論壇幫助 社區 日曆事件 今日新文章 搜尋

回覆
 
主題工具 顯示模式
  #1  
舊 2006-06-19, 06:25 AM
蚂蚁风暴 蚂蚁风暴 目前離線
初級會員
 
註冊日期: 2006-01-10
文章: 27
預設 如何在18天内让Google收录超过55亿个网页

http://www.kenwong.cn/post/howto-get...n-18-days.html

2006-6-18 11:59:57 by 幻灭

  今天这个新闻成为了热点,同时也让人感到非常吃惊。这也许是有史以来最成功的Spam个案,因为它成功地骗过了Google,让Google在18天内收录了它的超过55亿个网页。这是一个前所未有的例子,同时也对Google的形象造成了一定的影响。那么到底是谁这么厉害,用什么样的方法做到这一点的呢?下面我们一起来看一下实现的方法。

  根据Monetize(via digg)的报道,下面这两个网站被Google收录的网页数量达到了惊人的几十亿:

  直接点击这里看站点一的Google收录结果

  直接点击这里看站点二的Google收录结果

  要提醒一下的是,点击上面的链接时,每个人返回的结果数并不一定相同,这是因为每个人访问的Google数据中心不一定相同。但结果都是十分惊人的。为了保存记录,我截了两个图:


这是站点一的收录结果,接近24亿个。


这是站点二的收录结果,少一些,但也接近20亿个。

  根据数据中心的结果的不同,以上两个站点能查询到的Google收录数量分别最多可达55亿个和24亿个。当然,不排除这件事曝光后Google会对这个站采取行动,估计以后查询的话,结果数量会更少。

  然而更令人吃惊的是上面的两个站点的域名都只有18天历史,也就是说这两个站在3个星期内,就已经被Google收录了几十亿个网页。更不可思议的是,这两个站点的拥有者为同一个人,并且站点的每个网页上竟然都投放着Google AdSense广告!(写到这里,我再次打开这两个站点,却找不到AdSense广告了,因为站点被曝光后站长已经快速地撤走了所有广告,但之前的确是有的)可想而知这两个站点已经从Google手里赚走了多少广告费。

  那么到底这种超级Spam是怎样实现的呢?下面是大概的方法:

1.注册一个无意义的域名,域名由数字、字母及特定符号组成。注册多一些,比如100个;

2.用服务器把这些域名及相关的子域名管理起来。为域名建立尽可能多的子域名。当然,你需要一个足够强大的服务器,因为在接下来的几个星期里,它将要承受巨大的访问压力;

3.弄来尽可能多的文章数据库。不管你是采集还是用钱买的,尽量弄多一些,至于内容是什么并不重要。最好把这些数据库中的某些字符替换成相应的ASCII码,这样就不会被搜索引擎认为是重复的内容;

4.自己编写或购买一个特定的脚本。这个脚本的作用是用来返回不同关键词的相关结果,并且有效地让数据库的内容分配到不同的子域名里。这个脚本应该能应付所有的查询。并且在服务器里设置所有的子域名都自动转向域名主页,并且由这个脚本决定显示的内容。并且你还要为这些子域名创建无限多的子域名,比如abc.xyz.com,变成123.abc.xyz.com。这是为了欺骗Google,因为Google(或者MSN、Yahoo!等)都认为一个子域名是一个新站点。这一点是成功的关键,如果你自己没有这种能力,那么最好出钱叫别人做。由于某些原因,这里只写大概。

5.发动blog评论spam攻势。把你的子域名遍布尽可能多的blog或其它网站;

6.等待几个星期,你将会有惊喜。

  上面例子中的站点可谓超级垃圾站,并且Google没能成功地识别这是一种Spam行为,反而收录了它的几十亿个网页。相比国内的一些单纯通过采集数据而建立起的垃圾站而言,这两个站的站长就聪明得多了。但无论如何,这种行为都是应该要受到所有搜索引擎的惩罚才行,否则对于广大正规做站的站长而言,是极不公平的行为。同时这种行为也会极大地损害Google在用户心里的形象,破坏用户对Google的信赖感。

  我的估计是这两个站很快就会被Google处以极刑。当然,与Spam站点作斗争是所有搜索引擎共同面对的任务,这是一个漫长的过程。但作为普通用户,我们更希望的是包括Google在内的搜索引擎可以提高识别垃圾站的能力,净化搜索结果,提高准确度。
回覆時引用此篇文章
  #2  
舊 2006-06-22, 04:51 AM
东方卫士 的頭像
东方卫士 东方卫士 目前離線
普通會員
 
註冊日期: 2005-12-27
文章: 95
預設

昨天报道的两个超级垃圾站,虽然在18天内被Google收录了几十亿个网页,但现在看来已经被Google处以极刑,拔得一毛不剩了。这是必然的结果。但这次事件在互联网上引起来了不小的震动,因为Google暴露出来的问题令人意外和吃惊。

  Google从今年1月份开始进行大规模的升级,将Bigdaddy作为新的默认数据中心。这项大工程大概于4月底完成。但升级后却出现了不少问题。首先是很多大型网站(比如Digg、维基百科等)发现自己被Google收录的网页数锐减,甚至还有一些直接消失在Google索引里。于是很多人猜测Google的升级工作进行得并不完全成功,以致出现了种种奇异的问题。但一直以来,Google都没有正式回应这些猜测。

  昨天的事件其实在TW上也有相关报道。TW是个很有影响力的网站,它上面的读者包括了众多搜索引擎高手以及Google的部分员工。而不久前正式被Google聘用为员工的Adam Lasnik也是其中一位读者。Adam Lasnik在Google里扮演的角色是网站协调员,他负责让网站管理员(当然是大型的网站)与Google得到更好的沟通,并且将网站上的第三方反馈意见反映给Google内部团队。Adam Lasnik在看到TW的相关报道后,留言回答,内容大概是(译):


(事实)并不是看起来那样的。关于所报道的收录50亿个网页的事件……我们发现一些网站:查询会显示奇异的结果,这是由于一个错误的数据处理(bad data push)所引起的。我们现在正在设法修复它。


  这是Google首次回应用户对近期Google出现的异常的质疑,并承认收录的确出现了某些问题,而这直接导致了上次事件的发生。不过Adam Lasnik的留言至少代表了Google已经注意到当前的问题,并且及时采取了补救措施,包括把事件中的两个超级垃圾站从索引结果中删掉。

  但要提醒一点,那就是并非所有站点被Google收录的结果数产生变化都是Google本身的技术问题。事实上,对于绝大多数被Google删掉部分收录结果的网站而言,这些被删掉的内容是不合Google相关规定的。这是一个正常的处理过程,与上述事件性质完全不一样。
回覆時引用此篇文章
  #3  
舊 2006-06-23, 01:05 AM
優質跳蚤 優質跳蚤 目前離線
初級會員
 
註冊日期: 2006-02-17
文章: 27
預設 天呀,做弊難道是網友的特點嗎?

老實說啦,網路上真的一堆人很會走後門、抄捷徑和作弊搞鬼的,
而做了這些不正當的行為後,不但不羞愧,還沾沾自喜以為占到便宜,

可是真的如此嗎?
真的占到便宜了嗎?
以前網路上點擊式廣告(就是有點過去就付錢的那一種)盛行時,
一堆華人就愛作弊,用「謎之程式」來狂點賺錢,
結果呢?最後的後果就是很多廣告商不願意再接受來自華語區的點擊,拒絕付費給這些來自「重度作弊區」的點擊,好了吧,最後大家一起沒水喝。

現在看到這一篇新聞,
心裡真的很感慨,雖然這回作弊的不是華人,
但是這種靠作弊來破壞規則的人一再出現,
結果不只是害了自己,更害了更多無辜守規矩的網站,
未來可想而知,Google會更嚴格的審核網站的蒐尋排名。

唉,或許是網路把這個世界變小了,
各國的白目一起跑出來搞鬼,
就讓人覺得白目變得好多好多,而且都集中在網路上。
回覆時引用此篇文章
回覆

書籤


發文規則
不可以發表新主題
不可以發表回覆
不可以上傳附件
不可以編輯自己的文章

啟用 BB 代碼
論壇啟用 表情符號
論壇啟用 [IMG] 代碼
論壇禁用 HTML 代碼

論壇跳轉

 

所有時間均為 +8。現在的時間是 04:26 PM


本站主機由網易虛擬主機代管
Powered by vBulletin® 版本 3.8.4
版權所有 ©2000 - 2024,Jelsoft Enterprises Ltd.