春峰 的个人资料我要去桂林照片日志列表 工具 帮助

机器智能将会在2029年达到人类的水平

机器智能将会在2029年达到人类的水平
做最重要的事情,并且只有最重要的事情---题记


在过年回家的火车上,有一本《科幻杂志》吸引了我的兴趣。刚过了而立之年,还没有过上小康生活的我,早已对科幻失去了儿时的兴趣。这本杂志吸引我的地方是那份很有分量的序言。由于找不到电子版,我这里只大致把作者的观点重述一下。

作者的观点是:智慧与智慧载体的组成成分无关,而是与这些载体的组成方式有关。还好刚写到这句,我找到这篇文章,大家可以在这里查看:上帝死了?——人工智能的复杂性会最终超越人脑么?

刚才在digg的推荐列表中,看到了这篇文章:Machines 'to match man by 2029'。

2029年似乎是个很遥远的未来;大多数人对于此类预言的反应估计和我一样,看看标题就够了。不过因为上面文章还在我大脑中有些印象,所以我看了一下原文。

也推荐你看一下,因为预言者是  “
US National Academy of Engineering” 选中对21世纪重大科技有影响力的18个人之一,这其中也包括google创始人:Larry Page 和 基因工程的先行者:Dr Craig Venter。

下面是原文:

Machines 'to match man by 2029'

http://news.bbc.co.uk/2/hi/americas/7248875.stm

Machines will achieve human-level artificial intelligence by 2029, a leading US inventor has predicted.

Humanity is on the brink of advances that will see tiny robots implanted in people's brains to make them more intelligent, said Ray Kurzweil.

The engineer believes machines and humans will eventually merge through devices implanted in the body to boost intelligence and health.

"It's really part of our civilisation," Mr Kurzweil explained.

"But that's not going to be an alien invasion of intelligent machines to displace us."

Machines were already doing hundreds of things humans used to do, at human levels of intelligence or better, in many different areas, he said.

Man versus machine

"I've made the case that we will have both the hardware and the software to achieve human level artificial intelligence with the broad suppleness of human intelligence including our emotional intelligence by 2029," he said.

  We'll have intelligent nanobots go into our brains... to make us smarter

Ray Kurzweil

"We're already a human machine civilisation; we use our technology to expand our physical and mental horizons and this will be a further extension of that."

Humans and machines would eventually merge, by means of devices embedded in people's bodies to keep them healthy and improve their intelligence, predicted Mr Kurzweil.

"We'll have intelligent nanobots go into our brains through the capillaries and interact directly with our biological neurons," he told BBC News.


The nanobots, he said, would "make us smarter, remember things better and automatically go into full emergent virtual reality environments through the nervous system".

Mr Kurzweil is one of 18 influential thinkers chosen to identify the great technological challenges facing humanity in the 21st century by the US National Academy of Engineering.

The experts include google founder Larry Page and genome pioneer Dr Craig Venter.

The 14 challenges were announced at the annual meeting of the American Association for the Advancement of Science in Boston, which concludes on Monday.

seo优化:把百度放进数据库

seo优化:把百度放进数据库

 

        有时候我想,能把百度的数据放进数据库,用广大程序员熟悉的sql语句查询百度的搜索结果应该是一个不错的主意。在这方面Google早已经跨出了一大步,利用Google Search API 把Google的搜索结果放进数据库是很容易办到得。当然,Google Search API 有相应的限制,防止被人恶意使用。而百度则忙着在贴吧,新闻和 C2C 上大占拳脚,这些努力除了让百度的股价一再飙升外,对程序员来说一个 BaiDu Search API 仍然是遥不可及的事情。


        每家公司都有自己的策略,百度也不例外。既然百度不提供 BaiDu Search API ,这并不妨碍我们把百度放进数据库的想法往前推一步。

        实际上已经有人在这么做了(中文搜索关键词广告报告之广告主分析 ) , 而且还拿到了 IDG 的投资。

        这篇文章也给你一个工具:把百度放进数据库。 前提很简单,你必须有一个很大,很大的数据库。10个oracle , 100 个oracle,1000 个oracle ?打住吧,这不是本文的中心。

没人想全面 反向百度 (Reverse),就像 反向QQ的珊瑚中会挨打一样。我们只做一个简单的。

点击这里下载:BaiDu2DB , 把百度放进数据库,没数据库的就放到 Excel 吧 :-) 。

http://www.domolo.com/seo_software

 

下载地址:http://www.domolo.com/seo_software

SEO 比比看: Che168.com VS pcauto.com.cn

SEO 比比看: Che168.com  VS  pcauto.com.cn

        做SEO工作,平常少不了多观察各种网站优化的案例。俗话说的好,懂行的看门道,不懂的看热闹。面对五花八门的网站,如何才能从专家的角度,以最快的速度来了解被观察网站的优化方式呢?如何才能最快、比较全面的评判网站的优化效果呢?相信这是专业SEO面面临的共同的困难。

        这个系列将帮助您来解决上面提出的问题。这里我就用 che168.com 和 pcauto.com.cn 为例来一步步破茧抽丝吧。

        据说 che168.com 是王通优化的一个案例。 并且 che168 在google的排名是“一件恐怖的事情”。原话见“CHE168是他最近一年的案例,大家可以查一下相关汽车品牌在GOOGLE的排名,80%都在第一页,有些热门关键词甚至在第一位,这是非常恐怖的事情”。

这种恐怖的事情是如何发生的呢?

要做到快速,全面,很显然需要工具的帮助了。我这里选用: 多么乐站长SEO助手

XP用户请先下支持库:立即下载微软支持包 XP用户请把解压后的文件放在C盘根目录下执行.

第一步:了解 che168.com  和 pcauto.com.cn 的 域名,目录的组织方式:

这是 che168.com 的子域名列表:

这是 pcauto.com.cn 的子域名列表:

第二步:查询以上各个子域名在 google ,baidu ,yahoo 的索引量:

以下是 che168.com 在google 上的索引量。

以下是 pcauto.com.cn 各个子域名在 google 的索引量。

了解了子域名的分布,查看了他们的索引量,下一步,我们分析关键字排名。

百度BBS收录协议-生成器

百度BBS收录协议-生成器

无论对于普通网民还是搜索引擎,论坛中的信息无疑是一块最重要,甚至最大的信息来源。 然而由于论坛数据交互性极强,导致论坛的链接也比较多样。多样性的链接结构和不断更新的帖子内容对搜索引擎来说一直很头疼。这也就是为什么搜索引擎喜欢静态链接的原因之一。

当然,各搜索引擎巨头也在着力解决收录动态链接的方案。比如:
Yahoo搜索引擎推出动态网址URL的参数管理功能

最近百度也在这方面有所动作,在推出百度新闻提交协议后,又推出了:《百度互联网论坛收录开放协议


刚才忙活了半天,终于实现了这个功能:百度论坛收录开放协议生成工具。下载点击这里:http://www.domolo.com/seo_software

搜索引擎SEO外挂:一边搜索,一边看PageRank

搜索引擎SEO外挂:一边搜索,一边看PageRank

 

下载地址:多么乐站长工具 

 我原来曾写过一篇统计分析搜索引擎排名和Page Rank 关联分析 的文章。很多人引用,回复和我讨论了我的结论。有赞成的,有反对的,有鼓励的,有不以为是的。

当时我一直再想,如果有一个工具,能让seo爱好者们在搜索的同时看到Page Rank ,那该多好啊。

本着这个想法,用了一个周末的时间,我在 多么乐站长工具箱 完善了这个功能。

在这里我不想在重复我原来文章的观点,不管怎么说,有了数据,您自己也可以判断,不是吗?

 

 

 

搜索引擎seo外挂, 一边搜索,一边看Page Rank ,工作从此更惬意;

相关关键字生成器, 从google keywords center 提取最权威的关键字列表,让你的关键字从此无忧!

Baidu2Excel , Google2Excel ,把百度的搜索结果导出到Excel,自动提取域名,可以用Excel 的自动筛选分析批量关键字竞争情况

在线生成Google SiteMap, 也可以从 Apache 日志文件生成 google SiteMap 功能强悍,值得一试;

想知道百度有多少子域名吗? 想知道Sina有多少子域名吗? 利用子域名搜索引擎,一切介在掌握


1、PageRank 批量查询 , 现在的工具只能查一个网页,没有批量查询,现在您可以批量查询了;

2、网站 keywords , description , title 收割机, 分析网站总体 关键字 情况的最佳工具;

3、友情链接有效性检查,再也不怕对方偷偷撤下你的链接了,还可以同时查询对方的PageRank是否还符合要求哦;

4、搜索引擎收录,反向链接 一键查询, google , baidu , yahoo 统统支持,真是不错;

5、关键字搜索排名实时查看 , 多个关键字,多个网址 , 多对多匹配查询

6、网页关键字密度查询,关键字在网页和链接的密度查询,专门针对中文网站。

  

基于SEO的Log 日志分析软件应该提供那些功能?

基于SEO的Log 日志分析软件应该提供那些功能?



今天是连续第3个要过了12点才睡的日子了,希望今天可以告一个段落.

最近在考虑如何做基于 SEO 的日志分析工具, 每天都熬夜, 还真吃不消啊.


当 用户在浏览器地址栏输入一个网址的时候,web服务器在返回用户需要页面的同时也记录用户的其他数据,比如用户的浏览器是什么牌子的,用户使用的IP地 址,操作系统甚至记录了用户是输入的网址还是从其他链接跳转过来的等等。(好罗嗦)这部分记录无疑是最基础也是最重要的数据,很多web数据挖掘工作都是 从这里作为起点进行的。

看过web服务器(比如apache , iis )日志的朋友们都知道,当用户访问一个页面产生的日志并不是只有一行,而是有很多行。稍加注意就会发现,web服务器为当前访问页面中包含的每个文件(图 片、javascript脚本等)都生成了一行记录。这一行行的记录就组成了原始日志文件。

对SEO工作来说,分析日志是一项必不可少的 基本功。与SEO最相关的信息莫过于搜索引擎的来访记录和从搜索引擎带来的流量2个指标。目前国内网站用户使用的web log 日志分析工具大多使用 awstats 一类的开源工具。可以说awstats的流行,与日志分析爱好者的引荐是有很大关系的比如车东等人。

虽 然我也使用awstats等工具,但毫无疑问现在市场上专门针对seo的log日志分析工具还很少见。同时由于awstats采用perl编写,加上使用 awstats自有的文件格式,这就导致了在awstats的基础上加以修改提供基于seo的日志分析功能也非容易之事。

那么基于SEO的日志分析应该提供那些功能呢,这就是我这几天想的问题.

目前已经实现了以下三个部分:

1.从原始日志文件中提取 页面访问 的记录 .(去掉 .js , .css , .jpg 等记录)见:"原始Log -> 页面 Log "

2.针对提取出的 页面访问记录 进行派重 (bloom filter), 提取唯一的访问记录.见:"页面Log -> sitemap "

3.针对提取出的  页面访问记录 ,提取从 google 和 baidu 过来的搜索关键词 记录.
见:"页面Log-> 搜索关键字分析"


alpha 下载地址





基于SEO的日志分析


google 生活搜索--- 工作搜索数据来源调查

google生活搜索--- 工作搜索数据来源调查
贴图不说话

google-life-search-job-source

统计:抓虾热文的都是那些网站贡献的?

统计:抓虾热文的都是那些网站贡献的?


信息时代的牛人,就是能处理大数据量的牛人,google 算一个, 抓虾也算一个。

----------------------
截止小虾发稿时止,抓虾已经从 4,751,300 个博客和新闻频道中累计抓取了406,969,122 篇文章提供大家订阅阅读。 更多
----------------------

刚才整理回收站的时候,发现我6月份为抓虾热文做的统计数据,原来不准备发的。还是贴上来吧。只显示前50名。
数据来源:Domolo 抓虾热文阅读。    现有热文: 36169 篇。

 数量   抓虾热文博客 rss 域名
4991 feeds.feedburner.com
4131 www.maayee.com
3489 blog.sina.com.cn
2315 blog.techweb.com.cn
1970 null
1948 bullog.cn
1317 blog.donews.com
1096 www.dapenti.com
901 hi.baidu.com
884 www.diglog.com
705 technorati.com
699 www.20ju.com
563 www.cnbeta.com
536 www.wangtam.com
535 club.newdigi.com.cn
534 www.donews.com
479 my.donews.com
476 www.postshow.net
426 www.google.com
424 www.bepet.net
396 cn.engadget.com
394  
393 www.williamlong.info
391 bbs.siwa.cn
359 www.vsharing.com
356 www.cnblogs.com
352 www.technorati.com
332 item.feedsky.com
294 del.icio.us
267 daodao.org
267 www.gseeker.com
255 www.flickr.com
251 www.caobian.info
251 www.douban.com
249 blog.csdn.net
237 www.wangxiaofeng.net
232 bbs.hnol.net
232 bobo945.bokee.com
228 www.21manager.com
227 www.lifebang.com
223 www.amazon.com
222 www.ieyeh.com
218 www.mindmeters.com
205 xiaolang-naruto.blogspot.com
194 www.bullog.cn
186 www.dianping.com
185 www.lnuu.com
179 chinese.engadget.com
175 www.psytopic.com
 

MFC 中集成 Html 界面的3种方式

MFC 中集成 Html 界面的3种方式


最近考虑给Domolo SeoHelper 多么乐SEO助手 换上新装,全部用Html界面的方式表现。

据说 GTalk 就是用类似的方式实现的(?)。
灵感点滴 - GTalk的界面居然是用IE控件

雪狼窝: GTalk聊天界面应该是基于IE内核的?

现在看来可行的方式有3种:他们的区别是 程序代码和html 交互的机制不同;

1、如果是弹出对话框的方式,且用户交互项比较简单,建议采用:SHOWHTMLDIALOGFN 的方式来实现,windows.args 脚本的方式来通讯;

2、如果设计到的网页较多,且需要动态生成,建议参考 MSDN 上的这篇文章;
using your CHtmlCtrl in my dialog-based app


3、对于实现的功能比较复杂,用户交互性强的程序,只好派出王牌杀手了:CDHTMLView 了,参考这篇:Integrating DHTML into MFC Views


另:今天实现了很久前就想做的一个功能 博客搬家客户端的核心代码 ,也就是用程序的方式发表博客,可以做到写一篇博客发送到多个BSP上。

原来的博客搬家是服务器端的,现在准备做一个客户端的版本,敬请期待。


本来昨天下班后就写好了,结果今天启动机器用了快半个小时,打开后一看,内存用了1.2G。晕。
 

抓虾的暗示

抓虾的暗示

 

Flick 原是开发游戏的框架,现在成功是顺势而变的结果---题记

 

今天看到keso的博客列举了自己“始终不看好同样采用Digg模式的抓虾热文的原因”。这里我们先抛开抓虾热文是否采用digg模式不说,单单说说抓虾热文是否有用。经常阅读keso博客的朋友们一定还记得这篇:“东拉西扯:过滤器与民主的悖论”,我非常同意他的这个结论:“只有当用户意识到他所获得的信息,以及所联络的人群,越来越同质化,甚至影响了他的视野和对事物的判断,他自会做出调整。”。

 

那么现在我的问题是:用户如何做出调整?用户从那里发现热点?浏览不同的博客,热文是一个很好的途径,因为用户不知道如何发现热点(据说google要推出一个类似流行词语的英文产品)。在这个前提下“抓虾的读者五花八门,兴趣相差甚远”,就成了我们发现热点的一个很好的来源。

 

我想大部分朋友都认同,抓虾热文比“好看”更有价值。平遥的牛肉是:肥而不腻,瘦而不柴;抓虾热文则是:博而有聚,精彩活波。很适合现代人阅读,是阅读,不是因为工作,学习原因的哪类阅读。所以对“10大方法“5条秘籍“100条建议大可看看无妨。

 

当然,对我来说,抓虾的确站在了一个比较尴尬的地位。抓虾的定位是阅读工具,而我却用它来发现热文,然后订阅到Google Reader 来阅读。当我感觉到陷入“过滤与民主的悖论”的时候,抓虾热文帮助我做出了调整。

 

我想抓虾应该向大家说明热文的来源,另外抓虾的定位也并不是digg 类型的。

 

一句话,我支持抓虾热文现在的模式,这也是每天我访问抓虾的唯一理由。这个观点我也在英雄大会上我曾向徐易容和谌振宇提到过。(我非常喜欢这个功能,以至于我自己做了一个抓虾外挂来更好的使用这个功能。)

 

 

面对批评,希望抓虾不要做出太激进的调整,做到充分了解需求持续改进。

 

Keso 2篇文章我印象深刻,1东拉西扯:工具和暗示 2 怎么会是新浪?我也写了: 怎么会是lucene?  抓虾的暗示,这篇文章是我看完东拉西扯:工具和暗示后就想写的,算是对上了吧

 

推荐阅读:RSS:摘要还是全文,这是个问题?

 

 

Domolo SEOHelper 多么乐SEO工具:璀璨登场

Domolo SEOHelper 多么乐SEO工具:璀璨登场




六大功能
1、PageRank 批量查询 , 现在的工具只能查一个网页,没有批量查询,现在您可以批量查询了;
2、网站 keywords , description , title 收割机, 分析网站总体 关键字 情况的最佳工具;
3、友情链接有效性检查,再也不怕对方偷偷撤下你的链接了,还可以同时查询对方的PageRank是否还符合要求哦;
4、搜索引擎收录,反向链接 一键查询, google , baidu , yahoo 统统支持,真是不错;
5、关键字搜索排名实时查看 , 多个关键字,多个网址 , 多对多匹配查询

6、网页关键字密度查询,关键字在网页和链接的密度查询,专门针对中文网站。


让您每天的工作量节省一半 , FreeWare 承诺终身免费!!!


相关阅读:给站长们的一把瑞士军刀

地址: http://www.domolo.com/seo_software 或者 这里

网友评价:

shranker :
支持 谢谢 正在下。。


网络之心
看得热血沸腾,我下一个用用。
alan1021
这么好的工具,不下不行啊

RSS:摘要还是全文,这是个问题?

RSS:摘要还是全文,这是个问题?

在Feedburner 的官方博客上有篇关于RSS输出正文还是摘要更有利于ClickThrouth的分析 。FeedBurner(现在维护 660,000个 feeds) 的分析研究表明对于RSS输出全文还是摘要,对ClickThrough 的贡献都是大致相当的。毫无疑问,这是又一个有悖于直觉的数据统计结论。这个结论无疑对于那些只在RSS中提供摘要吸引用户打开新网页才能查看全文的网站 来 说是多么沮丧的啊。

那么造成这种结论的原因是什么呢?

文中分析指出了原因:当用户订阅rss feed后,会逐渐订阅更多的的feeds,更多的feeds就意味着用户在feed 阅读器外“点击查看原文”后要花更多的时间来阅读,消化。也就是说基于feed 的阅读是:耗时的消费导向的,不是以类似点击等为焦点的。

文中还分析了这些网站的其他的一些动机,都是能想到的原因,这里不多说了。

但实际上,很多内容提供商和博客主倾向于提供摘要的RSS发布,而不是全文发布。也许我们还应该加上另一个原因:防止拷贝,特别是在国内拷贝风气日盛的情况下,RSS标准的格式为拷贝内容的人提供了莫大的便利。(我曾实验 用聚合来代替拷贝,不算是偷换概念吧,奇虎早这么干了)

FeedBurner(现在维护 660,000 个feeds),我相信他的分析是基于原始数据的。看来以后RSS输出到底是全文还是摘要,就全凭兴趣了。

RSS:摘要还是全文,这是个问题?

Google的Sawzall,Yahoo的Pig猪和微软的Dryad

Google的Sawzall,Yahoo的Pig猪和微软的Dryad



Greg 最近写了篇介绍Google,Yahoo,微软三大巨头公司分布式架构的Blog。这就是:Google的Sawzall,Yahoo的Pig 猪和微软的Dryad

这真是一个信息爆炸的时代,在这个大背景里消耗CPU最多的计算会越来越多从“软件本身性能提升”逐渐转移到信息处理的过程中。描述计算速度提高的摩尔定 律,据说现在还仍然有效,可 ”Andy giveth, and Bill taketh away“ 的名言似乎应该改为:"Andy giveth, and google(...) taketh away" 了。

言归正传,Yahoo猪年行大礼,在五一期间放出了:PIG 猪 。(猪非彼 ) Yahoo Pig 是一个运行在HadoopDoug Cutting 在06年3月份加入了Yahoo 上的并行处理架构,有了Pig 使得普通的程序员具有了分析处理gigantic数据集的能力。附带一下 Hadoop 基本进入了实用阶段 Amazon 的 EC2 S3已经在使用了Hadoop了。
Yahoo Pig 有如下特点:
1、专注于于大量数据集分析(
ad-hoc analysis , ad-hoc 代表:a solution that has been custom designed for a specific problem );
2、运行在集群的计算架构上,Yahoo Pig 提供了多层抽象,简化并行计算让普通用户使用;这些抽象完成自动把用户请求queries翻译成有效的并行评估计划,然后在物理集群上执行这些计划;
3、提供类似 SQL 的操作语法;
4、开放源代码;

从对 Yahoo Pig 的了解来看,推荐大家使用,Google Sawzall 和 Microsoft Dryad 就别指望了。

Google Sawzall 是google labs 很早就释放出来了,虽然两者都是定位于分布式并行计算的架构,实现方式却大相径庭。
Sawzall 是基于MapReduce 的,变成语法类似于 java 和 c 语言。

下面是 Sawzall 代码的例子:
proto "querylog.proto"
static RESOLUTION: int = 5; # minutes; must be divisor of 60
log_record: QueryLogProto = input;
queries_per_degree: table sum[t: time][lat: int][lon: int] of int;
loc: Location = locationinfo(log_record.ip);
if (def(loc)) {
  t: time = log_record.time_usec;
  m: int = minuteof(t); # within the hour
  m = m - m % RESOLUTION;
  t = trunctohour(t) + time(m * int(MINUTE));
  emit queries_per_degree[t][int(loc.lat)][int(loc.lon)] <- 1;
}
下面是Pig 代码的例子:
a = COGROUP QueryResults BY url, Pages BY url;
b = FOREACH a GENERATE FLATTEN(QueryResults.(query, position)), FLATTEN(Pages.pagerank);
c = GROUP b BY query;
d = FILTER c BY checkTop5(*);

很显然,如果大家需要对结构化(半结构化)的数据进行分析处理时 Pig 的 SQL 的语法更便于掌握。

具体参考Yahoo Pig 的其他例子:

Pig Latin Examples:
Example 1: Word Count
Example 2: Map/Reduce
Example 3: Pages and Queries
Example 4: PageRank


无独有偶,微软的Dryad 集成Linq (随着.net 2.0 正式发布了) 后叫: DryadLINQ 。从个人角度讲我一直看好 Linq 这个产品,出身Aders不说,程序语言和数据处理合2为1对简单的Insert ,update ,delete,query 完全应该集成起来。这一点也是我喜欢Rails的原因吧。



目前微软的  Dryad 已经在 Microsoft's AdCenter 投入使用。


我想用Yahoo Pig 的话,做 Log 分析应该比较适合。

参考资料:
sourcelab
Dryad: Distributed Data-Parallel Programs from Sequential Building Blocks

MapReduce BBS 

DomoloSEOHelper 多么乐SEO助手 预览版发布啦

DomoloSEOHelper 多么乐SEO助手 预览版发布啦

装修是一件烦人的事情,但能亲手参与一次,还是值得的---题记

   

        漫长的装修工程终于结束了。装修的时候最好奇的还是,看到泥工、瓦工、油工的 工具箱 toolkit。有了各式各样的工具,木板、瓷砖、大理石面板就像七巧板一般被组合成了门、橱柜等家居。只要有了恰当的工具,一切皆有可能。

       俗话说,工欲善其事,必先利其器。做SEO也需要有一把顺手的瑞士军刀才行。我相信有了数据,SEO将逐渐归于平淡,由诀窍层次的竞争,转为运营实力的竞争。

        论中国SEO的可持续发展 一文中列出了中国SEO面临的问题,其中提到了SEO工具的缺乏。我希望我可以为这块缺陷添砖加瓦。这也就是 DomoloSEOHelper 的由来。

         现在正式发布“预览版”。收集一下大家的需求。争取早日发布alpha版。

 

 

 

 

 

 http://www.domolo.com/seo_software 

DomoloSEOHelper 的目标很简单  , 就是把下表数据化:

[数据统计]:百度在调低索引库的容量

[数据统计]:百度在调低索引库的容量

宇宙在膨胀,搜索引擎索引库也是---题记


如何监测搜索引擎索引库的膨胀率是我最近关心的一个问题。随着网络的深入应用,越来越多的资料被放到了网络上;搜索引擎会对公开的资料加以收录,建立索引并服务于广大的网民。对于搜索引擎来说,如何达到搜全,搜新,有用,准确的要求,在数据爆炸的时代不能不说是一个严峻的挑战。

据悉 百度在07年第一季度斥资 1.5亿打造数据中心 ,很显然现在百度正在不断加强基础设施,以面对互联网数据爆炸的时代。无独有偶,最近美国的北卡州政府为了吸引google把数据中心建在本州,竟然抛出了免税的橄榄枝。更有甚者把全球变暖和google庞大的数据中心联系起来。

我的前一篇“[数据统计] 搜索引擎索引库:百度大于雅虎中国 之一”,有很多否定意见的回复。不过我仍然坚持我的观点。因为对于搜索引擎来说,特别是对于上百万级的site:统计来说,能了解数字的趋势,比数字本身更重要。


回到本文的正题,如何监测搜索引擎索引库的膨胀率呢?很显然这又是一个不好回答的问题。这里面涉及到了太多的因素。
比如:搜索引擎是如何对待那些过时的数据呢?搜索引擎的排重是如何进行的呢?更重要的是我们可以通过那些指标来进行衡量?


我做了一个抽样调查:
数据来源:
1、Alexa Top100 的中文网站
2、Alexa Top100 的中文网站 在 3月份的 搜索引擎索引量 
  (来源见这里

 注:google最后3天的统计数据为0。(被google封了 :) )


可以看出 在3月份百度整体调低了索引库的容量,而google的基本保持稳定。

SEO 助手, PageRank 批量查询器
 

MySql Query Cache 查询缓存介绍(1)

MySql Query Cache 查询缓存介绍(1)

MySql Query Cache 和 Oracle  Query Cache 是不同的, Oracle Query Cache 是缓存执行计划的,而MySql Query Cache 不缓存执行计划而是整个结果集。缓存整个结果集的好处不言而喻,但由于缓存的是结果集因此Query必须是完全一样的,这样带来的后果就是平均 Hit Rate 命中率一般不会太高。 Query Cache 对于一些小型应用程序或者数据表的数据量不大的情况下效果是最为明显的。

 作为一个新的特性,MySql Query Cache 有什么特典和局限呢? 咱一个一个来说:

 1、Cache 机制对应用程序是透明的。在应用程序中只是改变查询语句的语义,也能得到缓存中的查询结果集。如果你没有使用 query_cache_wlock_invalidate=ON   来提示MySql 锁表将要进行写操作,那么此时的查询即使表在锁Lock状态下或者预备更新的状态下,仍然可以从缓存中获得结果集;

 2、只缓存整个查询结果集,即对子查询,内联视图和部分UNION的查询是不缓存的;

3、缓存机制工作在Packet 级别,第二项的只缓存整个查询结果集就是因为局限于这个机制的原因。由于没有额外的转换和处理,所以保证缓存结果集返回能够非常快;

4、缓存处理在解析查询前进行,保证缓存高性能的一个原因就是查询缓存在执行查询解析前先查找是否已经存在缓存,如果已经存在查询缓存,则直接返回结果集。

5、 查询必须绝对完全同,由于在查找缓存是否存在前不进行查询解析( Query Parser )所以查询并没有经过规范化处理(Normalized),因此缓存查找的过程是按字节顺序进行的 ( Byte by byte )。更具体点说吧:在每次查询时包不同的注释、多余的空格以及大小写不同等等,都不会指向同一个缓存结果集。

6、只有 SELECT 语句被缓存。 插入、删除、更新当然不需要进行缓存了,同时 SHOW 命令和 存储过程 stored procedure (包括存储过程中的SELECT)也不会进入缓存结果集。

7、空格和注释不要出现在查询语句的最前面,当查找缓存时第一个字幕如果不是"S" ,就会停止查询缓存结果集了。第5、6项已经解释过了;

8、不支持预备查询 prepared statement 和 游标 cursors 。 ( 

9、或许不支持事务处理。(?)

10、查询结果必须完全一致,才能进入缓存结果集。比如:查询语句中有 UUID , RAND , CONNECTION_ID 等会动态改变查询结果集的函数,都不会进入缓存结果集的;

11、查询缓存失效的粒度级别的是表,当表被修改时,所有与改表相关的缓存立即失效( invalidation )。

12、过长时间的查询缓存容易造成碎片 fragmentation  ,这一点和Windows的磁盘管理的碎片整理类似,长时间查询缓存产生的碎片对执行效率有一定影响。可以把查询缓存碎片看作是是查询缓存可用内存(Qcache_free_memory)的块(Qcache_free_blocks )。FLUSH QUERY CACHE  命令可以削除这种情况。

13、设定适当大小的查询缓存用的内存,由于前面提到的一些原因,一般情况下MySql 的查询缓存机制对内存的需求不可能无限增长,因此设定一个适当的查询缓存内存值是比较经济的做法。可以通过查看 Qcache_free_memoryQcache_lowmem_prunes 的状态来进行适当设置。

 14、查询缓存的运行模式,默认情况下开启缓存后MySql 的缓存机制对全局的有效,如果你只想对特定的查询语句使用缓存,可以通过把 query_cache_type  设定为 “DEMAND” 并且在查询语句中加入: SQL_CACHE  来进行,比如:SELECT SQL_CACHE DomoloSeoHelper from domolo where author='tianchunfeng' 。

上面为你介绍了 Mysql 查询缓存的一些基本特点,那么如何监控Mysql 查询缓存的运行时状态呢?比如监控查询缓存的命中率,调节查询缓存的内存大小等等数据。

 可以使用下面的命令:

mysql> show status like ‘Qcache%’;

输出:

+-------------------------+----------+
| Variable_name           | Value    |
+-------------------------+----------+
| Qcache_free_blocks      | 1        |
| Qcache_free_memory      | 16766912 |
| Qcache_hits             | 3        |
| Qcache_inserts          | 1        |
| Qcache_lowmem_prunes    | 0        |
| Qcache_not_cached       | 6        |
| Qcache_queries_in_cache | 1        |
| Qcache_total_blocks     | 4        |
+-------------------------+----------+
 

具体解释参考:  the MySQL Query Cache documentation

 

 下一篇为你介绍MySql 查询缓存的调优和应用环境。

参考资料:


http://dev.mysql.com/doc/refman/5.0/en/query-cache.html

http://www.mysqlperformanceblog.com/2006/07/27/mysql-query-cache/

http://www.cyberciti.biz/tips/how-does-query-caching-in-mysql-works-and-how-to-find-find-out-my-mysql-query-cache-is-working-or-not.html
 
 

csdn 英雄大会后记

 csdn 英雄大会后记

核心里面还有核心,找到最核心的方向---CSDN总裁蒋涛

 

我参加CSDN英雄大会的过程可以用:迟到早退四个字来概括。迟到的原因DbaNotes的大辉已经说了,汗;早退则是因为要赶公司的班车,参加周末的会议。

时间虽然仓促,收获倒是满满的。我的 CSDN技术英雄会流水帐  是这样的: 我只参加了  CSDN英雄会一日  ,英雄会,会英雄-2007中国软件技术英雄会之前夜  的聚会就没有参加。好像时间国的很快,   CSDN技术大会场记   里已有描述,总的  CSDN 2007英雄大会印象  是人逢英雄精神爽


英雄会的郁闷也是有点滴...(大辉知道,连同查女士一并谢过啦 :-) ) 。英雄汇,会英雄  ,你问我   CSDN技术英雄会,会了哪些英雄?    报上名来是:大辉徐易容 与 谌振宇TinyfoolVirushuo 。第一次去csdn的时候没有见到 zdg ,这次也没有,只好等下次吧。CSDN2007年英雄会札记 - 聚会众生相  是什么样呢? 想知道?据说大会除了英雄外还有 卧底 博客园鸟食轩卧底CSDN社区英雄会 ;有人竟然找到了初恋的感觉,初恋的感觉---CSDN英雄会 ;有自称小弟的 2007软件英雄大会,小弟我会众英雄   ; 还有朝圣的 游走在技术边缘的“朝圣旅”   ;有人还被周鸿祎董事长,别给咱们程序员兄弟洗脑了!,洗脑的滋味不赖吧 ;程序员多了 ,什么英雄会妙语录都有啊。回来还要写CSDN英雄大会归来记 ,这几天一直忙,该写的都被写了,怎么说呢,一句话,2007CSDN技术英雄会,爽啊!

    回到本文的题记:核心里面还有核心,找到最核心的方向---CSDN总裁蒋涛 。这是csdn会场小册子里采访蒋涛的一句话,想必很多看过这句话的人一定会过目不忘。我就是。能找到一个核心,对人生,对事业都有莫大的帮助啊。

在和
Tinyfool 聊的时候,他说:田春峰啊,你的blog里有很多好玩的小工具,就是总打不开,不能用。

这下好了,我的思路终于打通了,做个能下载版本的,把这些好东东都放到一起。本来想用许式伟WINX来做,无奈现在精力没放在界面上,只好等以后迁移过去了。

这就是: SEOHelper 。

 

为葛帅宣传一下:电脑商情报LUCENE.CN中文搜索CLUB聚会

电脑商情报LUCENE.CN中文搜索CLUB聚会
替葛帅宣传一下:
看看下面的名单吧, 名家大腕,应声云集。搜索爱好者的确需要定期来这样一的聚会啊
--

lucene.cn与电脑商情报联合举办搜索引擎技术网站应用坐谈会。
时间:4月8日 上午10点30五道口聚餐
报名:geshuai AT gmail.com

拟邀专家名单:
yahoo                             车东                              ok
sogou                             王伟森 ok
kooxoo        消朋 (原baidu) ok        经理:陈华 ok
zhuaxia                   经理: 徐易容(原IBM) ok                      谌振宇 (原baidu) ok
lucene.cn 葛帅 ok
chinahr 朱俊嵩 经理:徐立业
当当网 宁高磊 经理:王洪涛
oracle DBA 陈永瑞               ok
手机之家 高春辉  
bokee 卢亮
google                             杨丹宁
东软 咨询顾问                 辛佳雨(原CSDN) ok
小i机器人 卢晓东 ok

原bokee                             覃建祥               ok
原sina                             搜索存储 游峰                  ok
原QQ搜索                              钟华               ok
原人民网                             马建军 ok
原国家发改委                      李宁 ok
原sohu   高飞 ok
原北大天网首席运营官 杨明刚                             ok

参与媒体:
电脑商情报 CSDN

我和CSDN这五年

我和CSDN这五年


        今天收到了CSDN Blog编辑组的电话和来信,确认参加 “
2007中国软件英雄会 ” 的注册资料。能有一个机会参加CSDN举办的这次盛会,和心目中期待已久的各位偶像欢聚一堂,心里着实高兴了一阵儿。我入选的理由大概只有一个,正如来信中所描述的:"博客地址:http://blog.csdn.net/accesine960  Blog点击数:460,783 (截止到2007年3月14日) " 。 眼下博客风云四起,人人皆博,46万次的访问数量对于个人Blog来说并不稀奇。让我唯一感到欣慰的是,我在CSDN博客是从2003年5月开始的,之后或忙或闲,可Blog的更新一直没有间断。把日常工作中所思,所想,所得记录下来,已经成了一种习惯,翻着往日的一篇篇文章,过去的日子历历在目。

        在CSDN陪伴我成长的日子可以分为2个阶段:以泡BBS为主,求学若渴的“不耻下问”阶段 和 以写Blog和看Blog为主的个人思考阶段。

        泡CSDN BBS 的日子似乎乏善可陈。因为有google这样的搜索引擎,工作中碰到的大部分问题都可以解决。泡BBS正印证一句话说:知道就搜索,不知道才浏览。以前比较喜欢看各大语言分类下的“非技术区” 和“扩充话题”,招聘的、兼职的、打听薪水的、辞职散分的、跪求帮助的、相亲的、失恋的应有尽有。我想CSDN 社区的成功是一种文化上的成功,让广大的程序员找到的归属感。虽然没有业界大腕的点评分析(如麦田,Keso),也没有豆瓣、抓虾的光环环绕,但毫无疑问CSDN 的 BBS 是我们程序员心中的 NO 1. 。


        我写Blog从不打草稿,总是一气呵成,完成后一般也不加修改,就像日记,记下的就是历史。最早开始在CSDN写文章是在:
http://dev.csdn.net/ 上面的专栏作家栏目发表的,大概是03年初。那阵儿 Blog 还叫Blog ,方东兴的“博客”译名还只在几位专家的文章中出现。当时特迷恋姜奇平的文章,甭管看懂看不懂,几乎每篇都看。姜的文章就是不求易懂但求难懂,博客这个名字是从他的文章中知道的。


        很多人看我的Blog内容大概都是关于搜索引擎的,无怪乎,编辑组给我的头衔是:熟悉搜索引擎相关技术并撰写大量和搜索引擎有关文章。

 

        我对自己的Blog文章分了4大类:1、搜索引擎相关 2、翻译和新技术跟踪 3、介绍实现个人思路的工具 4、It 评论

下面是一个汇总:

 

1、搜索引擎相关

搜索引擎的未来  , 机器人 小叮咚的 中文分词终于跨出了第一步  , 不同规则的中文分词对Lucene索引的影响  , 怎么会是lucene? ,

 实现文本自动分类的基础----Term频率计算方法  , 通过分析html格式确定网页主体内容的想法 , 一种面向搜索引擎的中文切分词方法 ,

发布:CtrlC源代码搜索引擎 ,关于 小叮咚中文分词 .net版本发布的变化 ,小叮咚中文分词在处理大量数据的时候碰到了内存泄漏的问题 ,

 我对垂直搜索引擎的几点认识 , 一种快速的未登陆词识别方法(原理和实现) , 一种面向搜索引擎的网页分块、切片的原理,实现和演示 ,

 介绍 Nutch 第一部分:抓取过程详解(翻译2) , 介绍 Nutch 第一部分:抓取 (翻译)

Lucene 1.9 改进特性列表 , Google's BigTable 原理 (翻译) ,  正式发布blog 博客备份服务 , 面向html标签的正则表达式

如何判断一个网页是不是一个Blog的首页? , 搜索引擎排名和Page Rank 关联分析 , 和石头商榷:SEO公司的核心问题是什么?

Url排重Bloom Filter 算法、误差及其他  , [数据统计] 搜索引擎索引库:百度大于雅虎中国 之一

Boyer-moor 字符串搜索算法 , 中文分词和二元分词综合对比 , Donews WebSite PageRank Analysis

基于Java的开源 Carrot2 搜索结果聚合聚类引擎 2.0发布了 ,  网页切片算法的若干问题 , 通用搜索引擎的垂直化倾向 , Solr 企业级搜索引擎简介

基于相关关键字搜索引擎优化的网站排名分析项目 , 文本聚类平移算法的几点问题 , 基于平移算法的一个小演示
 

2、翻译和新技术跟踪

使用反射在NET中实现动态工厂(第一部分)  ,    面向方面编程的介绍----基本概念(1)  , Shark工作流的实现和WMFC&OMG规范的对比1 (有名无实) , 动态代理和nanning AOP(1)   ,  Spring support in Geronimo,看来It行业新的就是好的   , 关于工作流的设计器的选型  ,  CgLib ,NCgLib 和AOP (之一)

Java企业开发的银弹:Grails + EJB ,  C#:昨天,今天和明天:和 Anders Hejlsberg 座谈,第一部分
 

tss: Eclipse 、 Equinox 和 OSGi , tss:关于 Geronimo的 GBeans 的介绍 , google 和 unixlite 的设计理念 , google排名影响因素大全(beta1)
 

3、介绍个人思路的工具

java语音聊天室原形的实现  ,  java 语音聊天室  ,  小叮咚机器人 ( 瞄瞄的版本 ) , 机器人 小叮咚 成功集成 QQ 和 Msn 附带: 架构图 ,

delicious书签备份工具 , 多么乐 互联网新闻阅读器发布啦 , 小叮咚搜索引擎优化综合排名指数

Alexa 排名万能查询系统 , Keso Blog Offline Reader ,基于关键字的网站域名相关性研究项目

提供:抓虾 热点文章 rss 订阅服务 , 给站长们的一把瑞士军刀 , 网站域名搜索引擎

 

让世界更平些:怎么查看昨日头条新闻? , 给站长们的第二封信:Page Rank 吸血鬼
  

4、 IT 评论

《我与Borland的故事:昨天、今天与明天》--小记  ,  我对板桥里人 banq 的一些认识 www.jdon.com  , 和 Jive 开发人员 Bill Lynch 聊天  ,

 

出师未捷:说爬狗 , 社区,v2ex;天才,livid and SAI , 从子域名看百度,新浪,搜狐,QQ和网易
 

从百度服务看: 百度更懂中国 , 半年以后说SouYo , 奇虎聚客---2006最激动人心的互联网应用


和王通商榷:电子商务的核心问题是什么?  , 说说 kooxoo 酷讯吧 , 加上一个奇虎,去掉一个中搜


其他:


一天只能用10分钟想你 (我竟然写了首诗?梨花体?), 我和Blog不得不说的故事 , 海上钢琴师,the legend of 1900 , 想起了王安的一个故事: 当机立断 , 继续怪癖游戏:我的怪癖打油诗

回首天天和CSDN在一起的日子里,感到充实快乐,由衷感谢CSDN的技术平台,让我们大家有了交流的舞台。

 预祝 2007中国软件英雄会   获得圆满成功!

这几天家里在装修, blog 也更新慢了许多,几个朋友都过来关心询问,一并谢过啦。

 

 

 

给站长们的第二封信:Page Rank 吸血鬼

给站长们的第二封信:Page Rank 吸血鬼


我想站长们在交换链接的时候,被问的最多的一句话应该是:你的Page Rank 是多少啊?
Page Rank 俨然成为了衡量网站质量最重要的标志,很多站长为提高网站的Page Rank 也乐此不疲,高Page Rank 的站长更是对此津津乐道。


目前很多站长在追求提高首页Page Rank的时候,同时也把目光放到了提高主要二级域名,子目录上面。很显然了解网站总体的Page Rank ,比简单的比拼首页的Page Rank 更有意义。

特别是在网页目录改版,网页链接改变的时候,了解网站Page Rank 的总体情况显的尤为重要。

现在给大家推荐一款工具,可以帮助站长们轻松掌握网站的总体Page Rank 分布情况: Page Rank 吸血鬼 http://www.domolo.com/seo/page_rank_vampire

正如这个名字告诉大家含义,Page Rank 吸血鬼可以告诉你,贵网站 Page Rank 为5 的网页有那些, Page Rank 为4 的网页有那些,以此类推。


如何使用Page Rank 吸血鬼的服务呢?

首先:Page Rank 吸血鬼的首页填写贵网站的域名和联系邮件(结果以邮件方式发送)。
其次:需要在您的首页添加 多么乐 的友情链接(多么乐在未来将会提供更多类似的工具方便大家)。