October 30, 2005

Podcasting and SEO: How to SEO your podcasts
by Stephan Spencer 04/17/2005

越来越多的播客在自建网站或准备自建网站了。多了音频(和/或视频),播客网站和博客网站有所不同,普通的搜索引擎无法搜索到你音频(和/或视频)里的内容,在网站优化(SEO)上要给予另外的考虑。

Stephan Spencer 提出了8点关于播客网站SEO(搜索引擎优化)的建议

1. 给你的Podcast节目取的名字含有相关搜索最多的关键词(如ChinesePod,搜索引擎蜘蛛都知道是和中文有关)

2. MP3文件的ID3 tags 同样要含有相关关键词(ID3 tags是你的Podcast节目的Meta,是搜索引擎搜索的重要依据—–尽管目前许多普通搜索引擎可能还对此视而不见。这点可能是目前中国播客最容易忽视的。)

3. 每一期Podcast节目最好都写博专门介绍,在Blog中尽可能多嵌入关键词,但又不致让读者失去兴趣(林语堂说餐后演说要象超短裙,长得足以蔽体(题),短得引人入胜,关键词似乎同理,多到搜索引擎蜘蛛大呼过瘾,少到你的读者浑然不觉。)

4. 鼓励那些直接链接到你的MP3 文件的人也同时链接到你介绍这档Podcast节目的Blog发文(这点似乎颇有难度,除非,你的Blog写得字字珠玑)

5. 如果你做的是英文Podcast,可以考虑使用这些公司的服务。他们可以把你的Podcast节目转为文字,你可以把这些文字分成几部分,每一部分都放在不同的网页中,配以含有关键词的标题,同时回链到你的Podcast节目(中文播客目前好象还享受不到这种能把Podcast节目转为文字的服务,我的“话说Podcasting”整理成文字就费时靡巨。)

6. 把你的播客网站向Podcast目录站点和搜索引擎提交

7. 让圈内的人,如博客和媒体知道你的Podcast节目

8. 别只顾站在肥皂箱上。和其他人对话,电话采访,再做成Podcast节目。让那些网路上有名望的人和PageRank高的网站链接到你的网站(多做Skypecast?)

(hopesome编译,括号内为解说)

Tags: No Tags

Semantic Web Ontologies: What Works and What Doesn’t
by Peter Norvig 01.12.05

这分别有四个挑战。首先是鸡和鸡蛋问题:我们怎样建立这些信息, 因为除非一方面是你获得了信息你才能建立工具, 另一方面是除非你有工具你才能把信息放入其中。我的朋友刚刚问我,能否把网络上所有的URLs(包括dot-RDF, dot-OWL和两者的附加部分)都寄给他,因为他不能发现全部的部分。我看了一下, 并且结果显示那里只有20万上下,这大概是网络的0.005%。我们需要有一种方式去解决它。

下一个问题是有关本体论的竞争 。每个人都用不同的方式看待它。如果你有一些工具来测量它,我们将看见它的范围有多广。 然后是Cyc 问题, 这是背景知识和垃圾的问题。这是我每天必须面对的问题。如同你离开了实验室,进入现实的世界,有金钱利益的人会设法打败你。

所以鸡和鸡蛋的问题,那就是“在这类语义技术里有什么令人感兴趣的信息, 并且其他信息在哪里?”它结果显示,大多数有用的信息仍然是在文本里。我们关注的是你是怎样把它从文本中提取出来的。这里有一个小的演示叫IO 结。你可以键入一个自然语言问题,然后它会从文本中取出文档,并取出语义实体。并且你会看见, 这并不是相当完善的——比如不能解决好拼写问题。但这一切都是自动完成的,所以没有做把信息放到正确的位置上这样的工作。

总之,语义技术看起来对定义图解似乎有好处, 但另一方面什么应该进入图解呢。为了做到它,还需要加倍努力。

这是另一个例子。 这是昨晚的Google 新闻页, 我们在这里应用了汇集(clustering)技术,把新闻分门别类地集合在一起, 所以你看到首条新闻是关于布莱尔的,并且有658个相关新闻我们把它们汇集到了一起。

现在想象一下,如果不使用我们的算法(这些新闻是从新闻提供商那里获得的),而是按照他们想要的方式放置所有的元数据(metadata)和标签。“我的故事会被埋没在20页呢,还是头条新闻?我将放入自己的元数据。我谈论的那些人是恐怖分子还是自由战士? 什么是爱国者的定义? 什么是婚姻的定义?”

当你谈论这些政治问题而不是关于部分的数字时,你正是在为这类的本体论下定义; 这会成为一个政治声明。人们也许会惹来杀身之祸。这些是本体论不被运作的地方,会在它们的身上产生争议。并且你不得不转而依靠其它的方法。

本体论运作的最佳地点是,当你具有消费者的特权时,比如可以迫使服务提供者为你服务。比如汽车零件产业,汽车制造厂在那儿聚会说, “每一个想要卖给我们的人就做这个。”他们能做到如此,因为他们的数量很少。在其它产业, 如果有一个主要“运动员”,因为他们不想被其他人赶上,然后就想不参与比赛了。如果有许多个较小“运动员”, 就很难将它们组织到一起了。

语义技术为根本上打碎信息成为分散状态是有好处的。但根本上你仔细考虑的只是在尖括号(注:指代<>)之间的一部分。并且我们的创建者之一Sergey Brin,曾说过这样的话, “把东西放入尖括号的不是技术本身。”问题是什么应该进入尖括号。你能说, “很好, 我的数据库有一个人名字的字段,而你的数据库有一个姓字段和一个名字段,我们就将有在它们之间找到匹配的一种联系了。”但这并不总那么有效。

这有一个近几天在google公司值得思考的问题的例子,就是我们的“拼写改正”功能都是按照一种规范形式建立的。这是我们被询问最多的问题之一, 并且一个星期中有4,000 种不同的拼写变异在发展。某人想做这种规范。所以理解文本的问题就消失了,它在尖括号之间被强迫分解成更小的片断。因此这就是拼写改正的问题;有翻译问题,譬如把阿拉伯语翻译成一个罗马字母;有简称的问题:HP和Hewlett Packard 、惠普, 等等;还有同名的问题:迈克尔・乔丹是篮球运动员,CEO,还是伯克利教授。

让我们现在考虑背景知识的问题。Cyc 项目试图在一个字典里定义所有知识, 一种 Dublin Core类型的事,然后找到在字典或百科全书中没有的、但我们依旧需要的材料。Lenat 和Guha说那里是浩瀚知识的仓库,你很少会谈论, 比如“水向下流动”和“生命物质得了疾病”。

我认为我们能设法做如此大的一个项目。然后我决定把它简化一点——仅仅在它附近放入引用标签和键入它。所以当我键入“水向下流动”,我得到了1,200条结果。第一条结果说, “这是幼儿园老师Emily的教学计划。”它实际上解释了水为什么会流下来, 并且这是你在百科全书中找不到的。这里的结论是Lenat99.999993%正确, 因为43亿个案例中只有1200个实际上讨论了水向下流动。但那足够了, 并且你能从中继续进行查找。你能使用网络投票,你还可以说水泵可以提升水流,但那只发生了275次, 因此向下流动胜利了——1200次对275次。

实际上,我们在这儿做的,就是使用未受训练的大量的人力,你不必支付就可以完成所有的工作, 与其相对的是,经过训练的人使用明确定义的形式和以那种形式书写文本, 让我们就去使用已经是那里的材料吧。我尽力思考“非熟练劳动”的成果,设法把它用于对大量大数据的用途使用统计技术,并且通过在你自己那里过滤, 而不是完全遵从你的定义。

最后一个问题是垃圾信息。当你在实验室里并且定义了你的本体论, 一切看起来是好而整洁的。 但你一旦把它释放在网络世界中, 你会发现怎么有那么多不正直的人呢。这是例子:它看起来象两页。这实际上是一页。在左边的页面是Googlebot(Google 的网页检索漫游器)看见的, 右面的页面是通过其他用户代理看见的。这网站当它一旦看见Googlebot.com, 它显示的页面使得我们更匹配它,而当一名普通用户来浏览时, 它就显示想显示的页面。

这表明:第一, 我们有很多工作要做,来应付这种事, 而且你无法信任元数据。你无法确信人们将要说什么。总之, 搜索引擎摆脱了元数据的桎梏, 它们设法更多在对用户的感受上努力。很大程度上我们丢弃了元标记, 除非有一个真正相信他们的理由, 因为它们比有用更倾向于欺骗。并且如果那里是人们可能利用欺骗赚钱的市场, 它就更可能发生。人是非常擅长于发现这类垃圾信息的, 但机器不一定那样好。所以如果更多信息在机器之间流动, 这就是你所越来越多看到的。

延伸阅读:语义网(编译:毛向辉) ; Google Home Base ; Google Base:Content Provider

Tags: No Tags

Innovation 2.0: Why Web 2.0 companies might have to flip to avoid being flopped
by Jeff Clavier October 17, 2005

“什么是web2.0″这个问题在blog圈子中和一周前的大会上被热烈讨论,我不认为大家就这个问题达成了共识。快速回顾一下这些以Tim的文章为开端,然后由链接的脉络形成的相关见解。我也表达了自己的观点,指出低成本的自力更生和期望摆脱web2.0公司的特征,包括著名的短期快速反应。Peter rip最近在web2.0企业家论坛补充表达了一个有趣的前景。

企业已经处于“建立快速反应”中实在是冒险的努力,特别是“有特色的初创公司”的数量呈指数大量增加。可是,有一些例子证明短期离开(short term exit)并非坏事。下面我来为你解释。

现在我们很清楚地看到,成功的web2.0公司会设法达到”逃逸速度”——它的基本要求是:会吸引上百万的用户,利用巨大零成本知识,每天都会吸引数以千计的用户注册。这些”必须参与”的网络服务(MySpace,Skype,潜在地包括Facebook)提升了使用水平和流行程度,也增强了复制的壁垒。有趣的是,技术对于区分差异没什么根本上的影响,更多地证明了Ross Mayfield的观点:web2.0是由人们组建的(至少是作为评价的尺度)。可是,大多数基础通讯服务本身到达“逃逸速度”的时间很长,那就意味着它依靠大型的网络,需要一种真正的商业模式,和(或)通过分布式处理从其它基础用户中获取利益。

谁是这样的网络公司?它们做了什么?Google、Yahoo、MSN(简称GYM)分秒必争,它们在过去一年多以史无前例的速度为市场提供了众多新产品:MSN Spaces, Yahoo 360, Google Maps, MSN Visual Earth, Google BlogSearch, Yahoo podcast……

不但技术生态陷入了革新困境的原则中;大公司只能主动地布署更大的范围,小公司创新它们,开发现有市场,通过组织的增长、并购或被挖走最终成为大公司。但这不是web2.0的世界。

创新2.0是:大公司应该采纳意见,利用诸如LAMP, Ajax和stuff等崭新的工具开发新产品或服务,在六到十二个月间提供第一个版本。odeo、Apple、Yahoo在播客领域内的争夺是最典型的例子。大的公司并不是总开发原有理念上浩大的工程,至少现在看起来是这样的,如Yahoo Blog搜索, Google Reader, MSN Spaces的早期版本等。早期的实施者很可能不会转向短期开发,但阅读了TechCrunch的观点之后,那些初期大量没有转向新工具的人呢?GYM有这种能力,并不是利用过分的热情,它就能吸引我们。

Google,它给工作人员百分之二十的时间做自己的研究,这真是创新2.0的标榜。它们有3000个工作人员,那么百分之二十就差不多有600个人在开发东西,如果你知道在Google组织的顶端有四分之三的团队为自己喜爱的项目工作,就不必为他们以极快的效率开发出软件惊奇了。Yahoo也一样,他们有”欢乐星期五”工作制度,这样工程师们可以按照自己的想法开发产品。这两者都具有“创办者奖金”的理念,设立百万美元的”不寒酸奖金”奖励最佳团队,创造一种内部开动的精神。如果它不在计划中,我们可以期盼微软在计划中创造相似的理念,等等……

另一个由web2.0创业者带来的改变,接近于GYM,它们总是由广告主为服务付费,并传递给使用者。当你每月陷入上百万的广告轰炸时,由传统广告网络带来的价值正受到挑战,因为感兴趣的目录正消失得非常快。而AdSense/YPN都有针对感兴趣人群的广告目录和产品。如果可供选择的话,当然是建立独占的广告网络,在大街上投放广告销售人员。只有一些公司聚集起来才能达到这种范围,而且不会太浪费。

回到快速反应上来,或者说实际上的快速反应有两部分构成:播种(seed)阶段和初期。播种期的例子可以从Google收购的DodgeBall和Yahoo的Upcoming.org这两家公司看到,那公司中少数的家伙要求二十美元和在工作环境中拥有许多资源,作为不错的初始奖金。

然后是初期阶段,公司运营了一两年,资金逐渐宽裕(100万-200万美元之间),2500-3000万的脱手价格可以转向拥有30-50个投资项目的早期投资者,更多的人利用资金转向了创立者,他们花几年为需求者工作,把他们的DNA贡献到许多项目中(如Flickr、tags、MyWeb),腾出一年时间,重新开始。顺便说在我书中没有什么错误,对这些公司来说,我并没有说2500-3000万是合适的脱手价格。

所以创立者决定走快速反应那条道还是其它道路(如VC)?本质上两者都很吸引人,考虑到面对著名的“逃逸速度”的挑战,应该由他们自己和股票持有者想要做什么来决定。在一些例子中,时间价值使得短期内的个人转变最佳化。另一方面,它会感受到”忍受”Vc的稀释,可以为他们带来资源,从而到达下一阶段,在事实上,他们对时机的把握,足够满足vc的期盼,然后接下来可以做一些事情了。

Tags: No Tags

October 25, 2005

这是美国 NPR 一个名为 A nation of individuals 的专题的最后一集,在这里收听本集内容。NPR 连续一周都在关注中国个人意识的上升趋势。他们分别采访了阿里巴巴的马云、一个爱滋病活动家、一个农村基层干部和一个积极的基督教徒。最后一集记者 Rob Gifford 采访了一个正处在人生转折点的年轻女性。查看英文原稿,感谢北航的王孝杰老师。

今天中国的领导人们面临着许多重大的问题。诸如保持经济增长的势头、防止污染以及台湾问题等等。在这些重大问题上,领导人所做出的选择对普通百姓施加着巨大的影响。几十年来的政治体制一贯是这样自上而下。今天大政方针的决策依然如此,然而今天正在改变中国的不再只是政治局的种种决断,更多的是来自普通百姓看似平常的一个个小小的选择。

在北京西北部大学区的一个咖啡店里,21 岁的李佳[音译]对我讲述了她正面临的足以改变自己人生的一个选择。她乐于对我这个西方记者自信而礼貌地讲述自己的人生,然而由于过去中国集权化的政治体系,她像许多人一样要求隐去真名。李佳来北京是因为要参加一个为期半年的教师培训班。她在中国南方一个边远小城镇的公立学校做了两年英语教师,任教期间她还通过函授取得了学士学位。这两年的教学经历开始让她自然而然地对生活产生了更多期待。于是经过校长应允之后她来到北京,条件是培训结束之后再返回任教。 (more…)

Tags: No Tags

October 23, 2005

Guess what just turned 34? (需要代理访问)
By Paul Buchheit, Gmail程序员

对于电子邮件的起源,很难究根追底。但是在1971年的十月,一位名叫Ray Tomlinson的工程师选择了一个@符号作为电子邮件地址的象征,并且写下了第一个发送电子邮件的软件

在那个时候看来,这些并不重要——没有人想到去保存这第一封邮件,甚至没有想起去记录下它发送的时间。我一直在想,如果能象那样见证历史的话,一定非常有趣——一些重大事情发生的时候你在场。这部分地促使我参与到一个当时还没有命名的Google的项目当中去,也是当我得到机会创建一个全新的电子邮件项目Gmail的时候感到兴奋的原因。

当然这些并不是我为什么参与到Gmail的开发的惟一原因。我十分依赖于电子邮件,但它对我来说确非常的差劲。我的邮箱简直是一团糟。重要的邮件被令人绝望地埋了起来,上下的对话成了一堆垃圾;有的时候,四个不同的人会不约而同地回答同一条消息,因为他们没有看见先前的答复。我经常无法登录自己的email,它在机器上死机了,而它的页面则让人无法忍受。还有很多毛病。有了Gmail,我就有机会改变email了,让它为我工作,而不是给我添乱。

我们有许多好的想法。但一开始,我们花了很多的时间与别人谈论他们的email。他们给了我仔细观察的机会,让我们真正懂得了他们是如何使用email的以及他们想得到什么样的email。我们并不想在旧的界面上添加我们新功能。我们必须对于email有一个全新的考虑,而与此同时我们也应该尊重它长达30年的历史、成千的现存程序和上亿的用户。所以我们开始的时候就开始考虑什么功能是最重要的,什么需求是最为迫切的。我们同时也意识到,对于软件的第一版来说,想解决所有人的问题实在是个巨大的挑战。开发出一个大多数人喜爱,而每个人至少都能凑合着用的产品,就是我们的目标。

2004年的4月1号,我们推出了Gmail的第一版。它立刻因为高达1个G的容量为人所知,而多年以来其它服务商只提供4MB的容量。我们这么做并不仅仅为了哗众取宠(当然也有其中的成分在里面)。它是我们设计理念。我们总是希望能为我们的用户做尽可能多的事情,当我们能让它更自由的时候,我们就这么干了。

但是容量并不是最显著的区别,我们对于电子邮件的改进才是最重要的。Gmail有着精确而快速的搜索。它带来了组织邮件的全新理念,例如会话视图(我终于可以一次看见所有的回复了)。它提供了一个快捷而富有活力的浏览界面,使得AJAX这项技术开始为人熟知。

这个界面包括了许多在当时闻所未闻的新的特征,例如邮件地址的自动填充,快速拼写检查,键盘快捷键,以及实时更新。它有一个非常智能化的垃圾邮件过滤器。最后我们决定你即使有一天决定不再使用它,你仍然可以保留你的Gmail账户和里面的所有邮件。手机用户即使更换了服务商仍然可以保存他们旧的电话号码,你应该在Gmail里允许同样的自由。为了确保这种自由,Gmail免费提供邮件的转发POP下载。现在许多服务商开始提供Gmail所带来的变革,我们希望他们能把这个也包括进去。

当然,这些并不仅仅是开个头而已,我们依然在不断改进Gmail。我们增加了免费的存储空间,我们提供了包括38种语言在内的多语言界面,以及刚刚推出的自动存储草稿功能,是你不至于一不小心遗漏了写了半截的信件。我们知道Gmail仍然不是对每一个人的胃口。我们仍在努力。我们还有许多创新等着实现。我们希望能再次给大家带来惊喜,使Gmail为更多人所满意。

我对我们所做的感到自豪,对于Gmail的未来感到兴奋。所以加入到我们的用户中来,庆祝电子邮件这么多年来所走过的道路。

Undersound编译)

Tags: No Tags

A turning point for the web?
Thu, Oct 20, 2005; by Dave Winer.

Kevin Werbach想知道现在是不是互联网“断层”的断裂期。这是相当生动的想法,而我认为并非如此。让我们看一看,究竟是什么促使Werbach这样想。

Google想要以浏览站点这样方式来看待印刷书。

如果你发布了一个站点, Google会在缓存中读取整个站点,然后让你在其中发现你想要的东西。发布站点的人们通常知道这一点,也愿意让Google这样做。

现在他们想要扫描所有的印刷书,并且把它们也纳入缓存中,然后让我们在书中找到(想要的)东西。显而易见,对于乐于获取知识的人,这是一件好事。但是拥有书籍版权的人却不这样想。他们认为Google在做这件事之前应该得到他们的允许,并且如果Google得不到允许,也不应该做扫描、缓存和搜寻这样的工作。

Google基本上同意了,但他们说出版者必须摆脱固有模式,而应该共同参与进来。他们运转它,以便使出版者“不能得到它”的呼声缄默了,但如果这真的不是什么大事,为什么Google不摆脱它、还要求参与进来?这里才是他们要求参与的地方——例如,除非我注册了他们的程序,并且在我的模板包括一点Javascript,他们就不会在我的站点投放广告(AdSense ads).

在没有得到允许和付款的时候,他们想在我们的站点投放广告,这个情况似乎是过去几个月中我们同Google无法达成一致的地方。因为我们没有投放广告,他们和电子前沿基金会(EFF)说我们有点傻。但另一方面我非常清楚,这件事是多么的阴险。我必须摆脱开多少诱惑啊,为什么要摆脱呢?如果有十万个程序会为我的站点添加广告呢?我能真正地摆脱它们吗?那样多疯狂啊。为什么Google就如此特殊?谁会让Google来决定碰巧使用他们工具栏的人来读我站点上所写的内容?他们从哪里得到了改变我文字意愿的权利?当我看到他们攻击性地推行工具栏时,与sun公司共享技术,我祝愿他们会灭亡,因为我对他们如此利用网络感到厌恶。

我们与微软同时进入这个领域, 微软退却了。但Google没有。他们对反对视而不见,并且他们现在在你没有得到允许的内容上、没有给你付费的情况下就投放广告。你现在对此感觉如何?

这是技术产业的问题。我们认为会找到解决方法。我们认为我们比所有其它人更好地了解这一切。并且我们支持最初为我们考虑的公司,但当他们迅速增长、转变观点时,我们帮助他们欺骗了象我们这样的人,比google自己的推广更甚。并且我们最终也会对我们自己这样做的。我随后主张EFF必须这样做:如果他们想要保护个人创造性免受象Google这样的公司的入侵,就不仅要保护那些想把版权置于一边的人,也要必须站在版权持有者的一方。

是时候意识到Google不再是我们过去常常喜爱的小公司了。他们现在象很多其它巨型公司一样把个人推向了一边。他们需要一些制约的力量。并且对于每个问题,都站在他们那一边是盲目的。有时他们是错误的,并且我相信现在就是时候。这确实值得考虑他们是错误的。

现在, 回到Werbach的想法上来。如果这是互联网的转折点,保护的力量不是在出版者的手中,而是在Google和EFF的手中。如果任何一方同意了,我们才会参与进来,问题被解决。当我把内容张贴到网络上,我知道它将被纳入索引,但是为什么允许他们这样做?Google清楚地知道,对于版权所有者没有被允许或报偿,就没有权利拷贝和重印书籍。出版者看来是在站在正确的一方了,并且我并不是律师,我无法想象能否在法庭上战胜他们。

*延伸阅读:什么时候开始反对Google? ; 微软的过去和Google的宿命

**虽然我也是google迷 [fan],但我不希望迷信google

Tags: No Tags

Next Page »