如何在9个小时内转移3.4万个WIRED页面?

小时 页面 万个

WIRED成立多长时间了?我只想说,如果它是一个人的话,那么他已经超过法定饮酒年龄了。这20多年来,WIRED已经发表了几万期刊物,如果将每一本杂志的封面都摆在书架上,一定会让人感到震撼。然而在网页上,很显然无法进行这样的展示。在这个背景下,我们决定对网页进行一次大扫除。

WIRED.com的发展故事,向所有人展示了硅谷互联网泡沫从出现到破灭的整个过程。1993年,在WIRED杂志成立不久之后,HotWired成为了在线新闻领域的先锋。但是当互联网泡沫碎裂之后,网站被卖给了Lycos,而他们旗下的杂志则被出售给了Condé Nast。这两个机构后来各自发展,直到2006年。在这一年里,Conde收购了WIRED.com。在这次收购之后,除了纸质杂志之外,WIRED还开始发行电子版杂志。有过了不久之后,WIRED.com被转移到了wordPress上,开始用一种全新的方式更新网站,并且保留了此前所发布的所有内容。

你可以将这种文章归档方式想象成一种数字冷冻间。这里储存了WIRED历史上发表过的所有3.422万个网页,这些网页的出现远远在WordPress这个平台初现以前。这些网页就像是一个巨大的宝库,里面记录了科技发展在各个时期的里程碑,它甚至可以起到科技发展编年史的作用,从谷歌的诞生,到苹果的重新崛起,再到社交网络的出现。对于这些内容,我们感到十分骄傲,当然也非常珍视它们。然而让我们挠头的时,虽然这些内容的重要性无需多言,但是由于出现的时间较早,当时所使用的编程技术无法良好的支持我们现在所使用的网页技术。更糟糕的是,这些存档就像是一个没有网站地图、也没有网站架构的黑匣子,是的我们无法了解它的体积,这使得将这些页面迁移到现有网站上成为了一件难度异常高的任务。

Cyphon的出现

Cyphon是一种我所发明的技术,我开发它的用意是为了用一种通用标准来分析WIRED的大量网页存档,并且存储其中的相关数据。

今年4月开始,我一直在开发这种技术,可以说Cyphon占据了我几乎所有的工作时间。我决定使用Node.js将Cyphon打造成一个命令行工具。Node.js是一个时下流行的服务器端平台,有大量的开发人员为其提供支持。最初的时候,我尝试着对所有存档网页进行分析,试图找到其中是否有可以自动以编程的方式进行分类的规律。在进行了一些分析时候,我发现,大多数存档网页可以被分成3种类型,每一种类型都对应着各自发布时期所使用的技术。在获得了这个信息之后,我制定了内容转移流程,并且对即将使用的工具进行了精加工。

首先,我编写了一个特殊功能,它可以将大约200本杂志的登录页作为起始点,对所有存档网页进行分析。这个繁冗的分析工作需要花上几个小时的时间,但是它可以将尚未进行分析的页面安全的存储在一个专门的数据库中,这样做的好处是避免了数据损坏,而且还能够避免进行重复分析的危险。

接下来,我又编写了一种方式,它可以将分析得来的粗略数据转换为结构性更强的信息:题目、作者、发布日期等等。在对每一个特定时期的内容进行分析的时候,我做了一个独特的“摘要统计器”。有了这些信息,我们就可以将这些网页的HTML导入这个摘要统计器,然后进行提取。最后,我又发明了一种能够将这些数据变成WordPress所支持的简单格式的方式,然后完成向WordPress平台的导入。

在这个过程中,对存档网页进行分析,以及对内容发表时间的排序成为了技术上最大的挑战。让我欣慰的是,一位名叫Christopher Giffard的开发人员已经编写了一个非常优秀的分析工具,这个工具为我提供了重要的帮助,在Node社区中,很多人都曾经靠着其他开发人员的帮助完成了目标。我想在这里特别感谢这位开发人员。为了更好的完成内容分析和归类,我创造了无数的过滤规则,这些过滤规则能够辨别相似页面中的那些细微差别,它们也让内容的最终输出尽可能的靠近当前我们所使用的技术。最重要的是,在刚开始开发Cyphon的时候,我就希望它可以被其他人所扩展,可以添加其他的分析规则和摘要统计器,而我最终完成了这个目标。

例如,在对杂志文章进行了分析之后,我又添加了另一个工具来分析URL列表,完成了大量非杂志文章的统计和导入。

Cyphon所完成的工作:

·34220个网页的分析

·11195篇存档文章

·14799篇新文章

·97%的数据被成功分析并且导入到新网站平台

·为所有内容生成了1076个标签

有了这些得来不易的数据,我终于可以在WordPress平台上浏览这些文章了。而直到这个时候,我才突然意识到:从上世纪90年代,那些先驱的前赴后继之后,web已经经历了许多的变化。从最早的只有文字的文章,当后来图片的出现,直到现在我们可以在网页上直接观看视频。在web出现的早期,几乎所有网页看上去都一样,而如今网页的形式已经无穷无尽。然而,无论网页的布局如何改变,问文章的形式几乎从来没有什么巨大的改变。

小时 页面 万个

况且,这些文章有着自己的价值,就像我此前所说的,它们是科技世界的编年史,可以让我们了解科技的发展进程。那么我们要如何利用好这11195篇存档文章?是否要做一个回顾科技大事件的专题?我相信网站的内容编辑们会有更好的想法。

在整理这些海量数据的同时,我获得了极大的满足感。作为一名工程师,完成这样的工作总会让我兴奋异常。作为技术人员,我的职责之一,就是保留好以前的内容,并且将其迁移到新的网站上,让读者在需要的时候可以轻松的找到这些内容。我现在的感觉,就是将这些数字内容整齐的拜访到了虚拟书架上。

    无相关信息