Wayback Machine收录4千亿网页 涵盖1996年至今历史记录

Internet Archive今日达成了一项里程碑式成就,其网站历史信息查询服务工具Wayback Machine收录了4千亿网页索引。数据涵盖了从1996年至今的几乎所有网站的历史网页记录。

以下是Internet Archive总结的Wayback Machine的历史和里程碑:

Wayback Machine收录4千亿网页 涵盖1996年至今历史记录

2001年 – Wayback Machine项目启动

2006年 – Arichive-It启动,允许创建订阅该服务的库以收集网络内容

2009年3月25日 – Internet Archive和Sun微系统公司共同启动了一个数据中心,存储整个互联网的文档及为Wayback Machine提供服务。该数据中心有3PB容量,每秒处理500个请求。

2011年6月15日 – 加入HTTP Archive,增加记录网站性能数据的功能。

2012年5月28日 – Wayback Machine在中国被封锁数年后再次上线。

2012年10月26日 – 被记录网站抓取数据达到了80TB,该抓取数据在2011年面向研究者开放。

2013年10月 – Wayback Machine新功能“保存页面”开放,可以在页面被记录后一小时再查看最新的内容;联邦政府关闭期间也可以通过该工具访问政府站点。

更多可以参见: http://www.techcn.com.cn/index.php?edition-view-196173-4.html 

Wayback Machine收录4千亿网页 涵盖1996年至今历史记录

原创文章,作者:ItWorker,如若转载,请注明出处:https://blog.ytso.com/44599.html

(0)
上一篇 2021年8月5日
下一篇 2021年8月5日

相关推荐

发表回复

登录后才能评论