雅虎开源 Web 爬取工具 Anthelion

雅虎开源 Web 爬取工具 Anthelion

Web 爬取工具是 Yahoo 很重要的核心,甚至超过了其他应用: Yahoo Mail, Yahoo Finance, Yahoo Messenger, Flickr 和 Tumblr。

上一年在上海的一次会议中,Yahoo 也详细提到了 Anthelion:“Anthelion 最初专注于语义数据,使用标记语言嵌入到 HTML 页面,比如 Microdata,Microformat 或者 RDFa。”这次会议还提到了爬取技术是如何实现的,为什么能提供更高数量的特定搜索查询相关的结果。

Microdata 和 RDFa 是结构数据关于不同主题的语法格式,兼容 schema.org 词汇(一个 Google,Yahoo 和 Bing 搜索引擎都在研究的项目)。

Anthelion 的代码现在以 Apache 开源授权协议托管到 GitHub:https://github.com/yahoo/anthelion,包含 Apache Nutch 完整源代码。

Anthelion 可以根据设定目标爬取特定页面,比如,包括标记描述影片和至少两个不同属性(比如电影标题和演员)。 

雅虎开源 Web 爬取工具 Anthelion

原创文章,作者:奋斗,如若转载,请注明出处:https://blog.ytso.com/50254.html

(0)
上一篇 2021年8月6日
下一篇 2021年8月6日

相关推荐

发表回复

登录后才能评论