[软件开发]对XFN 数据的广度优先抓取 [复制链接]

上一主题下一主题查看指定楼层

红黑网友(游客)

菜鸟(发帖需审核,请升级)

发帖: 141299

黑豆: -2859

威望: -2709

贡献值: 0

交易币: 0

红豆: 0

只看楼主倒序阅读 0 发表于: 2015-01-12

让我们通过挖掘一些XFN 数据，并基于它创建社交图谱来进入社交领域。由于XFN 可以嵌入到任何网页中，因此我们不得不做一些Web 抓取。然而，它并没有多难，它几乎是你见过的最简单的Web 抓取了，而且BeautifulSoup 包可以大大减轻我们的负担。示例2-2 的代码使用Ajaxian（http://ajaxian.com）作为图的基础，它是关于现代网络发展的大众博客。在运行easy_install BeautifulSoup 命令之后再尝试运行它。
示例2-2 ：抓取网页中的XFN 内容（microformats_xfn_scrape.py）
# -*-coding: utf-8 -*
import sys import urllib2 import HTMLParser from BeautifulSoup import BeautifulSoup
# Try http://ajaxian.com/ URL = sys.argv[1]
XFN_TAGS = set([ 'colleague', 'sweetheart', 'parent', 'co-resident', 'co-worker', 'muse', 'neighbor', 'sibling', 'kin', 'child', 'date', 'spouse', 'me', 'acquaintance', 'met', 'crush', 'contact', 'friend', ])
try: page = urllib2.urlopen(URL) except urllib2.URLError:
阅读全文地址：http://book.2cto.com/201301/13774.html

发帖回复

返回列表


	https://bbs.2cto.com 访问内容超出本站范围，不能确定是否安全


	关闭您还没有登录，快捷通道只有在登录后才能使用。立即登录还没有帐号？赶紧注册一个


	关闭选中1篇全选