让我们通过挖掘一些XFN 数据,并基于它创建社交图谱来进入社交领域。由于XFN 可以嵌入到任何网页中,因此我们不得不做一些Web 抓取。然而,它并没有多难,它几乎是你见过的最简单的Web 抓取了,而且BeautifulSoup 包可以大大减轻我们的负担。示例2-2 的代码使用Ajaxian(http://ajaxian.com)作为图的基础,它是关于现代网络发展的大众博客。在运行easy_install BeautifulSoup 命令之后再尝试运行它。
示例2-2 :抓取网页中的XFN 内容(microformats_xfn_scrape.py)
# -*-coding: utf-8 -*
import sys import urllib2 import HTMLParser from BeautifulSoup import BeautifulSoup
# Try http://ajaxian.com/ URL = sys.argv[1]
XFN_TAGS = set([ 'colleague', 'sweetheart', 'parent', 'co-resident', 'co-worker', 'muse', 'neighbor', 'sibling', 'kin', 'child', 'date', 'spouse', 'me', 'acquaintance', 'met', 'crush', 'contact', 'friend', ])
try: page = urllib2.urlopen(URL) except urllib2.URLError:
阅读全文地址:
http://book.2cto.com/201301/13774.html