论坛风格切换
您好,欢迎光临本站!   登录 注册新用户
  • 3512阅读
  • 1回复

[软件开发]对XFN 数据的广度优先抓取 [复制链接]

上一主题 下一主题
 
发帖
141299
黑豆
-2859
威望
-2709
贡献值
0
交易币
0
红豆
0
只看楼主 倒序阅读 0 发表于: 2015-01-12
让我们通过挖掘一些XFN 数据,并基于它创建社交图谱来进入社交领域。由于XFN 可以嵌入到任何网页中,因此我们不得不做一些Web 抓取。然而,它并没有多难,它几乎是你见过的最简单的Web 抓取了,而且BeautifulSoup 包可以大大减轻我们的负担。示例2-2 的代码使用Ajaxian(http://ajaxian.com)作为图的基础,它是关于现代网络发展的大众博客。在运行easy_install BeautifulSoup 命令之后再尝试运行它。
示例2-2 :抓取网页中的XFN 内容(microformats_xfn_scrape.py)
# -*-coding: utf-8 -*
import sys import urllib2 import HTMLParser from BeautifulSoup import BeautifulSoup
# Try http://ajaxian.com/ URL = sys.argv[1]
XFN_TAGS = set([ 'colleague', 'sweetheart', 'parent', 'co-resident', 'co-worker', 'muse', 'neighbor', 'sibling', 'kin', 'child', 'date', 'spouse', 'me', 'acquaintance', 'met', 'crush', 'contact', 'friend', ])
try: page = urllib2.urlopen(URL) except urllib2.URLError:
阅读全文地址:http://book.2cto.com/201301/13774.html
快速回复
限100 字节
 
上一个 下一个