邵珠庆の博客 生命只有一次,你可以用它来做些更多伟大的事情–Make the world a little better and easier

147月/1116

python:beautifulsoup多线程分析抓取网页

发布在 邵珠庆

python beautifulsoup多线程分析抓取网页

Posted: 24 Jun 2011 04:51 AM PDT

  最近在用python做一些网页分析方面的事情,很久没更新博客了,今天补上。下面的代码用到了

1 python 多线程

2 网页分析库:beautifulsoup ,这个库比之前分享的python SGMLParser 网页分析库要强大很多,大家有兴趣可以去了解下。

 

#encoding=utf-8
#@description

[......]阅读全文

213月/100

PHP抓取网页和分析

发布在 邵珠庆

<?PHP

//$url = "http://news.google.cn/news/section?pz=1&cf=all&ned=ccn&topic=i&ict=ln";
$url = "http://news.google.cn/news/section?pz=1&cf=all&ned=ccn&topic=t&ict=ln";
$lines_array = file($url);
$lines_string[......]阅读全文