爬取网站段子-白红宇

爬取网站段子

阅读量：6696 次

发布时间：2019-06-25

本文共 619 字，大约阅读时间需要 2 分钟。

使用requests库和正则表达式爬取段子并保存到.txt文件

lianjie:

import reimport requestsimport sysreload(sys)sys.setdefaultencoding("utf-8")url="http://hahahahhaahah.com/"# url=""header = {'User-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}haha = requests.get(url,headers=header)haha.encoding='utf-8'    # print haha.textheihei=re.findall('(.*?)
',haha.text,re.S)fp=open('neihan.txt', 'wb')# fp.write(heihei.text)for each in heihei:    print each    print '-'*100    fp.write(each)    fp.write("\n\n")    防止被覆盖fp.close()

转载于:https://my.oschina.net/spacewe/blog/858743

你可能感兴趣的文章

使用 servlet 连接数据库

查看>>

流媒体服务器搭建实例——可实现录音，录像功能

查看>>

.Net/C#中Cache的用法

查看>>

[Winodows Phone 7控件详解]控件拾遗

查看>>

强大的独立日期选择器(date picker)插件 - Kalendae

查看>>