博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
爬取网站段子
阅读量:6696 次
发布时间:2019-06-25

本文共 619 字,大约阅读时间需要 2 分钟。

hot3.png

使用requests库和正则表达式爬取段子并保存到.txt文件

lianjie:

import reimport requestsimport sysreload(sys)sys.setdefaultencoding("utf-8")url="http://hahahahhaahah.com/"# url=""header = {'User-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}haha = requests.get(url,headers=header)haha.encoding='utf-8'    # print haha.textheihei=re.findall('

(.*?)

',haha.text,re.S)fp=open('neihan.txt', 'wb')# fp.write(heihei.text)for each in heihei: print each print '-'*100 fp.write(each) fp.write("\n\n") 防止被覆盖fp.close()

 

转载于:https://my.oschina.net/spacewe/blog/858743

你可能感兴趣的文章
使用 servlet 连接数据库
查看>>
流媒体服务器搭建实例——可实现录音,录像功能
查看>>
.Net/C#中Cache的用法
查看>>
[Winodows Phone 7控件详解]控件拾遗
查看>>
强大的独立日期选择器(date picker)插件 - Kalendae
查看>>
使用MinGW编译Psycopg2
查看>>
HTML与CSS(图解6):超链接
查看>>
通断时间面积法
查看>>
spring mvc相关问题
查看>>
YUV格式&像素
查看>>
xml保存基本信息
查看>>
正向代理与反向代理
查看>>
android学习者优秀网址推荐
查看>>
关于JS获取select值的两种实现方法
查看>>
PetaPoco初体验(转)
查看>>
C#线程篇---Task(任务)和线程池不得不说的秘密
查看>>
pug模板引擎(原jade)
查看>>
大跃进和循序渐进
查看>>
SQL*Plus命令
查看>>
133. Clone Graph
查看>>