day005
1.文本处理+词云
01.什么是文件;文件是操作系统提供的一个虚拟概念,用来储存信息
02.文本文件;.txt/.word/.md/.py/.xml/.ini 储存的是文字
03.通过文本编辑器去控制txt文件
1.找到文件路径 # file_path='/Users/luocongyu/Downloads/百度网盘/上课数据/day 05/huijiadeyouhuo.txt' 2.打开文件 # f=open(file_path)(只是把文件读入内存没有将文件可视化) 打开文件的3种方式 3.读取/修改操作 # data=f.read() # 读取文件让文件可视化 4.保存 # f.flush() # 保存文件 5.关闭文件 # f.close() # 关闭文件
import jiebaimport imageioimport wordcloud# 1. 读取文件内容with open(r'/Users/luocongyu/Downloads/百度网盘/上课数据/day 05/huijiadeyouhuo.txt','r+',encoding='utf8') as fr: # for i in range(1000): # fr.write('回家的诱惑,') # fr.flush() # 相当于保存 data = fr.read()# 2. 使用结巴模块对文件内容切割jieba.add_word('回家的诱惑') # 让"回家的诱惑"成为一个单词jieba.del_word('女士')jieba.del_word('先生')jieba.del_word('小马')data_list = jieba.lcut(data)data = ' '.join(data_list)# 3. 找到一张洪世贤的图片img = imageio.imread(r'hongshixian.jpg')# 4. 使用词云模块生成词云w = wordcloud.WordCloud(background_color='white',mask=img,font_path=r'C:\Windows\Fonts\simsun.ttc',max_words=150)w.generate(data)w.to_file('nihaosaoa.png')
2.爬取图片
import requestsresponse = requests.get( url='http://gss0.baidu.com/-4o3dSag_xI4khGko9WTAnF6hhy/zhidao/pic/item/5243fbf2b21193136cdd4aab6c380cd791238d0b.jpg')with open('蕾姆.jpg','wb') as f: f.write(response.content) print('图片下载成功')
3.爬取视频
import requestsresponse = requests.get(url='https://video.pearvideo.com/mp4/third/20190827/cont-1595605-10024340-172750-hd.mp4')with open('肉沫虹豆。mp4','wb') as f: f.write(response.content) print('视频下载成功')
4.爬取文本
import requestsimport reresponse=requests.get(url='https://movie.douban.com/chart')response.encoding = 'utf-8'print(response.text)Weekly=re.findall('<td width="100" valign="top">.*?<a class="nbg" href="(.*?)".*?title="(.*?)">', response.text, re.S)num = 1with open('renren11.txt', 'w', encoding='utf-8')as f: for line in Weekly: movie_url = line[0] movie_name = line[1] f.write(movie_url + '---' + movie_name + '\n')print('写入数据成功,程序结束')