小说 | 易学教程

最近听的两本职场小说：《做单》、《杜拉拉升职记3》

阅读更多关于最近听的两本职场小说：《做单》、《杜拉拉升职记3》

最近听了两本比较新的影响比较大的职场小说：《做单》和《杜拉拉升职记3》。下面是读后感。《做单》从一个销售的角度来写两家大外企争夺一个电信业大单的故事。是从一个最底层的销售的角度来写的。我感觉作者真的有做销售的体验。许多细节是外行写不出来的。不过他也只有销售的经验。书中涉及到的一些更高层的事情，感觉就写的一般话了。最关键的销售争夺战，有点虎头蛇尾，前面写了很多曲折，以为后面还有多大风波呢，结果很平淡就赢了单了。作为一本职场小说，相对来说还是挺好看的。由于只有销售方面的体验，跟《圈子圈套》比起来，视野有点狭窄。《杜拉拉升职记3》讲杜拉拉从原单位离职了，换了一家单位，做起了自己想做的薪酬福利经理。跟《杜拉拉升职记2》比起来，好看一些了，但是感觉比不上《杜拉拉升职记1》。作为一本小说，《杜拉拉升职记3》中有一些冲突，但是不大，有一个杜拉拉的对立面，后来又对杜拉拉好起来了。我猜作者基本上只有人事经理的工作经验，只能写写人事方面的故事。听一听就当是朋友一起吃饭聊天随便讲的工作中的事。不会太精彩，也能有一些自己不知道的工作上的体验。但是我不认同书中杜拉拉给自己设立的职场大方向。她一直觉得人事薪酬福利经理是一个公司的核心部门，非要去干这个工作。在书中她成功了。这三部《杜拉拉升职记》都是听来的，记不太清她为什么要这么选择了。大概记得是她认为人事部是一个公司的核心部门。我的感觉是按书中所写

UML类之间的关系

阅读更多关于 UML类之间的关系

UML 简介统一建模语言（Unified Modeling Language，UML）作用：对软件系统进行说明如果说软件系统是一本小说的话，那么 UML 就是将小说动漫化。也许你看过这本小说，但是时间一长，你会忘记一些东西，但是动漫化的故事你不会轻易忘记。类之间的关系用一张类图说明类之间的关系通常有6中：泛化（Generalization）实现（Realization）关联（Association) 聚合（Aggregation）组合(Composition) 依赖(Dependency) 泛化泛化 = 继承比如鸟类是动物的泛化，酵母菌是真菌的泛化，网络小说是小说的泛化 … 子类具有父类的特征，但又具有父类所没有的特征。实现对接口的具体实现，是由抽象到具体的过程关联比如价格和商品销量是有关联关系的，天气和航班是有关联关系的，企鹅和气候是有关联关系的 … 聚合指一堆对象聚在一起，但这些对象单独又是一个整体组合是包含关系，比如鸟类包含翅膀、躯干、脑袋、尾巴等，但不能说翅膀就是鸟类依赖人离了氧气就会死，这就是依赖。来源： CSDN 作者：归否链接： https://blog.csdn.net/LHAT_7/article/details/103821430

一个逐页抓取网站小说的爬虫

阅读更多关于一个逐页抓取网站小说的爬虫

需求：抓取某些网站上的小说，按页抓取每页都有next 按钮，获取这写next 按钮的 href 然后就可以逐页抓取解析网页使用beautisoup from bs4 import BeautifulSoup import urllib2 import time import sys #http://www.vc.com/htm/2016/12/24/t02/367246.html host_name = 'http://www.vc.com' def html_process(html_file,url): ''' use bs to get the titile && contain && next link from html_file ''' global host_name #soup = BeautifulSoup(open(html_file),"html_parser") soup = BeautifulSoup(html_file,"html.parser") ##################################################### text = '/dev/shm/novel.txt' file = open(text,'a') file.write('###################################

爬取小说

阅读更多关于爬取小说

爬取小说 1.分析网址结构 2.代码实现 3.结果显示 1.分析网址结构由上可知小说的网址。然后分析章节的地址。分析文本具体位置 2.代码实现 # 用于获取网页的html from urllib import request # 用于解析html from bs4 import BeautifulSoup import re # 得到网页的html def getHtml ( url ) : url = url res = request . urlopen ( url ) res = res . read ( ) . decode ( ) # print ( res ) return res # 解析小说章节页面 , 获取所有章节的子链接 def jsoupUrl ( html ) : # 获取soup对象 url_xiaoshuo = BeautifulSoup ( html ) # 因为我们要拿取 class 为box1中的div class_dict = { 'target' : '_blank' } url_xiaoshuo = url_xiaoshuo . find_all ( 'a' , attrs = class_dict ) # 因为分析html中的代码可以发现div的 class 为box1的有两个 , 通过上面的代码返回的是一个list格式的结果

一个屌丝程序猿的人生（六）

阅读更多关于一个屌丝程序猿的人生（六）

　　林萧怎么也不会想到，他与李丹的生活，竟然会在这荒无人烟的工地上产生交集。　　在林萧的眼中，李丹虽然比自己大上两岁，但在他看来，李丹始终都是一副柔柔弱弱的样子，仿佛一个长不大的公主。　　高中的时候，李丹曾经谈过一个男朋友，而且李丹的男朋友与林萧也是熟识，因此林萧就经常从林丹男朋友的嘴里听到她的消息。不过没过多久，李丹就和男朋友分手了。以至于后来有一段时间里，每次林萧和李丹见面，两人都会不约而同的提到这些事。　　也或许正是因为经常聊到这些话题，所以才让二人之间原本纯洁的友谊，多多少少滋生出了一些异样。　　直到上大学以后，二人相隔千里，这才渐渐的相互淡忘。不过尽管如此，由于双方母亲的关系，二人在寒暑假时也偶尔能够见面。　　话虽如此，但二人之间难得产生的一丝异样，经过四年大学的淡化，也早已消失的无影无踪了。　　但是，世间的事就是这么奇妙，二人就在这样的情况下，在工地相遇了。　　与林萧不同的是，李丹似乎早就知道他在这里。林萧几乎可以断定，一定是李丹的母亲觉得她从小太娇惯了，想给她找个地方吃点苦。而自己母亲和李丹的母亲联系一直很紧密，就算是要吃苦，有个熟人在旁边也不是坏事，所以李丹为什么回来工地也就不奇怪了。　　李丹与任静不同，任静虽然身材娇小，长相也不算成熟，表面看起来属于单纯可爱类型的女生，但实际上，任静的思想却比较成熟稳重。那天夜里，之所以任静会这么主动

python爬取小说存储至Mysql并用 django框架做了搜索呈现界面【爬虫-mysql阶段】

阅读更多关于 python爬取小说存储至Mysql并用 django框架做了搜索呈现界面【爬虫-mysql阶段】

环境：pycharm3.6 mysql django 爬虫解析方式：bs4 +正则爬取小说的网站：笔下文学网 https://www.bxwxorg.com/ 需求：获取玄幻、武侠、都市、历史四类所有小说的信息，包括6个字段（book_id,小说名，小说作者，小说简介，小说最近更新时间，小说海报）一、分析uirl：点击进入玄幻类，发现共有50页，每页30本小说，点击第二页 url发生变化：通过页数传递了参数，再来分析源代码然后再随便打开了一本小说分析源代码：发现是通过传递这本书的book_id 获取这本书的具体信息，于是要获得4个类的所有小说的信息，那么前提是要获得所有小说的book_id，再用book_id来逐个获取需要字段的信息。二、爬虫代码实现 2.1 几次探索发现所有类（玄幻、武侠等）的小说的第一页存储小说的class id == 和后面的n页是不相同的，这意味着第一页和后面的response不能用一种方法来解析，所以我先处理了所有小说类的第一页，然后在同时处理其他类的n页。 spider代码如下： import requests import re import bs4 import time import random import pymysql #打印报错url日志 def log_error(url): error_list=[]

用Python爬取小说《一念永恒》

阅读更多关于用Python爬取小说《一念永恒》

　　我们首先选定从笔趣看网站爬取这本小说。　　然后开始分析网页构造，这些与以前的分析过程大同小异，就不再多叙述了，只需要找到几个关键的标签和user-agent基本上就可以了。　　那么下面，我们直接来看代码。 from urllib import request from bs4 import BeautifulSoup import re import sys if __name__ == "__main__": #创建txt文件 file = open('一念永恒.txt', 'w', encoding='utf-8') #一念永恒小说目录地址 target_url = 'http://www.biqukan.com/1_1094/' head = {} head['User-Agent'] = 'Mozilla/5.0 (Linux; Android 4.1.1; Nexus 7 Build/JRO03D) AppleWebKit/535.19 (KHTML, like Gecko) Chrome/18.0.1025.166 Safari/535.19' target_req = request.Request(url = target_url, headers = head) target_response = request.urlopen(target_req)

爬取小说并以章节名保存

阅读更多关于爬取小说并以章节名保存

今天我们爬取网页中的文字，与上次的爬取网页中的图片相似，网页的中的文字也是在网页的源码中（一般情况下）。所以我们就以在某小说网站上爬取小说《圣墟》为例，使用爬虫爬取网页中的文本内容，并根据小说的章节名保存。我们的思路如下：　　1.爬取当前网页的源码：　　2.提取出需要的数据（标题，正文）　　3.保存（标题为文件名）我们首先找到要爬取的网页： https://www.nbiquge.com/0_89/15314.html ，可以看到小说的标题和正文，这是本次爬取的目标。首先分析网页的编码格式，可以看到该网站的编码格式是”gbk“。然后找到我们要爬取的信息在网页中的位置：标题，在网页中右键点击标题，点击”检查“，就可以看到标题在网页中所处的位置。正文：在了解网站的编码和标题正文的位置后，我们就可以编写代码来进行爬取了！首先获得网页源码，再对源码进行分析，提取所要获得的数据，最后保存为.txt文件。代码如下： import requests from bs4 import BeautifulSoup #网页url url="https://www.nbiquge.com/0_89/15314.html" #获得网页源码 def getHtml(url): r=requests.get(url) r.encoding='gbk' return r.text

爬取笔趣阁小说

阅读更多关于爬取笔趣阁小说

《修罗武神》是在 17K小说网上连载的网络小说，作者为善良的蜜蜂。小说讲述了一个少年从下界二等门派外门弟子成长为上界翘楚人物的故事。该书曾入选“第三届橙瓜网络文学奖”百强作品。编程只是实现目的的工具。所以重点是分析我们的需求。获取小说目录页面是基本。这里有各个章节的链接，标题等等内容。这是我们需要的。有了各个章节的链接，就需要进入其中获得各个章节的内容。 1.首先是爬取网站的内容 1 def get_content(url): 2 3 try: 4 headers = { 5 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.67 Safari/537.36', 6 } 7 8 r = requests.get(url=url, headers=headers) 9 r.encoding = 'utf-8' 10 content = r.text 11 return content 12 except: 13 s = sys.exc_info() 14 print("Error '%s' happened on line %d" % (s[1], s[2].tb_lineno)) 15 return "

正则表达式爬取小说各章节链接

阅读更多关于正则表达式爬取小说各章节链接

用之前所学的知识简单爬取了一个小说网站这一次是这个网站经过简单的爬取，前面步骤省略可以得到这么个玩意以及我想要的链接下一步，开始清除标签：此时需要借用正则表达式来进行首先导入 re库 import re 再然后运用 find_all()函数来寻找 div 标签下面的 di_=list 的内容提取内容那我们就可以以这里为开头，进行匹配那在哪儿结束呢，这就涉及到了网页开发的知识了，会有成对的字节，有 a ，那一定有 /a ，那也就是说有 div ，那一定有 /div ， .*? 呢，它表明了只要是以开头，以 </div> 结尾的字段，我都要。注意每个网站的有可能不一样，不一定是div，其他的也行，html就是我们要匹配的对象 re.S(注意是大S) 是说所有的符号都要匹配，默认换行等不匹配 [0] 因为匹配到最后的是列表，要把它提取出来，如果匹配出来的有多个，那也可以用这个去筛选，他在列表第一个就用[0]，第二个就用[1]，一般来说不会出现这种情况，如果有，说明你用来匹配的字段不是唯一的筛选到这里还是不行，它里面还有一些奇怪的字符所以还要进行筛选你不觉得我们要的内容他很有规律吗，我们只要以这个为模板，进行匹配就好了 (.*?) 这是什么，返向捕获，返回捕获的内容，把我们想要的url和章节名称捕获就好了接下来我们循环访问我们捕获的url

订阅小说