开放源代码

网络爬虫技术总结

两盒软妹~` 提交于 2020-01-23 11:47:45
网络爬虫技术总结 http://mp.weixin.qq.com/s?__biz=MzI3MTI2NzkxMA==&mid=2247484132&idx=1&sn=8db587fabc3c630decf0419b6130770e&scene=23&srcid=0720ZByjAlOM9YC5c76N9uKU#rd   对于大数据行业,数据的价值不言而喻,在这个信息爆炸的年代,互联网上有太多的信息数据,对于中小微公司,合理利用爬虫爬取有价值的数据,是弥补自身先天数据短板的不二选择,本文主要从爬虫原理、架构、分类以及反爬虫技术来对爬虫技术进行了总结。 1、爬虫技术概述 网络爬虫(Web crawler),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本,它们被广泛用于互联网搜索引擎或其他类似网站,可以自动采集所有其能够访问到的页面内容,以获取或更新这些网站的内容和检索方式。从功能上来讲,爬虫一般分为数据采集,处理,储存三个部分。 传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL

自动化测试入门

帅比萌擦擦* 提交于 2020-01-22 10:42:19
1 初识自动化测试 如果以前没有做过自动化测试,那么就不了解自动化测试,可能会觉得自动化测试比较神秘,但是,我们在日常的计算机操作中,可能会碰到一些自动化处理的过程,这些过程和自动化测试比较接近。 例如, Windows操作系统的控制面板中,有一项功能: 任务计划向导 。 DOS批处理文件,直到今天的Windows Vista还在使用它。它更接近自动化测试。 上述的自动化处理过程还不是测试,因为 测试的重要一点是须要验证 ,将实际执行的结果和用户期望的结果进行比较。没有这个比较,就不是自动化测试。 2 自动化测试和手工测试有什么不同 亲手做过自动化测试之后,我们对自动化测试就有了一个感性的认识,至少有下列几点感觉:   l 机器人从来就不会感觉累   l 自动化测试的速度,是手工测试无法比的   l 测试结果准确。例如搜索用时即使是0.33秒或0.24秒,系统都会发现问题,不会忽视任何差异。   l 一旦脚本完成,可以一劳永逸地运行很多遍,重复使用。 从这里就可以初步体会到自动化测试的优越性―― 高效率、准确可靠 和 复用性 。同时,自动化测试也有不利的一面,即在 创造性、发现新缺陷 等方面能力不足。 有资料显示,即使自动化测试实施良好,也只能发现软件系统中30%的问题,而70%的问题还要靠手工测试发现。所以 自动化测试更适合于负载测试、性能测试和回归测试 。 概括起来

工作,项目,技术学习,开源项目的整理

家住魔仙堡 提交于 2020-01-22 07:57:03
开源项目 一款很轻量的无所不能的工具集合 公司内部搭建一个工具网兼博客平台,没有广告用着爽,同事还膜拜 几乎每个前端开发都会用的Chrome插件,功能太全了 100%原生的JavaScript多线程和并行执行库——Hamsters.js 这个库收集 Web开发的各种 JavaScript 小工具,超过 300 个模块 阿里跨终端的H5游戏开发解决方案——Hilo 程序员的个人知识管理神器 JavaScript开发者的27个神奇VSCode工具 教你10秒快速克隆网站,学习、私活,不用愁 终于集齐的VUE中的UI组件,不看后悔奥 前端猿应该知道的十大最流行的前端UI框架 Vue独立组件——11个最佳Vue.js日期选择器组件 尤娜-基于Spring Boot 2.0构建的极简博客系统现已经开源 nodejs + docker + github pages 定制自己的今日头条 在树莓派上搭建web服务器——基于Apache ddBuy 高仿移动端开源电商项目(Vue+VantUI) 推荐 11 个好用的 JS 动画库 一个标星近 10k 的现代化的个人独立博客系统,程序员值得拥有 阿里巴巴开源的超轻量的跨平台图形渲染引擎——GCanvas 基于Spring Boot 2.x的前后端分离开发平台X-Boot 前台 10个最佳Vue.js开源项目 我的第一个 60k+ Star开源项目

.Net开源工作流Roadflow的使用与集成

牧云@^-^@ 提交于 2020-01-22 00:39:48
序言 最近公司要整理公司内部 oa 系统,需要使用到工作流,所以就开始了开源工作流挑选,使用,到集成到公司内部系统的工作。 首先在网上搜了文档,自己也有补充,整理啦国内几款工作流的比较,由于没有个个击破式的研究所以不足之处还望海涵。 送上比较内容图: 鉴于这个表的内容,与公司技术与需求的结合,我们选择啦RoadFlow工作流引擎。 下面踏上RoadFlow的征程。 RoadFlow的下载、部署、及使用 官方网址: http://cqroad.cn/ 官方文档: http://cqroad.cn/Doc/Default.aspx 官方源码下载链接: http://cqroad.cn/Download 项目下载完成后, 1、自带有数据库脚本,执行到本地数据库,就行啦。 2、打开项目,由于我们公司绝大多说项目都是用mvc,所以我选用webmvc项目,移除webform项目,也可以保留去看看哈。 3、配置webconfig中的数据库链接字符串,注意这里一般会有一个版本问题或者模式问题,爆红页面顺手就能解决没多大难度。 4、然后就是打开/login/index页面,按照提示登录进去。 5、根据文档,自己一点点摸索前进啦。 我摸索的差不多啦,感觉公司一般的流程需求这里是可以满足的,并且考虑啦一下集成的成本与技术实现,也感觉没有什么问题,毕竟代码都在手里吗,哈哈。然后搞起。

php开源产品

时光总嘲笑我的痴心妄想 提交于 2020-01-21 11:34:30
  快学网   为了让更多喜欢后盾网,但是又不能来实体培训的学员能够获得学习优秀技能的机会,快学网应运而生。有了“快学网”你可以轻松在家里通过互联网学习到最新,最具实战的开发技能,课程从知识点讲解、课后问答、学员交流、例题考试360度全包围设计,让学生在每一个学习阶段都经过严格的锻炼与开合。      http://www.kuaixuewang.com/    快聘网   快聘网为众多IT企业与求职者简历了沟通的桥梁。为企业提供零成本、高效率的招聘网站。无论是企业与个人使用快聘网均可以快速上手、以最简单的方式完成招聘与求职是快聘网“快”字的灵魂。依托后盾网强大的平台与推广手段,将你的信息迅速的推广到互联网上。      http://www.kuaipinwang.com/    HDPHP开源框架   HDPHP框架将需要完成的任务代码量最小化,大大提高项目开发效率与质量,使用是非常简便、快捷的。HDPHP框架产品高效的核心编译处理机制让系统运行的更快,提供丰富的错误解决方案,让修正代码错误变得更加快速。   作为优秀的框架产品,在系统性能上做的大量的优化处理,只为让程序员使用HDPHP框架强悍的功能,用最短的时间完成项目的开发。      http://www.hdphp.com/    HDCMS内容管理系统   国内最专业的PHP内容管理系统HDCMS

号外!号外!百度语音开源库更新了

烈酒焚心 提交于 2020-01-21 05:54:35
开源:ReactNative集成百度语音开源库, 在这篇文章中作者开源了一个ReactNative集成百度语音合成的组件库,今天通过查看Github上的关于开源react-native-baidu-vtts 的issues,有朋友提到了一个bug,并给出了具体报错 请问「java.lang.String com.wayne.baiduvoice.util.OfflineResource.getTextFilename()」为 null 是什么原因? 12-26 16:37:12.311 14862-14885/com.anlint.weightapp E/AndroidRuntime: FATAL EXCEPTION: mqt_native_modules Process: com.anlint.weightapp, PID: 14862 java.lang.NullPointerException: Attempt to invoke virtual method 'java.lang.String com.wayne.baiduvoice.util.OfflineResource.getTextFilename()' on a null object reference at com.wayne.baiduvoice.VoiceUtils.getParams

.NET平台下开源框架

生来就可爱ヽ(ⅴ<●) 提交于 2020-01-20 08:36:15
一、AOP框架 Encase 是C#编写开发的为.NET平台提供的AOP框架。Encase 独特的提供了把方面(aspects)部署到运行时代码,而其它AOP框架依赖配置文件的方式。这种部署方面(aspects)的方法帮助缺少经验的开发人员提高开发效率。 NKalore是一款编程语言,它扩展了C#允许在.net平台使用AOP。NKalore的语法简单、直观,它的编译器是基于Mono C#编译器(MCS)。NKalore目前只能在命令行或#Develop内部使用。NKalore兼容公共语言规范CLS(Common Language Specification),它可以在任何.NET开发环境中使用,包括微软的Visual Studio .NET。 PostSharp读取.NET字节模块,转换成对象模型。让插件分析和转换这个模型并写回到MSIL。PostSharp使开发程序分析应用程序容易得像分析代码规则和设计模式,它使程序开发的思想变革为面向方面软件开发(AOSD/AOD)思想。 AspectDNG的目标是为.NET开发人员提供简单而功能强大的AOP-GAOP实现。它效仿java下的开源工具AspectJ 和 Spoon,成熟程度也很接近它们。 RAIL(Runtime Assembly Instrumentation Library) 开源项目可以在C

实战做项目如何选择开源许可协议(一)-了解协议

烂漫一生 提交于 2020-01-19 15:26:41
转自http://www.lanceyan.com/tech/arch/opensource_permission.html 目前国内开源项目正在逐渐升温,中国也开始有不少优秀的开源项目突显出来。在大家摩拳擦掌准备加入开源大军时,也要知道这个圈子里的规则。技术人员 不能只是研究技术,任何圈子都有规则,要知道了才能玩得好。前段时间有件关于开源软件的事情挺热闹的,关于国内一个开发者把自己作品开源出来被别的公司的 人拿去包装成自己的产品高价卖出去。大部分做开源软件的开发者都不太怎么关注版权这些,具体微博如下: hoowa_sun : 做开源后,发现大部分都被别人拿去学习,然后copy,然后自己闭源卖出去。这里不缺乏大公司,有一家公司拿我的开源系统修改后卖给了一个国内的运营商,卖的还非常贵至少几十万一套。所以我郑重的建议大家,做软件还是要英文版开源,中文版封闭不要开源。 在国内大家习惯了使用盗版、破解,看到这种免费的软件也觉得是理所当然的拿来主义,甚至直接封装到自己的商业组件卖出去。如果你正在这样做,马上停 下来研究一下使用的这些开源组件的许可协议,不然某一天你会意外收到一封法院的传票。如果你在开发或者准备开发开源软件,但尚对开源许可协议不了解,也看 下这篇文章,选择一种开源许可协议保护你的开源软件。 常见的开源许可协议有:GPL、LGPL、BSD、Apache Licence

开源协议

最后都变了- 提交于 2020-01-19 14:44:07
QT收费吗? 2019年04月02日 13:23:05 lengye7 阅读数 386 更多 个人分类: linux http://blog.csdn.net/sharecode/article/details/7420306 关于Qt的三种协议以及是否收费,有以下引文: 引文一: 最近一直在学习 Qt。Qt 有两个许可证:LGPL 和商业协议。这两个协议在现在的 Qt 版本中的代码是完全一致的(潜在含义是,Qt 的早期版本,商业版的 Qt 通常包含有一些开源版本所没有的库,比如 QtSingleApplication 这个库)。所以现在对于普通开发人员和部分商业公司来说,使用 LGPL 版本的 Qt 可以节省很大的开销。这两个版本最大的区别在于,前者是免费的,后者是收费的。既然代码都是一致的,所以费用就要是用来购买 Qt 的售后服务和培训等等相关服务。 现在我们是来说一下版权的问题。LGPL 是一个开源协议,因此,有人会担心 LGPL 能否用于开发闭源程序,能够拿来卖钱。尽管现在国内有些公司不是很重视这方面的问题,不过,如果你违反了协议,某一天被别人发来一纸律师函的时候,真的是欲哭无泪了哦。所以,我们还是先来研究一下这个协议,LGPL 究竟能不能用于开发闭源程序。 以下内容是我查找了 N 多网站总结出来的,因为豆子不是律师,所以 LGPL 协议基本看不懂。究竟怎样去理解这个协议

计算机视觉OpenCV开源库讲解(图像噪声与图像去噪)

风流意气都作罢 提交于 2020-01-19 02:43:37
图形图像中绝大部分图像都带有一些瑕疵,比如噪声,这会给图像处理带来干扰,OpenCV4中有关于其中噪声的处理函数。 第一,讲解主要常见的噪声种类: 原图: 1.椒盐噪声: 实现代码: 2,高斯噪声: 实现代码: 第二,讲解图像去噪的实现: 中值滤波: 实现代码: 高斯滤波: 实现代码: 注:中值滤波适用于椒盐噪声,不适用于高斯噪声,而高斯滤波适用于高斯噪声,不适用于椒盐噪声。 来源: CSDN 作者: 5cmaini 链接: https://blog.csdn.net/qq_41408585/article/details/103966938