Java 爬虫工程师技能列表
1,java 2,熟悉js, ajax 3,网页去重,找到网站特点 4,分布式 5,多线程 6,一种关系型数据库mysql/oraclelserver 7,正则表达式、css selector, xpath 8,DNS cache 9,TCP/IP/Http协议 tp2.010,web登录协议 10, SSO,OAuth原理 11,反爬策略 12,熟悉httpClient 13, 熟悉一些提取工具 14,搜索技术。熟悉Lucene/Nutch/Heritrix/solr/elastic-search/ 15,熟悉XML、JSON、SOAP协议; 16,mongodb, redis, hbase, hadoop 17,文本分析,机器学习、数据挖掘、自然语言处理 18,完成网页,微博,微信,贴吧,论坛等数据信息的精准抽取 19,RPC协议 20,netty,NIO 21,HTMLUnit,PhantomJS,SlimerJS ,CasperJS 22,代理部署方案:http/socks 23,nginx, squid,jetty 24,破解ios 25,验证码,ocr 掌握一半便是熟练的爬虫开发了,全部掌握的人,还没遇到过。 交流群:177655321 欢迎高手入群 来源: oschina 链接: https://my.oschina.net/u/213327/blog/625254