go爬虫:正则表达式及第三方库
【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>> 一、正则表达式抓取 //比如找到所有的a链接 //注意匹配模式在最前面的 (?m),加了多行匹配模式后,点号不能匹配换行符 pattern := `(?msU)<a.*href="(.*)".*>(.*)</a>` reg = regexp.MustCompile(pattern) match := reg.FindAllStringSubmatch(html, -1) //FindAllStringSubmatch会将捕获到的放到子slice if match != nil { fmt.Print("%#v", match) } go正则: http://studygolang.com/static/pkgdoc/pkg/regexp.htm 具体参考: https://github.com/google/re2/wiki/Syntax 这里可以看到很多字符含义: [[:alnum:]] alphanumeric (≡ [0-9A-Za-z] ) [[:alpha:]] alphabetic (≡ [A-Za-z] ) [[:ascii:]] ASCII (≡ [\x00-\x7F] ) [[:blank:]] blank (≡ [\t ] ) [[:cntrl:]] control (≡ [\x00-