Go Colly 爬虫教程：从入门到实战,轻松掌握网页数据抓取

2026-03-10 约 3464 字预计阅读 7 分钟

title = “Go Colly 爬虫教程：从入门到实战，轻松掌握网页数据抓取” description = “详细讲解 Go 语言 Colly 爬虫框架的使用方法，涵盖选择器定位、数据提取、并发控制与反爬策略等核心技巧，帮助你快速上手 Golang 网页爬虫开发。” keywords = “Go Colly 爬虫, Golang 爬虫框架, Colly 教程, Go 网页抓取, Colly 选择器” categories = [“编程开发”] tags = [“Go”, “Colly”, “爬虫”, “Golang”, “网页抓取”, “数据采集”] slug = “go-colly-web-scraper-tutorial” date = “2026-03-10” lastmod = “2026-03-10” summary = "" draft = false type = “posts” weight = 0 include_toc = false show_comments = true

Go Colly 爬虫教程：从入门到实战，轻松掌握网页数据抓取

在日常开发中，我们经常需要从网页中提取结构化数据，比如商品信息、新闻标题或者链接列表。如果你使用 Go 语言，那么 Colly 几乎是绕不开的选择。它轻量、高效，而且上手门槛非常低。这篇文章将带你从零开始，一步步掌握 Colly 的核心用法和实战技巧。

为什么选择 Colly 做爬虫

Go 语言天生擅长处理并发任务，而 Colly 把这种优势发挥到了极致。相较于 Python 的 Scrapy 或者 BeautifulSoup，Colly 在以下几个方面表现突出：

性能出色：Go 的协程机制让 Colly 在高并发场景下依然保持低内存占用
API 简洁：链式调用风格，几行代码就能完成一次完整的爬取流程
内置功能丰富：自带请求去重、并发限制、Cookie 管理、代理切换等能力
选择器灵活：基于 goquery 实现，支持 CSS 选择器语法，前端同学也能无缝上手

简单来说，如果你的项目本身就是 Go 技术栈，或者你需要一个高性能的爬虫方案，Colly 是非常值得考虑的。

环境准备与安装

首先确保你的 Go 版本在 1.18 以上，然后在项目中引入 Colly：

go get -u github.com/gocolly/colly/v2

安装完成后，在代码中引入即可使用：

        
import "github.com/gocolly/colly/v2"

Colly 核心概念

在动手写代码之前，有几个核心概念需要了解：

概念	说明
`Collector`	Colly 的核心对象，负责发起请求和管理回调
`OnHTML`	当匹配到指定 HTML 元素时触发的回调函数
`OnRequest`	每次发起请求前触发，常用于设置 Header
`OnResponse`	收到响应后触发，可以拿到原始响应内容
`OnError`	请求出错时触发，用于错误处理和日志记录
`Visit`	发起一次 GET 请求，开始爬取目标页面

整个流程可以理解为：创建 Collector → 注册回调 → 发起访问 → 在回调中处理数据。

选择器定位元素

Colly 使用 CSS 选择器来定位页面元素，这和你在浏览器 DevTools 里用的选择器语法完全一致。下面分别介绍几种最常用的定位方式。

通过 Class 选择元素

当目标元素带有特定的 class 属性时，使用 .className 的方式来匹配。比如页面上有一组 class="article-item" 的元素，我们可以这样写：

        
        
        
    
package main

import (
    "fmt"
    "log"

    "github.com/gocolly/colly/v2"
)

func main() {
    c := colly.NewCollector()

    c.OnHTML(".article-item", func(e *colly.HTMLElement) {
        title := e.Text
        link := e.Attr("href")
        fmt.Printf("标题: %s, 链接: %s\n", title, link)
    })

    err := c.Visit("https://example.com/articles")
    if err != nil {
        log.Fatal("访问失败:", err)
    }
}

这里 .article-item 就是 CSS 选择器，Colly 会遍历页面中所有匹配的元素，并依次执行回调。

通过 ID 选择元素

如果目标元素有唯一的 id 属性，用 #idName 来定位会更精确。ID 在页面中通常是唯一的，所以这种方式适合抓取某个特定区块的内容：

        
        
        
    
func main() {
    c := colly.NewCollector()

    c.OnHTML("#main-content", func(e *colly.HTMLElement) {
        // 拿到 id 为 main-content 的元素内容
        content := e.Text
        fmt.Println("页面主体内容:", content)
    })

    err := c.Visit("https://example.com/page")
    if err != nil {
        log.Fatal("访问失败:", err)
    }
}

通过标签名选择元素

有时候我们不关心 class 或 id，只需要抓取某种类型的标签，比如页面中所有的 <a> 链接。直接把标签名作为选择器传入就行：

        
        
        
    
func main() {
    c := colly.NewCollector()

    c.OnHTML("a[href]", func(e *colly.HTMLElement) {
        // 获取绝对 URL，避免拿到相对路径
        absoluteURL := e.Request.AbsoluteURL(e.Attr("href"))
        if absoluteURL != "" {
            fmt.Println("发现链接:", absoluteURL)
        }
    })

    err := c.Visit("https://example.com")
    if err != nil {
        log.Fatal("访问失败:", err)
    }
}

这里用了 a[href] 而不是单纯的 a，目的是只匹配那些确实带有 href 属性的链接标签，过滤掉锚点之类的无效元素。

获取子元素数据

实际开发中经常遇到这样的情况：先定位到一个父容器，再从里面提取子元素的属性值。比如一个导航栏 div.nav-menu 里嵌套了多个 <a> 标签，我们想一次性拿到所有链接：

        
        
        
    
func main() {
    c := colly.NewCollector()

    c.OnHTML("div.nav-menu", func(e *colly.HTMLElement) {
        // ChildAttrs 批量获取子元素的指定属性
        links := e.ChildAttrs("a", "href")
        for i, link := range links {
            fmt.Printf("第 %d 个链接: %s\n", i+1, link)
        }

        // 如果需要同时拿文本，可以用 ForEach 遍历
        e.ForEach("a", func(_ int, el *colly.HTMLElement) {
            fmt.Printf("文本: %s, 地址: %s\n", el.Text, el.Attr("href"))
        })
    })

    err := c.Visit("https://example.com")
    if err != nil {
        log.Fatal("访问失败:", err)
    }
}

ChildAttrs 会返回一个字符串切片，里面是所有匹配子元素的属性值，非常方便。如果你还需要同时获取文本和属性，那就用 ForEach 逐个遍历。

实战：抓取网页链接列表

把前面学到的知识串起来，写一个稍微完整一点的例子。假设我们要抓取一个博客首页的文章标题和对应链接：

        
        
        
    
package main

import (
    "encoding/json"
    "fmt"
    "log"

    "github.com/gocolly/colly/v2"
)

type Article struct {
    Title string `json:"title"`
    URL   string `json:"url"`
}

func main() {
    var articles []Article

    c := colly.NewCollector(
        colly.AllowedDomains("example.com"),
    )

    // 请求前设置 User-Agent
    c.OnRequest(func(r *colly.Request) {
        r.Headers.Set("User-Agent", "Mozilla/5.0 (compatible; MyBot/1.0)")
        fmt.Println("正在访问:", r.URL.String())
    })

    // 匹配文章列表项
    c.OnHTML("div.post-list h2 a", func(e *colly.HTMLElement) {
        article := Article{
            Title: e.Text,
            URL:   e.Request.AbsoluteURL(e.Attr("href")),
        }
        articles = append(articles, article)
    })

    // 错误处理
    c.OnError(func(r *colly.Response, err error) {
        log.Printf("请求 %s 出错: %v\n", r.Request.URL, err)
    })

    err := c.Visit("https://example.com/blog")
    if err != nil {
        log.Fatal("启动爬虫失败:", err)
    }

    // 输出 JSON 格式结果
    data, _ := json.MarshalIndent(articles, "", "  ")
    fmt.Println(string(data))
}

这段代码做了几件事：限制了允许访问的域名、设置了自定义 User-Agent、注册了错误处理回调，最后把结果序列化为 JSON 输出。这基本上就是一个生产可用的爬虫雏形了。

并发控制与请求延迟

当你需要爬取大量页面时，控制并发数和请求间隔非常重要，既能避免把目标站点打挂，也能降低被封 IP 的风险。Colly 提供了内置的限速机制：

        
        
        
    
func main() {
    c := colly.NewCollector(
        colly.Async(true), // 开启异步模式
    )

    // 设置并发规则
    c.Limit(&colly.LimitRule{
        DomainGlob:  "*",            // 对所有域名生效
        Parallelism: 3,              // 最多同时 3 个并发请求
        RandomDelay: 2 * time.Second, // 每次请求间随机延迟最多 2 秒
    })

    c.OnHTML("a[href]", func(e *colly.HTMLElement) {
        link := e.Request.AbsoluteURL(e.Attr("href"))
        if link != "" {
            e.Request.Visit(link) // 递归访问发现的链接
        }
    })

    c.Visit("https://example.com")
    c.Wait() // 异步模式下需要等待所有请求完成
}

Parallelism 控制同时发出的请求数量，RandomDelay 在每次请求之间插入一个随机延迟。这两个参数配合使用，能很好地模拟正常用户的浏览行为。

常见反爬策略与应对方式

在实际项目中，目标网站往往会有一些反爬措施。这里列举几种常见的情况以及在 Colly 中的处理思路：

1. 设置请求头

很多网站会检查 User-Agent、Referer 等 Header 字段。通过 OnRequest 回调可以灵活设置：

        
c.OnRequest(func(r *colly.Request) {
    r.Headers.Set("User-Agent", "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7)")
    r.Headers.Set("Accept-Language", "zh-CN,zh;q=0.9,en;q=0.8")
})

2. 使用代理 IP

频繁请求同一域名容易触发 IP 封禁，Colly 支持设置代理：

        
c.SetProxy("http://your-proxy-server:8080")

如果你有代理池，可以配合 ProxyFunc 实现每次请求随机切换代理：

        
        
        
    
proxies := []string{
    "http://proxy1:8080",
    "http://proxy2:8080",
    "http://proxy3:8080",
}

c.SetProxyFunc(func(_ *http.Request) (*url.URL, error) {
    return url.Parse(proxies[rand.Intn(len(proxies))])
})

3. 处理 Cookie 和登录态

有些页面需要登录后才能访问，Colly 的 Collector 默认会自动管理 Cookie。你也可以通过 c.Post() 提交登录表单，后续请求会自动携带登录后的 Cookie。

常见问题

Q1：Colly 支持渲染 JavaScript 吗？

Colly 本身只处理静态 HTML，不支持 JavaScript 渲染。如果目标页面是前端动态渲染的（比如 React 或 Vue 应用），你需要配合 chromedp 或 rod 等 headless browser 库来获取渲染后的页面内容，再交给 Colly 处理。

Q2：爬取速度很慢怎么办？

先检查是否开启了 Async 模式，然后调整 LimitRule 中的 Parallelism 参数。另外确认 RandomDelay 设置是否过大。如果网络本身就慢，可以考虑使用代理或者调整超时时间。

Q3：如何避免重复访问同一个页面？

Colly 默认内置了 URL 去重机制。同一个 Collector 实例不会重复访问相同的 URL。如果你确实需要重复访问，可以在创建时传入 colly.AllowURLRevisit() 选项。

Q4：OnHTML 回调没有触发是什么原因？

最常见的原因有两个：一是选择器写错了，可以先在浏览器 DevTools 的 Console 中用 document.querySelectorAll("你的选择器") 验证；二是页面内容是通过 JavaScript 动态加载的，Colly 拿到的 HTML 中根本没有对应的元素。

Q5：Colly 和 Scrapy 比起来怎么样？

两者定位相似但生态不同。Scrapy 是 Python 生态中最成熟的爬虫框架，插件丰富、社区活跃。Colly 的优势在于 Go 语言本身的性能和并发能力。如果你的项目是 Go 技术栈，或者对性能要求较高，Colly 更合适；如果需要快速原型开发和丰富的中间件支持，Scrapy 可能更方便。

总结

这篇文章从基础概念到实战场景，完整地介绍了 Go Colly 爬虫框架的核心用法。我们学习了：

如何用 CSS 选择器（Class、ID、标签名）精准定位页面元素
如何提取元素的属性值和文本内容，包括子元素的批量获取
如何配置并发控制和请求延迟来保证爬虫的稳定运行
如何应对常见的反爬措施

Colly 的设计哲学是"简单但够用"，大多数中小规模的数据抓取任务，用它几十行代码就能搞定。当然，如果你的场景涉及大规模分布式爬取或者复杂的 JavaScript 渲染，可能还需要搭配其他工具一起使用。

建议你在实际项目中多动手尝试，把文章里的代码跑起来，根据自己的需求调整选择器和回调逻辑，这样理解会更深刻。

如果大家在使用 Go Colly 爬虫的过程中还有哪些疑问，或者有更好的实践经验想分享，欢迎在评论区一起交流讨论～～～

未经授权，禁止转载本文章。
如需转载请保留原文链接并注明出处。即视为默认获得授权。
未保留原文链接未注明出处或删除链接将视为侵权，必追究法律责任！

本文原文链接： https://fiveyoboy.com/articles/go-colly-web-scraper-tutorial/

备用原文链接： https://blog.fiveyoboy.com/articles/go-colly-web-scraper-tutorial/

目录