记一次linux上使用Puppeteerjs

2020/11/19 16:25:47
服务器 ,爬虫 ,PuppeteerJs

最近在用Puppeteerjs时,在Linux下运行遇到不少麻烦,找了不少资料后,已经解决,现在记录一下。

解决方法:使用Doker!——因为我也不是第一个遇到这个问题的,已经有人搭建好了一个可以运行puppeteer的环境。

举个🌰

如果没有Doker,先安装Docker。

在一个合适的地方,创建项目。

mkdir puppeteer-demo
cd puppeteer-demo

创建package.json,里肯定得有puppeteer

{
  "name": "puppeteer-demo",
  "version": "1.0.0",
  "main": "index.js",
  "dependencies": {
    "puppeteer": "^5.4.0",
  }
}

再创建一个index.js,使用一下官方的例子。

const puppeteer = require('puppeteer');

(async () => {
 // linux环境必须要有下面俩个参数 noSandbox 、disableSetuidSandbox 
  const browser = await puppeteer.launch({
      args: [
          '--no-sandbox',
          '--disable-setuid-sandbox',
      ]
  });
  const page = await browser.newPage();
  await page.goto('https://www.baidu.com');
  await page.screenshot({path: 'example.png'});

  await browser.close();
})();

创建Dockerfile文件,注意没有后缀的。

# 这个就是别人搭好的环境
FROM buildkite/puppeteer
WORKDIR /app
COPY . /app

RUN npm install -g yarn
RUN yarn install

创建Doker镜像

# 这个puppeteer-demo按你自己名字来
docker build --tag=puppeteer-demo .

启动一个实例

docker run -it puppeteer-demo bash

# 然后你会发现你到了一个新的命令行里
node index.js

# 等待一会儿
ls

# 发现多了一个 example.png的文件

到此为止,就已经完美运行了一次puppeteerjs访问百度并接了个图保存了下来。


因为在实际项目中,考虑到经常更新和需要访问项目提供的接口,所以在启动实例的时候,加了额外参数。 docker run -it -v /opt/puppeteer/xx-puppeteer:/app -p 3013:3012 xx-ptr /bin/bash

  • -v 是挂载,宿主机目录:镜像内目标路径,当我更新/opt/puppeteer/xx-puppeteer目录下的文件时,镜像内的/app目录下也会同步更新。
  • -p是端口映射,本机端口:容器端口,当我访问我 服务器ip:3013的时候,就会访问到容器里的3012端口。

Docker新手,如有错误,还请指出,欢迎批评。


参考资料: