Oylz

记一次linux上使用Puppeteerjs

2020/11/19 16:25:47

服务器 ,爬虫 ,PuppeteerJs

最近在用Puppeteerjs时，在Linux下运行遇到不少麻烦，找了不少资料后，已经解决，现在记录一下。

解决方法：使用Doker！——因为我也不是第一个遇到这个问题的，已经有人搭建好了一个可以运行puppeteer的环境。

举个🌰

如果没有Doker，先安装Docker。

在一个合适的地方，创建项目。

mkdir puppeteer-demo
cd puppeteer-demo

创建package.json，里肯定得有puppeteer。

{
  "name": "puppeteer-demo",
  "version": "1.0.0",
  "main": "index.js",
  "dependencies": {
    "puppeteer": "^5.4.0",
  }
}

再创建一个index.js，使用一下官方的例子。

const puppeteer = require('puppeteer');

(async () => {
 // linux环境必须要有下面俩个参数 noSandbox 、disableSetuidSandbox 
  const browser = await puppeteer.launch({
      args: [
          '--no-sandbox',
          '--disable-setuid-sandbox',
      ]
  });
  const page = await browser.newPage();
  await page.goto('https://www.baidu.com');
  await page.screenshot({path: 'example.png'});

  await browser.close();
})();

创建Dockerfile文件，注意没有后缀的。

# 这个就是别人搭好的环境
FROM buildkite/puppeteer
WORKDIR /app
COPY . /app

RUN npm install -g yarn
RUN yarn install

创建Doker镜像

# 这个puppeteer-demo按你自己名字来
docker build --tag=puppeteer-demo .

启动一个实例

docker run -it puppeteer-demo bash

# 然后你会发现你到了一个新的命令行里
node index.js

# 等待一会儿
ls

# 发现多了一个 example.png的文件

到此为止，就已经完美运行了一次puppeteerjs访问百度并接了个图保存了下来。

因为在实际项目中，考虑到经常更新和需要访问项目提供的接口，所以在启动实例的时候，加了额外参数。 docker run -it -v /opt/puppeteer/xx-puppeteer:/app -p 3013:3012 xx-ptr /bin/bash

-v 是挂载，宿主机目录:镜像内目标路径，当我更新/opt/puppeteer/xx-puppeteer目录下的文件时，镜像内的/app目录下也会同步更新。
-p是端口映射，本机端口:容器端口，当我访问我 服务器ip:3013的时候，就会访问到容器里的3012端口。

Docker新手，如有错误，还请指出，欢迎批评。

参考资料：