• 【Selenium学习笔记】分布式部署

    为什么需要分部署部署对于一般数据量不太或者对浏览器要求不多样化没必要多台机器部署。多台机器部署主要解决以下。数据量比较大,一台机器无法承受所有的请求需要不同的浏览器环境可远程调用,把业务代码和浏览器操作分离环境准备我们需要提前准备多台机器(可以是虚拟机)。由于是java的所以需要配置相对来说搞一些,个人建议最低2核4G主机名IP配置描述test-001192.168.40.52核4G主节点+任务节
  • 【Selenium学习笔记】网页截图实践

    缘由我们有一个产品牵扯到核查数据,在核查数据过程中会发现有一些违规网站,这一些违规网站我们要进行截图保留证据。如果是人工截图就非常麻烦,需要截图之后上传到系统,增加了大家的工作量,我们就想着试着程序自动化截图解决方案由于我们爬虫都使用的pythonselenium调用的chrome无头浏览器,所以我们依然选择了selenium调用chrome进行截图。截图核心代码如下,非常简单###核心代码如下d
  • 局域网内网机器上网实操

    缘由最近我们接到一个客户项目,客户所有的东西必须部署在独立内网里面的,但是整个程序有一部分是需要访问外网的,可以理解为调用外部网址接口,所以我们就要出一个方案来解决这个问题。假如内网服务器列表如下服务器名称操作系统IP描述服务器ACentos7.9192.168.1.10程序服务器服务器BCentos7.9192.168.1.11程序服务器服务器CCentos7.9192.168.1.12这台机器
  • 【Selenium学习笔记】介绍和安装

    缘由目前由于工作需要,我们需要爬虫(本人严重申明:商业爬虫属于违规行为,请各位技术同事不要有意无意的做违规的事情)获取网页一些东西,但是大家都知道目前有很多网站都是用前后端分离的,使用curl请求是没办法获取到页面信息的,所以我们就基于目前我们相对擅长的技术点选择了“Selenium”。刚好自己又会一点Python。所以这样我们的技术方案就可以执行下去了。Selenium介绍Selenium是支持