测试策略

将测试与 Ansible 剧本集成

许多时候,人们会问:“如何最好地将测试与 Ansible 剧本集成?” 有许多选择。Ansible 实际上设计为一个“快速失败”且有序的系统,因此它可以轻松地将测试直接嵌入 Ansible 剧本中。在本章中,我们将深入了解一些将基础设施测试集成到 Ansible 剧本中的模式,并讨论可能合适的测试级别。

注意

这是一章关于测试您正在部署的应用程序的章节,而不是关于如何在开发过程中测试 Ansible 模块的章节。有关该内容,请转到开发部分。

通过将一定程度的测试纳入您的部署工作流程,当代码进入生产环境时,将减少意外情况,在许多情况下,测试可以在生产环境中使用,以防止失败的更新迁移到整个安装中。由于它是基于推送的,因此也很容易在 localhost 或测试服务器上运行这些步骤。Ansible 允许您根据需要在升级工作流程中插入任意数量的检查和平衡。

正确的测试级别

Ansible 资源是目标状态的模型。因此,没有必要测试服务是否已启动,软件包是否已安装或其他类似情况。Ansible 是确保这些事情声明性地成立的系统。相反,在您的剧本中断言这些事情。

tasks:
  - ansible.builtin.service:
      name: foo
      state: started
      enabled: true

如果您认为服务可能没有启动,最好的办法是请求它启动。如果服务启动失败,Ansible 会适当地报错。(这应该与服务是否正常运行无关,我们将在后面详细介绍如何做到这一点)。

检查模式作为漂移测试

在上面的设置中,Ansible 中的--check 模式也可以用作一层测试。如果针对现有系统运行部署剧本,则对ansible 命令使用--check 标志将报告 Ansible 是否认为它需要进行任何更改才能使系统处于目标状态。

这可以让你提前知道是否需要将部署到给定的系统。通常,脚本和命令不会在检查模式下运行,因此,如果您希望某些步骤即使在使用--check 标志时也能在普通模式下执行(例如,调用脚本模块),请为这些任务禁用检查模式

roles:
  - webserver

tasks:
  - ansible.builtin.script: verify.sh
    check_mode: false

用于测试的有用模块

某些剧本模块特别适合测试。下面是一个确保端口开放的示例

tasks:

  - ansible.builtin.wait_for:
      host: "{{ inventory_hostname }}"
      port: 22
    delegate_to: localhost

这是一个使用 URI 模块来确保 Web 服务返回的示例

tasks:

  - action: uri url=https://www.example.com return_content=yes
    register: webpage

  - fail:
      msg: 'service is not happy'
    when: "'AWESOME' not in webpage.content"

很容易将任意脚本(使用任何语言)推送到远程主机,如果脚本具有非零返回代码,则脚本将自动失败

tasks:

  - ansible.builtin.script: test_script1
  - ansible.builtin.script: test_script2 --parameter value --parameter2 value

如果使用角色(您应该使用,角色很棒!),则由脚本模块推送到远程主机的脚本可以保存在角色的“files/”目录中。

断言模块使验证各种类型的真值变得非常容易

tasks:

   - ansible.builtin.shell: /usr/bin/some-command --parameter value
     register: cmd_result

   - ansible.builtin.assert:
       that:
         - "'not ready' not in cmd_result.stderr"
         - "'gizmo enabled' in cmd_result.stdout"

如果您需要测试是否存在未通过 Ansible 配置声明性地设置的文件,那么“stat”模块是一个不错的选择

tasks:

   - ansible.builtin.stat:
       path: /path/to/something
     register: p

   - ansible.builtin.assert:
       that:
         - p.stat.exists and p.stat.isdir

如上所述,无需检查命令的返回值。Ansible 会自动检查它们。与其检查用户是否存在,不如考虑使用用户模块来创建用户。

Ansible 是一个快速失败的系统,因此,如果创建用户时出错,它将停止剧本运行。您不必在它后面进行检查。

测试生命周期

如果您在剧本中编写了一些基本应用程序验证,那么这些验证将在每次部署时运行。

因此,部署到本地开发虚拟机和登台环境都将验证一切是否按计划进行,然后再进行生产部署。

您的工作流程可能类似于以下流程

- Use the same playbook all the time with embedded tests in development
- Use the playbook to deploy to a staging environment (with the same playbooks) that simulates production
- Run an integration test battery written by your QA team against staging
- Deploy to production, with the same integrated tests.

如果您的生产环境是 Web 服务,那么您的 QA 团队应该编写类似于集成测试套件。这将包括诸如 Selenium 测试或自动化 API 测试之类的东西,通常不会嵌入您的 Ansible 剧本中。

但是,将一些基本运行状况检查纳入您的剧本是有意义的,在某些情况下,可能可以在远程节点上运行 QA 测试套件的子集。下一节将介绍这一点。

将测试与滚动更新集成

如果您已阅读控制任务运行的位置:委托和本地操作,您可能会很快发现,滚动更新模式可以扩展,并且可以使用剧本运行的成功或失败来决定是否将机器添加到负载均衡器中。

这是嵌入式测试的伟大成果

---

- hosts: webservers
  serial: 5

  pre_tasks:

    - name: take out of load balancer pool
      ansible.builtin.command: /usr/bin/take_out_of_pool {{ inventory_hostname }}
      delegate_to: 127.0.0.1

  tasks:

    - ansible.builtin.include_role:
        name: "{{ item }}"
      loop:
        - common
        - webserver

    - name: run any notified handlers
      ansible.builtin.meta: flush_handlers

    - name: test the configuration
      ansible.builtin.include_role:
        name: apply_testing_checks

  post_tasks:

    - name: add back to load balancer pool
      ansible.builtin.command: /usr/bin/add_back_to_pool {{ inventory_hostname }}
      delegate_to: 127.0.0.1

当然,在上面的示例中,“从池中取出”和“添加回来”步骤将被调用 Ansible 负载均衡器模块或适当的 shell 命令取代。您可能还会有一些步骤使用监视模块来启动和结束机器的停机时间窗口。

但是,您可以从上面的示例中看到,测试用作一种门控机制 - 如果未执行“apply_testing_checks”步骤,则机器将不会返回池中。

阅读有关“max_fail_percentage”的委托章节,您还可以控制多少个失败的测试会阻止滚动更新继续进行。

上面的方法也可以修改为从测试机器远程运行步骤以针对机器

---

- hosts: webservers
  serial: 5

  pre_tasks:

    - name: take out of load balancer pool
      ansible.builtin.command: /usr/bin/take_out_of_pool {{ inventory_hostname }}
      delegate_to: 127.0.0.1

  roles:

     - common
     - webserver

  tasks:
     - ansible.builtin.script: /srv/qa_team/app_testing_script.sh --server {{ inventory_hostname }}
       delegate_to: testing_server

  post_tasks:

    - name: add back to load balancer pool
      ansible.builtin.command: /usr/bin/add_back_to_pool {{ inventory_hostname }}
      delegate_to: 127.0.0.1

在上面的示例中,脚本从测试服务器远程运行,以针对远程节点运行,然后再将远程节点添加回池中。

如果出现问题,请使用 Ansible 自动生成的重试文件修复失败的几台服务器,以仅在这些服务器上重复部署。

实现持续部署

如果需要,上面的技术可以扩展到实现持续部署实践。

工作流程可能如下所示

- Write and use automation to deploy local development VMs
- Have a CI system like Jenkins deploy to a staging environment on every code change
- The deploy job calls testing scripts to pass/fail a build on every deploy
- If the deploy job succeeds, it runs the same deploy playbook against production inventory

一些 Ansible 用户使用上述方法每小时部署六到十二次,而不会使所有基础设施脱机。如果您希望达到这种水平,那么自动 QA 文化至关重要。

如果您仍然进行大量的手动 QA,那么您仍然应该决定是否手动部署,但这仍然有助于在上一节中使用滚动更新模式,并使用诸如“script”、“stat”、“uri”和“assert”之类的模块来包含一些基本运行状况检查。

结论

Ansible 认为您不需要另一个框架来验证基础设施基本情况是否属实。这是因为 Ansible 是一个基于顺序的系统,它会在主机出现未处理的错误时立即失败,并阻止对该主机的进一步配置。这会将错误强制到顶部,并在 Ansible 运行结束时以摘要形式显示它们。

但是,由于 Ansible 被设计为一个多层编排系统,因此它可以轻松地将测试纳入剧本运行的末尾,无论是使用松散的任务还是角色。当与滚动更新一起使用时,测试步骤可以决定是否将机器放回负载均衡池中。

最后,由于 Ansible 错误会一直传播到 Ansible 程序本身的返回代码,并且 Ansible 默认情况下在易于使用的基于推送的模式下运行,因此,如果您希望使用它作为持续集成/持续交付管道的一部分来推出系统,那么 Ansible 是一个很棒的步骤,如上文所述部分。

重点不应该是基础设施测试,而应该是应用程序测试,因此我们强烈建议与您的 QA 团队协商,询问每次部署开发虚拟机时需要运行哪些测试,以及他们希望在每次部署时针对登台环境运行哪些测试。显然,在开发阶段,单元测试也很好。但不要对您的剧本进行单元测试。Ansible 以声明方式描述资源的状态,因此您不必这样做。但是,如果您想确保某些事情,那么这很好,而诸如 stat/assert 之类的模块非常适合此目的。

总而言之,测试是一个非常组织和特定于站点的概念。每个人都应该进行测试,但对您的环境最适合的测试将取决于您部署的内容以及谁在使用它 - 但每个人都会从更健壮和可靠的部署系统中受益。

另请参阅

集合索引

浏览现有的集合、模块和插件

使用剧本

剧本简介

控制任务运行的位置:委托和本地操作

委托,适用于使用负载均衡器、云和本地执行步骤。

交流

有疑问?需要帮助?想分享您的想法?访问 Ansible 交流指南