community.aws.glue_crawler 模块 – 管理 AWS Glue 爬虫
注意
此模块是 community.aws 集合 (版本 9.0.0) 的一部分。
如果您使用的是 ansible 包,则可能已安装此集合。它不包含在 ansible-core 中。要检查它是否已安装,请运行 ansible-galaxy collection list。
要安装它,请使用: ansible-galaxy collection install community.aws。您需要其他要求才能使用此模块,有关详细信息,请参阅 要求。
要在剧本中使用它,请指定: community.aws.glue_crawler。
community.aws 4.1.0 中的新增功能
概要
- 管理 AWS Glue 爬虫。有关详细信息,请参阅 https://aws.amazon.com/glue/。 
- 在 5.0.0 版本之前,此模块称为 - community.aws.aws_glue_crawler。用法没有改变。
别名:aws_glue_crawler
要求
执行此模块的主机需要以下要求。
- python >= 3.6 
- boto3 >= 1.28.0 
- botocore >= 1.31.0 
参数
| 参数 | 注释 | 
|---|---|
| AWS 访问密钥 ID。 有关访问令牌的更多信息,请参阅 AWS 文档 https://docs.aws.amazon.com/general/latest/gr/aws-sec-cred-types.html#access-keys-and-secret-access-keys。 也可以使用  aws_access_key 和 profile 选项是互斥的。 为与 AWS botocore SDK 保持一致,在 5.1.0 版本中添加了 aws_access_key_id 别名。 ec2_access_key 别名已弃用,将在 2024-12-01 之后的一个版本中移除。 
 | |
| 验证 SSL 证书时使用的 CA 捆绑包的位置。 也可以使用  | |
| 用于修改 botocore 配置的字典。 参数可在 AWS 文档中找到 https://botocore.amazonaws.com/v1/documentation/api/latest/reference/config.html#botocore.config.Config。 | |
| 写入结果的数据库名称。 | |
| 使用  也可以使用  选项 
 | |
| 正在定义的爬虫的描述。 | |
| 连接到的 URL,而不是默认的 AWS 端点。虽然这可以用于连接到其他与 AWS 兼容的服务,但 amazon.aws 和 community.aws 集合仅针对 AWS 进行了测试。 也可以使用 ec2_url和s3_url别名已弃用,将在2024年12月1日后的某个版本中移除。 对 | |
| 您为这个爬虫定义分配的名称。它在您的帐户中必须唯一。 | |
| 用于身份验证的命名AWS配置文件。 有关命名配置文件的更多信息,请参见AWS文档 https://docs.aws.amazon.com/cli/latest/userguide/cli-configure-profiles.html。 也可以使用 profile选项与aws_access_key、aws_secret_key和security_token选项互斥。 | |
| 如果 如果没有设置 以 选项 
 | |
| 指定是再次抓取整个数据集,还是仅抓取自上次爬虫运行以来添加的文件夹的策略。 | |
| 指定是再次抓取整个数据集,还是仅抓取自上次爬虫运行以来添加的文件夹。 支持的选项为 | |
| 要使用的AWS区域。 对于IAM、Route53和CloudFront等全局服务,将忽略region。 也可以使用 有关更多信息,请参见Amazon AWS文档 http://docs.aws.amazon.com/general/latest/gr/rande.html#ec2_region。 ec2_region别名已弃用,将在2024年12月1日后的某个版本中移除。 对 | |
| 与该爬虫关联的IAM角色的名称或ARN。 当state=present时必需。 | |
| 爬虫的更新和删除行为策略。 | |
| 定义爬虫找到已删除对象时的删除行为。 支持的选项为 | |
| 定义爬虫找到更改的模式时的更新行为。 支持的选项为 | |
| AWS密钥。 有关访问令牌的更多信息,请参阅 AWS 文档 https://docs.aws.amazon.com/general/latest/gr/aws-sec-cred-types.html#access-keys-and-secret-access-keys。 也可以按优先级递减的顺序使用 secret_key和profile选项互斥。 为了与AWS botocore SDK保持一致,在5.1.0版本中添加了aws_secret_access_key别名。 ec2_secret_key别名已弃用,将在2024年12月1日后的某个版本中移除。 对 | |
| 与临时凭证一起使用的AWS STS会话令牌。 有关访问令牌的更多信息,请参阅 AWS 文档 https://docs.aws.amazon.com/general/latest/gr/aws-sec-cred-types.html#access-keys-and-secret-access-keys。 也可以按优先级递减的顺序使用 security_token和profile选项互斥。 在3.2.0版本中添加了aws_session_token和session_token别名,在6.0.0版本中将参数从security_token重命名为session_token。 security_token、aws_security_token和access_token别名已弃用,将在2024年12月1日后的某个版本中移除。 对 | |
| 创建或删除AWS Glue爬虫。 选项 
 | |
| 用于创建的目录表的表前缀。 | |
| 表示要应用于资源的标签的字典。 如果没有设置 | |
| 要爬取的目标列表。请参见下面的示例。 当state=present时必需。 | |
| 设置为 强烈建议不要设置validate_certs=false,作为替代方案,可以考虑设置aws_ca_bundle。 选项 
 | 
备注
注意
- 警告:对于模块,环境变量和配置文件是从Ansible“主机”上下文而不是“控制器”上下文读取的。因此,可能需要将文件显式复制到“主机”。对于查找和连接插件,环境变量和配置文件是从Ansible“控制器”上下文而不是“主机”上下文读取的。 
- Ansible使用的AWS SDK (boto3)也可能从Ansible“主机”上下文中的配置文件(通常为 - ~/.aws/credentials)读取凭据和其他设置的默认值,例如区域。有关更多信息,请参见 https://boto3.amazonaws.com/v1/documentation/api/latest/guide/credentials.html。
示例
# Note: These examples do not set authentication details, see the AWS Guide for details.
# Create an AWS Glue crawler
- community.aws.glue_crawler:
    name: my-glue-crawler
    database_name: my_database
    role: my-iam-role
    schema_change_policy:
      delete_behavior: DELETE_FROM_DATABASE
      update_behavior: UPDATE_IN_DATABASE
    recrawl_policy:
      recrawl_ehavior: CRAWL_EVERYTHING
    targets:
      S3Targets:
        - Path: "s3://my-bucket/prefix/folder/"
          ConnectionName: my-connection
          Exclusions:
            - "**.json"
            - "**.yml"
    state: present
# Delete an AWS Glue crawler
- community.aws.glue_crawler:
    name: my-glue-crawler
    state: absent
返回值
常用的返回值已在此处记录 此处,以下是此模块特有的字段
| 键 | 描述 | 
|---|---|
| 创建此爬虫定义的时间和日期。 返回:当状态为present时 示例: | |
| 写入结果的数据库名称。 返回:当状态为present时 示例: | |
| 爬虫的描述。 返回:当状态为present时 示例: | |
| 上次更新此爬虫定义的时间和日期。 返回:当状态为present时 示例: | |
| AWS Glue爬虫的名称。 返回:始终 示例: | |
| 指定是再次抓取整个数据集,还是仅抓取自上次爬虫运行以来添加的文件夹的策略。 返回:当状态为present时 | |
| 是再次抓取整个数据集,还是仅抓取自上次爬虫运行以来添加的文件夹。 返回:当状态为present时 示例: | |
| 与该爬虫关联的IAM角色的名称或ARN。 返回:当状态为present时 示例: | |
| 爬虫的更新和删除行为策略。 返回:当状态为present时 | |
| 爬虫找到已删除对象时的删除行为。 返回:当状态为present时 示例: | |
| 爬虫找到更改的模式时的更新行为。 返回:当状态为present时 示例: | |
| 用于创建的目录表的表前缀。 返回:当状态为present时 示例: | |
| 要爬取的目标列表。 返回:当状态为present时 | |
| 目录目标列表。 返回:当状态为present时 | |
| DynamoDB目标列表。 返回:当状态为present时 | |
| JDBC目标列表。 返回:当状态为present时 | |
| MongoDB目标列表。 返回:当状态为present时 | |
| S3目标列表。 返回:当状态为present时 | 
