community.aws.glue_crawler 模块 – 管理 AWS Glue 爬虫

注意

此模块是 community.aws 集合 (版本 9.0.0) 的一部分。

如果您使用的是 ansible 包,则可能已安装此集合。它不包含在 ansible-core 中。要检查它是否已安装,请运行 ansible-galaxy collection list

要安装它,请使用: ansible-galaxy collection install community.aws。您需要其他要求才能使用此模块,有关详细信息,请参阅 要求

要在剧本中使用它,请指定: community.aws.glue_crawler

community.aws 4.1.0 中的新增功能

概要

  • 管理 AWS Glue 爬虫。有关详细信息,请参阅 https://aws.amazon.com/glue/

  • 在 5.0.0 版本之前,此模块称为 community.aws.aws_glue_crawler。用法没有改变。

别名:aws_glue_crawler

要求

执行此模块的主机需要以下要求。

  • python >= 3.6

  • boto3 >= 1.28.0

  • botocore >= 1.31.0

参数

参数

注释

access_key

别名:aws_access_key_id, aws_access_key, ec2_access_key

字符串

AWS 访问密钥 ID。

有关访问令牌的更多信息,请参阅 AWS 文档 https://docs.aws.amazon.com/general/latest/gr/aws-sec-cred-types.html#access-keys-and-secret-access-keys

也可以使用 AWS_ACCESS_KEY_IDAWS_ACCESS_KEYEC2_ACCESS_KEY 环境变量,优先级依次递减。

aws_access_keyprofile 选项是互斥的。

为与 AWS botocore SDK 保持一致,在 5.1.0 版本中添加了 aws_access_key_id 别名。

ec2_access_key 别名已弃用,将在 2024-12-01 之后的一个版本中移除。

EC2_ACCESS_KEY 环境变量的支持已弃用,将在 2024-12-01 之后的一个版本中移除。

aws_ca_bundle

路径

验证 SSL 证书时使用的 CA 捆绑包的位置。

也可以使用 AWS_CA_BUNDLE 环境变量。

aws_config

字典

用于修改 botocore 配置的字典。

参数可在 AWS 文档中找到 https://botocore.amazonaws.com/v1/documentation/api/latest/reference/config.html#botocore.config.Config

database_name

字符串

写入结果的数据库名称。

debug_botocore_endpoint_logs

布尔值

使用 botocore.endpoint 日志记录器来解析任务期间进行的唯一(而不是总计)"resource:action" API 调用,并将集合输出到任务结果中的 resource_actions 密钥。使用 aws_resource_action 回调将输出到剧本期间进行的总列表。

也可以使用 ANSIBLE_DEBUG_BOTOCORE_LOGS 环境变量。

选项

  • false ← (默认)

  • true

description

字符串

正在定义的爬虫的描述。

endpoint_url

别名:ec2_url, aws_endpoint_url, s3_url

字符串

连接到的 URL,而不是默认的 AWS 端点。虽然这可以用于连接到其他与 AWS 兼容的服务,但 amazon.aws 和 community.aws 集合仅针对 AWS 进行了测试。

也可以使用AWS_URLEC2_URL环境变量,优先级递减。

ec2_urls3_url别名已弃用,将在2024年12月1日后的某个版本中移除。

EC2_URL环境变量的支持已弃用,将在2024年12月1日后的某个版本中移除。

名称

字符串 / 必需

您为这个爬虫定义分配的名称。它在您的帐户中必须唯一。

配置文件

别名:aws_profile

字符串

用于身份验证的命名AWS配置文件。

有关命名配置文件的更多信息,请参见AWS文档 https://docs.aws.amazon.com/cli/latest/userguide/cli-configure-profiles.html

也可以使用AWS_PROFILE环境变量。

profile选项与aws_access_keyaws_secret_keysecurity_token选项互斥。

purge_tags

布尔值

如果purge_tags=true并且设置了tags,则将从资源中清除现有标签,以完全匹配tags参数定义的内容。

如果没有设置tags参数,则即使purge_tags=True,标签也不会被修改。

aws:开头的标签键由Amazon保留,不能修改。因此,在purge_tags参数中将忽略它们。有关更多信息,请参见Amazon文档 https://docs.aws.amazon.com/general/latest/gr/aws_tagging.html#tag-conventions

选项

  • false

  • true ← (默认)

recrawl_policy

字典

指定是再次抓取整个数据集,还是仅抓取自上次爬虫运行以来添加的文件夹的策略。

recrawl_behavior

字符串

指定是再次抓取整个数据集,还是仅抓取自上次爬虫运行以来添加的文件夹。

支持的选项为CRAWL_EVERYTHINGCRAWL_NEW_FOLDERS_ONLY

区域

别名:aws_region,ec2_region

字符串

要使用的AWS区域。

对于IAM、Route53和CloudFront等全局服务,将忽略region

也可以使用AWS_REGIONEC2_REGION环境变量。

有关更多信息,请参见Amazon AWS文档 http://docs.aws.amazon.com/general/latest/gr/rande.html#ec2_region

ec2_region别名已弃用,将在2024年12月1日后的某个版本中移除。

EC2_REGION环境变量的支持已弃用,将在2024年12月1日后的某个版本中移除。

角色

字符串

与该爬虫关联的IAM角色的名称或ARN。

state=present时必需。

schema_change_policy

字典

爬虫的更新和删除行为策略。

delete_behavior

字符串

定义爬虫找到已删除对象时的删除行为。

支持的选项为LOGDELETE_FROM_DATABASEDEPRECATE_IN_DATABASE

update_behavior

字符串

定义爬虫找到更改的模式时的更新行为。

支持的选项为LOGUPDATE_IN_DATABASE

密钥

别名:aws_secret_access_key、aws_secret_key、ec2_secret_key

字符串

AWS密钥。

有关访问令牌的更多信息,请参阅 AWS 文档 https://docs.aws.amazon.com/general/latest/gr/aws-sec-cred-types.html#access-keys-and-secret-access-keys

也可以按优先级递减的顺序使用AWS_SECRET_ACCESS_KEYAWS_SECRET_KEYEC2_SECRET_KEY环境变量。

secret_keyprofile选项互斥。

为了与AWS botocore SDK保持一致,在5.1.0版本中添加了aws_secret_access_key别名。

ec2_secret_key别名已弃用,将在2024年12月1日后的某个版本中移除。

EC2_SECRET_KEY环境变量的支持已弃用,将在2024年12月1日后的某个版本中移除。

会话令牌

别名:aws_session_token、security_token、aws_security_token、access_token

字符串

与临时凭证一起使用的AWS STS会话令牌。

有关访问令牌的更多信息,请参阅 AWS 文档 https://docs.aws.amazon.com/general/latest/gr/aws-sec-cred-types.html#access-keys-and-secret-access-keys

也可以按优先级递减的顺序使用AWS_SESSION_TOKENAWS_SECURITY_TOKENEC2_SECURITY_TOKEN环境变量。

security_tokenprofile选项互斥。

在3.2.0版本中添加了aws_session_tokensession_token别名,在6.0.0版本中将参数从security_token重命名为session_token

security_tokenaws_security_tokenaccess_token别名已弃用,将在2024年12月1日后的某个版本中移除。

EC2_SECRET_KEYAWS_SECURITY_TOKEN环境变量的支持已弃用,将在2024年12月1日后的某个版本中移除。

状态

字符串 / 必需

创建或删除AWS Glue爬虫。

选项

  • "present"

  • "absent"

table_prefix

字符串

用于创建的目录表的表前缀。

标签

别名:resource_tags

字典

表示要应用于资源的标签的字典。

如果没有设置tags参数,则标签不会被修改。

目标

字典

要爬取的目标列表。请参见下面的示例。

state=present时必需。

validate_certs

布尔值

设置为false时,将不会验证与AWS API通信的SSL证书。

强烈建议不要设置validate_certs=false,作为替代方案,可以考虑设置aws_ca_bundle

选项

  • false

  • true ← (默认)

备注

注意

  • 警告:对于模块,环境变量和配置文件是从Ansible“主机”上下文而不是“控制器”上下文读取的。因此,可能需要将文件显式复制到“主机”。对于查找和连接插件,环境变量和配置文件是从Ansible“控制器”上下文而不是“主机”上下文读取的。

  • Ansible使用的AWS SDK (boto3)也可能从Ansible“主机”上下文中的配置文件(通常为~/.aws/credentials)读取凭据和其他设置的默认值,例如区域。有关更多信息,请参见 https://boto3.amazonaws.com/v1/documentation/api/latest/guide/credentials.html

示例

# Note: These examples do not set authentication details, see the AWS Guide for details.

# Create an AWS Glue crawler
- community.aws.glue_crawler:
    name: my-glue-crawler
    database_name: my_database
    role: my-iam-role
    schema_change_policy:
      delete_behavior: DELETE_FROM_DATABASE
      update_behavior: UPDATE_IN_DATABASE
    recrawl_policy:
      recrawl_ehavior: CRAWL_EVERYTHING
    targets:
      S3Targets:
        - Path: "s3://my-bucket/prefix/folder/"
          ConnectionName: my-connection
          Exclusions:
            - "**.json"
            - "**.yml"
    state: present

# Delete an AWS Glue crawler
- community.aws.glue_crawler:
    name: my-glue-crawler
    state: absent

返回值

常用的返回值已在此处记录 此处,以下是此模块特有的字段

描述

创建时间

字符串

创建此爬虫定义的时间和日期。

返回:当状态为present时

示例:"2021-04-01T05:19:58.326000+00:00"

database_name

字符串

写入结果的数据库名称。

返回:当状态为present时

示例:"my_table"

description

字符串

爬虫的描述。

返回:当状态为present时

示例:"My crawler"

最后更新时间

字符串

上次更新此爬虫定义的时间和日期。

返回:当状态为present时

示例:"2021-04-01T05:19:58.326000+00:00"

名称

字符串

AWS Glue爬虫的名称。

返回:始终

示例:"my-glue-crawler"

recrawl_policy

复杂的

指定是再次抓取整个数据集,还是仅抓取自上次爬虫运行以来添加的文件夹的策略。

返回:当状态为present时

RecrawlBehavior

字符串

是再次抓取整个数据集,还是仅抓取自上次爬虫运行以来添加的文件夹。

返回:当状态为present时

示例:"CRAWL_EVERYTHING"

角色

字符串

与该爬虫关联的IAM角色的名称或ARN。

返回:当状态为present时

示例:"my-iam-role"

schema_change_policy

复杂的

爬虫的更新和删除行为策略。

返回:当状态为present时

DeleteBehavior

字符串

爬虫找到已删除对象时的删除行为。

返回:当状态为present时

示例:"DELETE_FROM_DATABASE"

UpdateBehavior

字符串

爬虫找到更改的模式时的更新行为。

返回:当状态为present时

示例:"UPDATE_IN_DATABASE"

table_prefix

字符串

用于创建的目录表的表前缀。

返回:当状态为present时

示例:"my_prefix"

目标

复杂的

要爬取的目标列表。

返回:当状态为present时

CatalogTargets

列表 / 元素=字符串

目录目标列表。

返回:当状态为present时

DynamoDBTargets

列表 / 元素=字符串

DynamoDB目标列表。

返回:当状态为present时

JdbcTargets

列表 / 元素=字符串

JDBC目标列表。

返回:当状态为present时

MongoDBTargets

列表 / 元素=字符串

MongoDB目标列表。

返回:当状态为present时

S3Targets

列表 / 元素=字符串

S3目标列表。

返回:当状态为present时

作者

  • Ivan Chekaldin (@ichekaldin)