community.aws.glue_crawler 模块 – 管理 AWS Glue 爬虫
注意
此模块是 community.aws 集合 (版本 9.0.0) 的一部分。
如果您使用的是 ansible
包,则可能已安装此集合。它不包含在 ansible-core
中。要检查它是否已安装,请运行 ansible-galaxy collection list
。
要安装它,请使用: ansible-galaxy collection install community.aws
。您需要其他要求才能使用此模块,有关详细信息,请参阅 要求。
要在剧本中使用它,请指定: community.aws.glue_crawler
。
community.aws 4.1.0 中的新增功能
概要
管理 AWS Glue 爬虫。有关详细信息,请参阅 https://aws.amazon.com/glue/。
在 5.0.0 版本之前,此模块称为
community.aws.aws_glue_crawler
。用法没有改变。
别名:aws_glue_crawler
要求
执行此模块的主机需要以下要求。
python >= 3.6
boto3 >= 1.28.0
botocore >= 1.31.0
参数
参数 |
注释 |
---|---|
AWS 访问密钥 ID。 有关访问令牌的更多信息,请参阅 AWS 文档 https://docs.aws.amazon.com/general/latest/gr/aws-sec-cred-types.html#access-keys-and-secret-access-keys。 也可以使用 aws_access_key 和 profile 选项是互斥的。 为与 AWS botocore SDK 保持一致,在 5.1.0 版本中添加了 aws_access_key_id 别名。 ec2_access_key 别名已弃用,将在 2024-12-01 之后的一个版本中移除。
|
|
验证 SSL 证书时使用的 CA 捆绑包的位置。 也可以使用 |
|
用于修改 botocore 配置的字典。 参数可在 AWS 文档中找到 https://botocore.amazonaws.com/v1/documentation/api/latest/reference/config.html#botocore.config.Config。 |
|
写入结果的数据库名称。 |
|
使用 也可以使用 选项
|
|
正在定义的爬虫的描述。 |
|
连接到的 URL,而不是默认的 AWS 端点。虽然这可以用于连接到其他与 AWS 兼容的服务,但 amazon.aws 和 community.aws 集合仅针对 AWS 进行了测试。 也可以使用 ec2_url和s3_url别名已弃用,将在2024年12月1日后的某个版本中移除。 对 |
|
您为这个爬虫定义分配的名称。它在您的帐户中必须唯一。 |
|
用于身份验证的命名AWS配置文件。 有关命名配置文件的更多信息,请参见AWS文档 https://docs.aws.amazon.com/cli/latest/userguide/cli-configure-profiles.html。 也可以使用 profile选项与aws_access_key、aws_secret_key和security_token选项互斥。 |
|
如果 如果没有设置 以 选项
|
|
指定是再次抓取整个数据集,还是仅抓取自上次爬虫运行以来添加的文件夹的策略。 |
|
指定是再次抓取整个数据集,还是仅抓取自上次爬虫运行以来添加的文件夹。 支持的选项为 |
|
要使用的AWS区域。 对于IAM、Route53和CloudFront等全局服务,将忽略region。 也可以使用 有关更多信息,请参见Amazon AWS文档 http://docs.aws.amazon.com/general/latest/gr/rande.html#ec2_region。 ec2_region别名已弃用,将在2024年12月1日后的某个版本中移除。 对 |
|
与该爬虫关联的IAM角色的名称或ARN。 当state=present时必需。 |
|
爬虫的更新和删除行为策略。 |
|
定义爬虫找到已删除对象时的删除行为。 支持的选项为 |
|
定义爬虫找到更改的模式时的更新行为。 支持的选项为 |
|
AWS密钥。 有关访问令牌的更多信息,请参阅 AWS 文档 https://docs.aws.amazon.com/general/latest/gr/aws-sec-cred-types.html#access-keys-and-secret-access-keys。 也可以按优先级递减的顺序使用 secret_key和profile选项互斥。 为了与AWS botocore SDK保持一致,在5.1.0版本中添加了aws_secret_access_key别名。 ec2_secret_key别名已弃用,将在2024年12月1日后的某个版本中移除。 对 |
|
与临时凭证一起使用的AWS STS会话令牌。 有关访问令牌的更多信息,请参阅 AWS 文档 https://docs.aws.amazon.com/general/latest/gr/aws-sec-cred-types.html#access-keys-and-secret-access-keys。 也可以按优先级递减的顺序使用 security_token和profile选项互斥。 在3.2.0版本中添加了aws_session_token和session_token别名,在6.0.0版本中将参数从security_token重命名为session_token。 security_token、aws_security_token和access_token别名已弃用,将在2024年12月1日后的某个版本中移除。 对 |
|
创建或删除AWS Glue爬虫。 选项
|
|
用于创建的目录表的表前缀。 |
|
表示要应用于资源的标签的字典。 如果没有设置 |
|
要爬取的目标列表。请参见下面的示例。 当state=present时必需。 |
|
设置为 强烈建议不要设置validate_certs=false,作为替代方案,可以考虑设置aws_ca_bundle。 选项
|
备注
注意
警告:对于模块,环境变量和配置文件是从Ansible“主机”上下文而不是“控制器”上下文读取的。因此,可能需要将文件显式复制到“主机”。对于查找和连接插件,环境变量和配置文件是从Ansible“控制器”上下文而不是“主机”上下文读取的。
Ansible使用的AWS SDK (boto3)也可能从Ansible“主机”上下文中的配置文件(通常为
~/.aws/credentials
)读取凭据和其他设置的默认值,例如区域。有关更多信息,请参见 https://boto3.amazonaws.com/v1/documentation/api/latest/guide/credentials.html。
示例
# Note: These examples do not set authentication details, see the AWS Guide for details.
# Create an AWS Glue crawler
- community.aws.glue_crawler:
name: my-glue-crawler
database_name: my_database
role: my-iam-role
schema_change_policy:
delete_behavior: DELETE_FROM_DATABASE
update_behavior: UPDATE_IN_DATABASE
recrawl_policy:
recrawl_ehavior: CRAWL_EVERYTHING
targets:
S3Targets:
- Path: "s3://my-bucket/prefix/folder/"
ConnectionName: my-connection
Exclusions:
- "**.json"
- "**.yml"
state: present
# Delete an AWS Glue crawler
- community.aws.glue_crawler:
name: my-glue-crawler
state: absent
返回值
常用的返回值已在此处记录 此处,以下是此模块特有的字段
键 |
描述 |
---|---|
创建此爬虫定义的时间和日期。 返回:当状态为present时 示例: |
|
写入结果的数据库名称。 返回:当状态为present时 示例: |
|
爬虫的描述。 返回:当状态为present时 示例: |
|
上次更新此爬虫定义的时间和日期。 返回:当状态为present时 示例: |
|
AWS Glue爬虫的名称。 返回:始终 示例: |
|
指定是再次抓取整个数据集,还是仅抓取自上次爬虫运行以来添加的文件夹的策略。 返回:当状态为present时 |
|
是再次抓取整个数据集,还是仅抓取自上次爬虫运行以来添加的文件夹。 返回:当状态为present时 示例: |
|
与该爬虫关联的IAM角色的名称或ARN。 返回:当状态为present时 示例: |
|
爬虫的更新和删除行为策略。 返回:当状态为present时 |
|
爬虫找到已删除对象时的删除行为。 返回:当状态为present时 示例: |
|
爬虫找到更改的模式时的更新行为。 返回:当状态为present时 示例: |
|
用于创建的目录表的表前缀。 返回:当状态为present时 示例: |
|
要爬取的目标列表。 返回:当状态为present时 |
|
目录目标列表。 返回:当状态为present时 |
|
DynamoDB目标列表。 返回:当状态为present时 |
|
JDBC目标列表。 返回:当状态为present时 |
|
MongoDB目标列表。 返回:当状态为present时 |
|
S3目标列表。 返回:当状态为present时 |