轻松运行全托管式 Apache Spark、Hadoop 和 30 多种开源框架集群,并灵活掌控运行环境。使用 Lightning Engine 加速 Compute Engine 上的 Spark,并与 Google Cloud 的开放式数据湖仓库集成。
Apache Spark 是 Apache Software Foundation 的商标。
功能
除了 Spark,Dataproc 还为完整的 Apache Hadoop 技术栈(MapReduce、HDFS 和 YARN),以及 Flink、Trino、Hive 和 30 多种其他开源工具提供全托管式服务。为支持这些需求,Dataproc 集成了全托管式 Hive Metastore 服务 Dataproc Metastore,简化对传统数据湖组件的元数据管理。对传统数据湖工作负载进行现代化改造,或使用您偏好的引擎构建新应用。
自定义 Dataproc 集群,支持多种机器类型(包括 GPU)、抢占式虚拟机、磁盘选项、自动扩缩政策、初始化操作、容器/映像和可选组件。使用工作流模板等功能编排复杂作业,并通过控制台、gcloud、API 或客户端库进行集群管理。通过与 Cloud Monitoring 集成,全面掌握集群性能与健康状况,获取丰富的指标、信息中心和提醒功能。
Dataproc 集群与 BigLake Metastore 原生集成,让您可以处理以 Apache Iceberg on Cloud Storage 等开放格式存储的数据。对于基于传统 Hive 的元数据需求,可与托管式 Dataproc Metastore 服务实现无缝集成。利用 Dataplex Universal Catalog 实现对整个湖仓一体资产的统一发现、沿袭和治理。将 Dataproc 与 BigQuery、Vertex AI、Spanner、Pub/Sub 和 Data Fusion 连接,构建强大、端到端的解决方案,从而扩展您的数据应用。
获享 Google Cloud 的强大安全机制。配置 Kerberos、使用 IAM 管理访问权限、使用 VPC Service Controls 强制执行网络政策,以及使用 CMEK。集成 Dataplex Universal Catalog 以实现集中式政策管理,并通过 BigLake 实现细粒度访问控制。
利用熟悉的工具和 IDE(例如在笔记本电脑上运行的 Jupyter 和 VS Code IDE)来连接 Dataproc 集群。将 Dataproc 与 Vertex AI Workbench 集成,以在集群上进行交互式 Spark 开发,并使用 Vertex AI 构建端到端 AI/机器学习流水线。
常见用途
对数据湖进行现代化改造
轻松将本地 Hadoop 和 Spark 工作负载迁移到云端。使用 Dataproc 在 Cloud Storage 中的数据上运行 MapReduce、Hive、Pig 和 Spark 作业,集成 Dataproc Metastore,并通过 Dataplex Universal Catalog 实现统一治理。
对数据湖进行现代化改造
轻松将本地 Hadoop 和 Spark 工作负载迁移到云端。使用 Dataproc 在 Cloud Storage 中的数据上运行 MapReduce、Hive、Pig 和 Spark 作业,集成 Dataproc Metastore,并通过 Dataplex Universal Catalog 实现统一治理。
大规模定制数据科学
启动包含特定版本的 Spark、Jupyter 和所需机器学习库的专用 Dataproc 集群,以进行协作式大规模模型训练和高级分析。与 Vertex AI 集成以进行 MLOps。
大规模定制数据科学
启动包含特定版本的 Spark、Jupyter 和所需机器学习库的专用 Dataproc 集群,以进行协作式大规模模型训练和高级分析。与 Vertex AI 集成以进行 MLOps。
价格
托管式集群的 Dataproc 价格 | Dataproc 采用随用随付的价格模式。通过自动扩缩和抢占式虚拟机,优化费用。Compute Engine 高级层级可通过 Lightning Engine 加速 Spark 性能。 |
---|---|
关键组件: |
|
示例: | 一个集群包含 6 个节点(1 个主节点 + 5 个工作器节点),每个节点有 4 个 CPU,若每个 CPU 运行 2 小时,费用将为 $0.48。Dataproc 费用 = vCPU 数 * 小时数 * Dataproc 价格 = 24 * 2 * $0.01 = $0.48 |
托管式集群的 Dataproc 价格
Dataproc 采用随用随付的价格模式。通过自动扩缩和抢占式虚拟机,优化费用。Compute Engine 高级层级可通过 Lightning Engine 加速 Spark 性能。
关键组件:
示例:
一个集群包含 6 个节点(1 个主节点 + 5 个工作器节点),每个节点有 4 个 CPU,若每个 CPU 运行 2 小时,费用将为 $0.48。Dataproc 费用 = vCPU 数 * 小时数 * Dataproc 价格 = 24 * 2 * $0.01 = $0.48
读书与吃药是什么生肖hcv9jop6ns5r.cn | 轻度脑萎缩是什么意思hcv8jop2ns2r.cn | 己卯日五行属什么hcv8jop2ns9r.cn | 50年婚姻是什么婚hcv8jop6ns5r.cn | 菜板买什么材质的好hcv7jop6ns4r.cn |
银手镯为什么会变黑hcv7jop9ns4r.cn | 农历闰月有什么规律hcv7jop6ns2r.cn | 测血型挂什么科hcv8jop5ns7r.cn | 黄金是什么药材hcv8jop3ns8r.cn | 什么将什么相hcv8jop8ns9r.cn |
没主见是什么意思hcv9jop1ns2r.cn | 吃什么受孕率又快又高hcv7jop6ns5r.cn | 僧侣是什么意思hcv9jop0ns6r.cn | 夹腿什么意思hcv9jop6ns7r.cn | 头晕没精神是什么原因hcv8jop9ns2r.cn |
体态是什么意思hcv8jop4ns2r.cn | 视什么如什么hcv8jop1ns5r.cn | 五月三十一号是什么星座hcv8jop3ns9r.cn | 节律是什么意思hcv7jop6ns5r.cn | 做梦杀人了是什么征兆clwhiglsz.com |