网站首页 > 教程文章 正文
问题
Apache druid 中 的实时任务 默认一个小时生成一个segement (如果是老版本,一个小时生成的数量与Kafka 的partition 数量有关),会导致集群产生大量的 segements.根据druid 的建议 每个 segement大小 300M-700M. 有时需要进行compact .
向 overlord节点提交任务地址
http://overlord:port/druid/indexer/v1/task
任务内容
保持原有granularity
{
"type": "compact",
"dataSource": "call_record_test_2",
"interval": "2015-04-01/2020-09-01",
"tuningConfig" : {
"type" : "index_parallel",
"maxRowsPerSegment" : 5000000,
"maxRowsInMemory" : 25000
}
}
修改 granularity
{
"type": "compact",
"dataSource": "compaction-tutorial",
"interval": "2015-09-12/2015-09-13",
"segmentGranularity": "DAY",
"tuningConfig" : {
"type" : "index_parallel",
"maxRowsPerSegment" : 5000000,
"maxRowsInMemory" : 25000,
"forceExtendableShardSpecs" : true
}
}
清理深度存储文件
经过 compact 操作的segements 只是将元数据中的 segements used 标记为 0. 不在加载数据,但数据在深度存储中依然存在。
需要另行清除。
深度存储清理任务
{
"type":"kill",
"dataSource":"call_record_test_2",
"interval":"2020-01-01/2020-04-01"
}
此任务将会进行两个操作。
1.删除元数据表:druid_segments 中used 为 0的 segements .
2.清理深度存储中对应的文件.
总结
druid 中还提供了一个hadoop的方式进行合并任务。这种Hadoop方式将更加的灵活,基本上的操作在hadoop中 将数据重新按照新的规则重新写入。
hadoop任务的方式将会更加复杂些。
以后在整理相关的文章。
猜你喜欢
- 2025-07-08 SpringBoot+Ant Design+Vue+Mybatis+Shiro快速开发平台源码分享
- 2025-07-08 深入探索 Spring Boot3 中高级整合技术
- 2025-07-08 SpringBoot项目快速开发框架JeecgBoot——项目简介及系统架构!
- 2025-07-08 RoaringBitmap与Roaring64Bitmap介绍
- 2025-07-08 SpringBoot集成ClickHouse快速入门
- 2025-07-08 特别回顾丨2021十大Java漏洞(java 漏洞挖掘)
- 2025-07-08 Apache Log4j存在远程代码执行漏洞
- 2025-07-08 「Java工具类」Apache的Beanutils和PropertyUtils工具类
- 2025-07-08 商城微服务项目组件搭建(五)——Kafka、Tomcat等安装部署
- 2025-07-08 Log4j史诗级漏洞,我们这些小公司能做些什么?
- 最近发表
- 标签列表
-
- location.href (44)
- document.ready (36)
- git checkout -b (34)
- 跃点数 (35)
- 阿里云镜像地址 (33)
- qt qmessagebox (36)
- mybatis plus page (35)
- vue @scroll (38)
- 堆栈区别 (33)
- 什么是容器 (33)
- sha1 md5 (33)
- navicat导出数据 (34)
- 阿里云acp考试 (33)
- 阿里云 nacos (34)
- redhat官网下载镜像 (36)
- srs服务器 (33)
- pico开发者 (33)
- https的端口号 (34)
- vscode更改主题 (35)
- 阿里云资源池 (34)
- os.path.join (33)
- redis aof rdb 区别 (33)
- 302跳转 (33)
- http method (35)
- js array splice (33)