实时指标解决方案
大数据时代,各行业在进行业务开展过程中产生了大量的实时数据,这些实时数据以结构化或非结构化的形式在系统中传输、储存、计算、分析,从而产生能够为特定业务领域服务的信息。这也就对数据处理的实时性与准确性要求越来越高,DingoDB实时指标服务核心辅助业务进行实时决策 。为满足当今市场需求,在存储方面,需要满足大规模海量数据不间断高并发的读取与写入;计算方面,需要低延迟的数据加工和计算,来保证数据时效性,通过严谨的计算方法,保证结果数据的准确性。主要的应用场景有:
n 事中风控
事中风控能够进行实时的交易风控,事中风控所依赖的数据维度不断扩展, 除了行内数据和行内业务渠道的交易数据,还增加了业务渠道的埋点数据、外部的官方数据、运营商数据、第三方数据,通过对数据计算与查询,来分析客户的交易行为,通过判断行为习惯于当前交易的偏差来判断是否出现风险。
n 实时营销/实时推荐
实时营销主要用于预测客户的偏好,并为他们提供可能喜欢的产品或服务;通过收集客户信息,并对信息数据进行实时的统计和分析,从而了解客户的偏好和习惯,自动调整产品或者服务功能,实时地适应客户变化着的需要,能够让客户当下的兴趣及时反馈到推荐结果的变化上。通过为客户提供个性化的建议,来帮助公司降低成本,并增加收入。
n 实时大屏
实时大屏是自动刷新的实时数据的看板。将多种数据和数据关系、复杂的业务流程,用交互式的图形图像来呈现,用来解释业务的变化趋势和原因。这样能够直观把握核心资产全局、价值流动和趋势分析。
n 预警监控
预警监控能够实时了解资源动向和事件发展趋势。当达到预设定的阈值时,系统会及时发出预警报告,管理员根据预警报告快速做出决策。
n 海量存储
DingoDB数据库支持行存、列存和行列混合;DingoDB 的 SQL 优化器基于数据的元信息提供最优执行计划,实现行、列的自动选择。能够基于主键,实现数据记录的 Upsert、Delete 操作;同时数据采用多分区副本机制,能够将 Upsert、Delete 操作转化为 Key-Value 操作,实现高频更新。以实时能力为中心,微秒级极速查询响应,实时写入,实时更新。能够基于分布式对象存储,提供历史数据、实时数据的⼀体化持久存储。支持数据的冷(分布式)、热(本地)存储。
n 实时计算
DingoDB数据库做到分析服务一体化,支持点查、交互式分析、离线加速;提供⾼并发的极速数据查询、秒级数据计算的服务能⼒;提供7*24⼩时服务能⼒。并且支持多样的Connector丰富数据接入和计算,完全分布式可扩展架构,动态集群管理与弹性扩容。
实时计算中的指标计算能力,详细参考3。
1) 聚合函数
提供丰富的聚合函数,将方法封装在函数里,更加方便有效进行数据处理;用户可以根据实际需求选择对应的聚合函数。
函数名称 |
说明 |
Scan |
扫描表中数据。 |
Get |
读取表中数据 |
Filter |
根据条件过滤数据 |
Add |
对列进行数值加操作 |
Put |
向表中写入数据 |
Update |
修改表中数据 |
Delete |
删除表中数据 |
DeleteRange |
范围删除表中数据 |
Max |
对列与输入求最大值 |
Min |
对列与输入求最小值 |
Avg |
对列与输入求平均数 |
Sum |
对列与输入求和 |
Count |
计算记录条数 |
SortList |
对输入的数值和已存储的数值按照数值大小进行排序,默认升序 |
DistinctList |
对输入的数值和已存储的数值执行去重操作,对重复的数值只纪录一次 |
List |
列表,基于输入的数值和已存储的数值,根据条件返回List结果 |
IncreaseCount |
递增次数,序列中,存在相邻两点递增,统计相邻递增的次数 |
DecreaseCount |
递减次数,序列中,存在相邻两点递减,统计相邻递减的次数 |
maxIncreaseCount |
最大递增,序列中,每次连续递增中产生的递增次数的最大值 |
maxDexreaseCount |
最大递减,序列中,每次连续递减中产生的递减次数的最大值 |
2) 非主键列聚合计算
相对于传统的只支持主键列的聚合计算,DingoDB拓宽了聚合计算范围既支持主键列也支持非主键列的聚合计算。这样的处理方式降低了用户使用的门槛,有效保障数据的处理能力。
3) 二次计算
获取到Filter过滤的查询数据,根据实际场景选择所对应的聚合函数,对查询数据进行二次计算,一定程度上缩短了数据处理时间,大大提高处理效率。
4) UDF自定义算子
支持UDF函数的定义;介于各个行业场景不同,现有聚合函数不能完全满足场景需要,可以通过自定义UDF函数来实现该场景需求,具有相对灵活性。
u 内置多种高效计算操作类型,满足更多场景需要,针对不同的场景选择对最优的计算操作类型,更方便快捷实现场景需求;
u 计算逻辑下推,可以使集群资源得到充分利用;
u 支持高并发能力,可以同时处理多个请求,响应更快;针对复杂的操作可以分成多个进程共同执行;极大保障了海量数据处理的时效性;
u 保证读取和写入操作的一致性,在高吞吐高性能的写入情况下,能够可以做到毫秒级的读延迟,充分保障数据的实时性。
