Hive函数row_number实现[通俗易懂]

全栈程序员-用户IM • 2022年5月8日下午10:40 • 未分类

Hive函数row_number实现[通俗易懂]需求：查询一批用户最后三次登陆时间，ip数据row_number实现”’importorg.apache.hadoop.hive.ql.exec.UDF;publicclassRowNumberextendsUDF{privatestaticintMAX_VALUE=50;privatestaticStringcomparedColumn[]=newString[

大家好，又见面了，我是你们的朋友全栈君。

需求：

查询一批用户最后三次登陆时间，ip数据

理解需求是实现分组取前n个值，实现方式是先按照uid字段升序或倒序，时间字段倒序排序数据集合，然后遍历数据集合，用row_number函数遍历uid字段，相同则row_number值+1，取row_number<=3

row_number实现

import org.apache.hadoop.hive.ql.exec.UDF;

public class RowNumber extends UDF { 
   

    private static int MAX_VALUE = 50;
    private static String comparedColumn[] = new String[MAX_VALUE];
    private static int rowNum = 1;

    public int evaluate(Object... args) {
        String columnValue[] = new String[args.length];
        for (int i = 0; i < args.length; i++){
            columnValue[i] = args[i].toString();
        }

        if (rowNum == 1) {
            for (int i = 0; i < columnValue.length; i++)
                comparedColumn[i] = columnValue[i];
        }

        for (int i = 0; i < columnValue.length; i++) {
            if (!comparedColumn[i].equals(columnValue[i])) {
                for (int j = 0; j < columnValue.length; j++) {
                    comparedColumn[j] = columnValue[j];
                }
                rowNum = 1;
                return rowNum++;
            }
        }
        return rowNum++;
    }
}

使用

add jar /xx/xx/user_function/mr-function-1.0.0.jar;
create temporary function row_number as 'com.xxx.xxx.RowNumber';

SELECT c.user_id,c.time,c.ip FROM (SELECT b.* FROM uids_20150831 a LEFT JOIN (SELECT * FROM login WHERE date >=20150101) b ON a.user_id = b.user_id distribute BY user_id sort BY user_id ASC,time DESC ) c WHERE row_number(c.user_id)<=3

参考：
http://blog.csdn.net/liuj2511981/article/details/8741276
http://blog.csdn.net/yfkiss/article/details/7885262
http://blog.csdn.net/yfkiss/article/details/7885262

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至举报，一经查实，本站将立刻删除。

发布者：全栈程序员-用户IM，转载请注明出处：https://javaforall.cn/140995.html原文链接：https://javaforall.cn

【正版授权，激活自己账号】： Jetbrains全家桶Ide使用，1年售后保障，每天仅需1毛

【官方授权正版激活】： 官方授权正版激活支持Jetbrains家族下所有IDE 使用个人JB账号...

赞 (0)

全栈程序员-用户IM

0 0

js 浮动广告代码

js 浮动广告代码

全栈程序员-用户IM
2022年9月20日
深入理解TCP、UDP协议及两者的区别

深入理解TCP、UDP协议及两者的区别一、TCP协议：位于传输层，提供可靠的字节流服务。所谓的字节流服务（ByteStreamService）是指，为了方便传输，将大块数据分割成以报文段（segment）为单位的数据包进行管理。而可靠的传输服务是指，能够把数据准确可靠地传给对方。即TCP协议为了更容易传送大数据才把数据分割，而且TCP协议能够确认数据最终是否送达到对方。所以，TCP连接相当于两根管道（一…

全栈程序员-用户IM
2022年5月2日
数据中台怎么选型？终于有人讲明白了

数据中台怎么选型？终于有人讲明白了数据中台怎么选型？终于有人讲明白了

全栈程序员-用户IM
2022年6月13日
浏览器报错400系列总结「建议收藏」

浏览器报错400系列总结「建议收藏」

全栈程序员-用户IM
2022年5月18日
python 3.6安装cPickle

python 3.6安装cPicklepython36找不到pickle这个包，直接使用import_pickleascPickle即可，亲测可用https://blog.csdn.net/bailixuance/article/details/850544591、在python2.X中，需要安装cPickle，2、在python3.X中，这个包已被别的包替换，使用以下语句即可：import_picklea…

全栈程序员-用户IM
2022年6月16日
机器学*系列文章索引

0机器学习简介概念：多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改

全栈程序员-用户IM
2021年12月30日

发表回复

关注全栈程序员社区公众号