data audit on hadoop fs

首页 > 代码库 > data audit on hadoop fs

2024-07-12 17:43:34 222人阅读

最近项目中遇到了存储在HDFS上的数据格式不对，是由于数据中带有\r\n的字符，程序处理的时候没有考虑到这些情况。历史数据大概有一年的时间，需要把错误的数据或者重复的数据给删除了，保留正确的数据，项目中使用Pig来进行数据处理，所以我写了一个UDF的JAVA类去过滤
那些错误的数据，把错误的数据和正确的数据分别存了一份，然后写了以下脚本统计数据的Schema和条数，记录下来，以后项目可以参考。

#!/bin/shcurDir=`cd "$(dirname $0)";pwd`summary(){        files=""        printf "job\ttotalQueries\tgoodQueries\tbadQueries\n" > $2        while read job        do                if [ -z files ]; then                        files="$job/par*"                else                        files="$files $job/par*"                fi                totalQueries=`hadoop fs -text $job/par* | wc -l`                goodQueries=`hadoop fs -text /user/chran/txt$job/par* |wc -l`                badQueries=`hadoop fs -text /user/chran/txt/error$job/par* | wc -l`                #distinctQueries=`hadoop fs -text $job/par* | awk -F ‘\a‘ ‘{ print NF }‘ | sort | uniq`                printf "$job\t$totalQueries\t$goodQueries\t$badQueries\n" >> $2        done < $1}check(){        tempDir=$curDir/temp        if [ ! -d $tempDir ]; then                mkdir -p $tempDir        fi        #clean up result files        output=$tempDir/$2        rm $output        if ! hadoop fs -test -d $1 ; then                echo "$1 in HDFS doesn‘t exist"                exit -1        fi        #list all sub folders        folderList=$tempDir/$2.folderlist.temp        #hadoop fs -ls $1 | awk ‘{ print $NF }‘ | uniq | sort > $folderList        hadoop fs -lsr $1 | grep "/[0-9][0-9]\$" | grep "00\$" | awk ‘{ print $NF }‘ | uniq | sort > $folderList        summary $folderList $output        rm $folderList}

check "/apps/risk/ars/social/raw/SOCIAL_FACEBOOK_RAW" "check_facebook.output.txt"

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们

首页 > 代码库 > data audit on hadoop fs

data audit on hadoop fs

看完仍有疑问？有类似问题直接问程序猿