关于shell:如果第 2 和第 3 字段相同,我如何使用排序或其他 bash 命令从所有行中获取 1 行 | 珊瑚贝

How Can I Use Sort or another bash cmd To Get 1 line from all the lines if 1st 2nd and 3rd Field are The same


我有一个文件名为 file.txt

1
2
3
4
5
6
7
8
$cat file.txt

1./abc/cde/go/ftg133333.jpg
2./abc/cde/go/ftg24555.jpg
3./abc/cde/go/ftg133333.gif
4./abt/cte/come/ftg24555.jpg
5./abc/cde/go/ftg133333.jpg
6./abc/cde/go/ftg24555.pdf

我的目标:从第一个、第二个和第三个 PATH 相同且具有相同文件扩展名的行中仅获取一行。
请注意,每个 PATH 都由正斜杠”/”分隔。例如,在列表的第一行,第一个 PATH 是 abc,第二个 PATH 是 cde,第三个 PATH 是 go。
文件扩展名是 .jpg、.gif、.pdf… 始终位于行尾。

这是我尝试过的

1
sort -u -t ‘/’ -k1 -k2 -k3

我的想法
使用 / 作为分隔符给我每行 4 个字段。使用”-u”对它们进行排序将删除除 1 行之外的所有内容,其中包含唯一的第一、第二和第三个字段/路径。但显然,在这种情况下,我没有考虑 EXTENSION(jpg,pdf,gif)。

我的问题

  • 如果第一个、第二个和第三个字段相同并且具有相同的 EXTENSION 使用”/”作为分隔符将其划分为字段,我需要一种方法来 grep 仅其中一行。我想将它输出到另一个文件,比如 file2.txt.

  • 在 file2.txt 中,如何在每行的扩展名前添加一个单词”KALI”,所以它看起来像 /abc/cde/go/ftg13333KALI.jpg 使用第 1 行作为文件中的示例.txt 以上。

  • 期望的输出

    1
    2
    3
    4
    /abc/cde/go/ftg133333KALI.jpg
    /abt/cte/come/ftg24555KALI.jpg
    /abc/cde/go/ftg133333KALI.gif
    /abc/cde/go/ftg24555KALI.pdf

    评论

  • 第 1,2 行

    • 请将该示例输入的所需输出(无描述)添加到您的问题(无评论)。


    1
    2
    3
    4
    5
    6
    7
    8
    $ awk ‘{                                  # using awk
        n=split($0,a,/\\//)                    # split by / to get all path components
        m=split(a[n],b,”.”)                   # split last by . to get the extension
    }
    m>1 && !seen[a[2],a[3],a[4],b[m]]++ {     # if ext exists and is unique with 3 1st dirs
        for(i=2;i<=n;i++)                     # loop component parts and print
            printf”/%s%s”,a[i],(i==n?ORS:””)
    }’
    file

    输出:

    1
    2
    3
    4
    /abc/cde/go/ftg133333.jpg
    /abc/cde/go/ftg133333.gif
    /abt/cte/come/ftg24555.jpg
    /abc/cde/go/ftg24555.pdf

    I split by / 与 . 分开,以防目录名称中有 .。

    错过了 KALI 部分:

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    $ awk ‘{
        n=split($0,a,/\\//)
        m=split(a[n],b,”.”)
    }
    m>1&&!seen[a[2],a[3],a[4],b[m]]++ {
        for(i=2;i<n;i++)
            printf”/%s”,a[i]
        for(i=1;i<=m;i++)
            printf”%s%s”,(i==1?”/”:(i==m?”KALI.”:”.”)),b[i]
        print””
    }’
    file

    输出:

    1
    2
    3
    4
    /abc/cde/go/ftg133333KALI.jpg
    /abc/cde/go/ftg133333KALI.gif
    /abt/cte/come/ftg24555KALI.jpg
    /abc/cde/go/ftg24555KALI.pdf
    • 这是伟大的詹姆斯,你能在代码中添加 FUZZ 部分吗?


    另一个awk

    1
    2
    3
    4
    5
    6
    $ awk -F‘[./]’ ‘!a[$2,$3,$4,$NF]++’ file

    /abc/cde/go/ftg133333.jpg
    /abc/cde/go/ftg133333.gif
    /abt/cte/come/ftg24555.jpg
    /abc/cde/go/ftg24555.pdf

    假定目录名称中不存在 .(通常不一定正确)。

    • 这是伟大而简单的。请问你能回答第二个问题吗?如何在扩展结束前添加单词 FUZZ,记住每行可能有不同数量的字段。输出应该类似于 /go/come/here/toFUZZ.pdf /go/come/what/you/any/meFUZZ.jpg /come/go/make/u/me/ghkFUZZ.gif



    使用 awk:

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    $ awk -F/ ‘{ split($5, ext,”\\\\.”)
                 if (!(($2,$3,$4,ext[2]) in files)) files[$2,$3,$4,ext[2]]=$0
               }
               END { for (f in files) {
                       sub(“\\\\.”,”KALI.”, files[f])
                       print files[f]
                   }}’
    input.txt
    /abt/cte/come/ftg24555KALI.jpg
    /abc/cde/go/ftg133333KALI.gif
    /abc/cde/go/ftg24555KALI.pdf
    /abc/cde/go/ftg133333KALI.jpg
    • 谢谢Shawn,在每行没有相等字段的情况下,怎么办?例如。 /abc/def/hth/go.gif /abd/def/go.pdf /adg/hhhuu/jyyfhh/uui/htdgd/ytehiu/ghte/dgto.jpg
    • @Trendingmike 如何做到这一点 如果问题是: – – 如果第一个第二个和第三个字段相同并且多于或少于 3 个字段,它应该如何处理?请使用此类要求更新您的问题,并将相关示例案例添加到示例数据和预期输出中。


  • 来源:https://www.codenong.com/62618664/

    微信公众号
    手机浏览(小程序)
    0
    分享到:
    没有账号? 忘记密码?