今天咱们聊个所有技术人都躲不掉的“体力活”——文本处理。是不是经常遇到这些糟心事?
服务器日志几千行,想找一条“ERROR”报错信息,手动翻到眼酸;配置文件改了10处,结果漏了一行,重启服务直接崩;想统计某个关键词出现次数,对着cat出来的文本干瞪眼……明明知道有工具能用,就是记不住命令,最后只能“暴力操作”!
别慌,今天咱就教你Linux文本处理的“三剑客”——grep、awk、sed。这三个命令能覆盖90%的文本操作需求,从找内容、提数据到改文本,分分钟从“手忙脚乱”变“从容高效”!
一、快速找内容:grep——文本搜索的“放大镜”
grep(全称“Global Regular Expression Print”)是Linux里最常用的“文本搜索神器”。它的核心功能是在文件(或命令输出)中按关键字/正则表达式匹配内容,并输出符合条件的行。
基础用法:grep [选项] 关键字 文件名。
举个栗子:
- 你想在/var/log/nginx/access.log日志里找所有包含“404”的错误请求:
grep "404" /var/log/nginx/access.log
一行行报错信息立刻跳出来,比手动翻快100倍! - 你想找Nginx启动日志里“成功”的关键字,但日志里可能有“成功”或“Success”两种写法(大小写敏感):
grep -i "成功" /var/log/nginx/start.log(-i表示忽略大小写) - 你想找最近30分钟内修改过的日志文件里的“timeout”错误(结合find实时搜索):
find /var/log -name "*.log" -mtime 0 -exec grep "timeout" {} \;(-mtime 0表示最近1天,-exec是执行后续命令)
进阶技巧:
- 反向搜索(排除关键字):grep -v "success" log.txt(只显示不包含“success”的行);
- 统计匹配行数:grep -c "error" log.txt(快速知道有多少处错误);
- 递归搜索目录:grep -r "config" /etc(在/etc目录下所有文件里找“config”)。
二、精准提数据:awk——列提取的“瑞士军刀”
如果说grep是“找内容”,那awk就是“从内容里抠数据”。它擅长按列分割文本,并对每一列进行计算、过滤或格式化输出,特别适合处理结构化文本(比如日志、CSV文件、表格)。
基础用法:awk '条件 {动作}' 文件名。
举个栗子:
- 你的Nginx日志格式是IP 身份标识 用户名 时间 请求 状态码 大小,想统计今天访问量最高的IP(前3名):
awk '{print $1}' access.log | sort | uniq -c | sort -nr | head -n 3
(分解步骤:awk提取第1列IP → sort排序 → uniq -c统计次数 → sort -nr按次数倒序 → head -n 3取前3) - 你想从/etc/passwd文件里提取所有普通用户的用户名(第1列)和家目录(第6列),只显示这两列:
awk -F ':' '{print $1, $6}' /etc/passwd(-F ':'指定分隔符为冒号) - 你想监控系统负载,从top命令输出里提取“load average”数值(第三列):
top -bn1 | grep "load average" | awk '{print $10, $11, $12}'(-bn1表示后台运行一次,避免实时刷新干扰)
避坑提示:
- 分隔符别乱设:如果日志用空格分隔但有多个空格,用-F '[ ]+'(正则匹配多个空格)更准确;
- 列号从1开始:$1是第一列,$0是整行,别记成0开始!
三、灵活改文本:sed——内容替换的“编辑器”
sed(全称“Stream Editor”)是Linux里的“流编辑器”,擅长对文本进行批量替换、删除、插入操作,尤其适合修改配置文件、清理日志冗余内容。
基础用法:sed [选项] '操作' 文件名。
举个栗子:
- 你想把/etc/nginx/nginx.conf里的worker_processes 1;改成worker_processes 4;(调整进程数):
sed -i 's/worker_processes 1;/worker_processes 4;/' nginx.conf(-i表示直接修改原文件,s/旧内容/新内容/是替换语法) - 你想删除日志文件app.log里所有包含“DEBUG”的调试信息(清理冗余):
sed '/DEBUG/d' app.log > clean.log(d表示删除匹配行,>重定向到新文件,避免覆盖原文件) - 你想在hosts文件的每行末尾添加注释(比如# 2024-03更新),但跳过第一行(标题行):
sed '1s/^/# /; 2,$s/$/ # 2024-03更新/' hosts(;分隔多个操作,1s/^/# /给第一行开头加# ,2,$表示从第二行到最后一行,s/$/...给行尾加内容)
注意:备份文件!
用sed -i直接修改原文件前,建议先备份:cp nginx.conf nginx.conf.bak,避免手滑改错导致服务崩溃!
三剑客的使用场景
- 找内容:用grep快速定位关键字(日志分析、错误排查);
- 提数据:用awk按列提取结构化数据(统计、报表生成);
- 改文本:用sed批量替换/删除内容(配置修改、日志清理)。
这三个命令就像“文本处理的三板斧”,掌握后能解决90%的日常操作需求。下次再遇到“文本处理头大”的情况,先想想是用grep找、awk提还是sed改,效率直接翻倍!
