博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
统计搜索引擎的每小时抓取量及首页抓取量(第一版)
阅读量:6453 次
发布时间:2019-06-23

本文共 1270 字,大约阅读时间需要 4 分钟。

 

下一版,要改进为在一个AWK内统计出所有数据。

现在要六次循环,效率太差,暂时跑起来先。。

#/bin/shlog_path="xxx.log"log_self="xxx.log"key_search=("http://www.baidu.com/search/spider.html" "http://www.google.com/bot.html"  "http://www.haosou.com/help")time_inter_minute=60bool_sendmail="true"last_time=`date "-d -${time_inter_minute} minute" '+%d/%b/%G:%H:%M:%S'`now_time=`date '+%d/%b/%G:%H:%M:%S'`now_time_str="[${now_time}"last_time_str="[${last_time}"echo > $log_selfecho "start time: " $last_time >> $log_selfecho "end time: " $now_time >> $log_selffunction searchSum(){  shell_out=`awk -v a=$1 -v b=$2 '{if ($4 > a && $4 < b) print}' $3|grep $4|wc -l`  echo $shell_out}function searchRootSum(){  shell_root_out=`awk -v a=$1 -v b=$2 '{if ($4 > a && $4 < b && $7 == "/") print}' $3|grep $4|wc -l`  echo $shell_root_out}for search_robot in ${key_search[@]}do    echo $search_robot >> $log_self    count=`searchSum $last_time_str $now_time_str $log_path $search_robot`    echo 全站抓取数量:$count >> $log_self    countRoot=`searchRootSum $last_time_str $now_time_str $log_path $search_robot`    echo 首页抓取数量:$countRoot >> $log_self    if [ $count -eq 0 ];then    mutt -s "xxx搜索引擎抓取统计"  x@x.com < $log_self    fidoneif [ $bool_sendmail == "true" ];then    echo $bool_sendmailfi mutt -s "xxx搜索引擎抓取统计" xx@xx.com < $log_self

 

转载地址:http://bmyzo.baihongyu.com/

你可能感兴趣的文章
线段树分治
查看>>
git代码冲突
查看>>
lnmp1.3 配置pathinfo---thinkphp3.2 亲测有效
查看>>
利用android studio 生成 JNI需要的动态库so文件
查看>>
poll
查看>>
衡量优秀的卓越的前端工程师
查看>>
解析查询 queryString 请求参数的函数
查看>>
学生选课系统数据存文件
查看>>
4.6 直接插入排序法
查看>>
我的毕设总结所用的技术和只是要点 基于stm32F4的AGV嵌入式控制系统的设计
查看>>
盘点国内外那些有野心的BI公司
查看>>
JMeter—断言
查看>>
C++的新类创建:继承与组合
查看>>
m5-第9周作业
查看>>
odoo 权限设置
查看>>
asp操作access提示“无法从指定的数据表中删除”
查看>>
git bash 风格调整
查看>>
997D Cycles in product
查看>>
bzoj4589 Hard Nim
查看>>
java实现pdf旋转_基于Java实现PDF文本旋转倾斜
查看>>