博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
CLI使用案例2:轻松大并发地拉取大数据到本地
阅读量:7236 次
发布时间:2019-06-29

本文共 1548 字,大约阅读时间需要 5 分钟。

当你需要把特定数据下载到本地时, 是否遇到一些困难:

  1. 现在的Web控制台只能一页一页的下载?
  2. SDK提供的接口需要用起来有些复杂, 例如游标怎么获取, 分区如何传入, 拉去数据后需要输出格式化?

如果是的, 你可能需要使用日志服务的CLI来轻松拉取数据到本地.

大并发拉取日志

介绍

拉取数据(PullLog)指的是针对特定分区, 按照游标来消费日志, 游标指的是服务器接收到日志的时间.

拉取数据的特点是:

  1. 没有索引的数据也可以拉取.
  2. 按照分区粒度拉取, 每个分区游标互相无关.
  3. 速度快, 易并发, 且支持传输压缩.
  4. 拉取的数据按照服务器接受的时间排序.

并发下载

命令pull_log_dump针对下载做了优化,直接指定文件路径,即可将日志下载在本地。

aliyunlog log pull_log_dump --project_name="p1" --logstore_name="l1" --from_time="2018-01-24 16:00:00+8:00" --to_time="2018-01-24 17:00:00 +8:00" --file_path="/data/dump_{}.data"

这里拉取从时间2018-01-24 16:00:00+8:002018-01-24 17:00:00+8:00并把数据下载本地,因为是并发,所以会存储在多个文件中,文件名根据/data/dump_{}.data中的{}替换成多个并发的数字(一般是分区号)。文件的内容格式为一行一个日志,例如:

{"k1":"a1", "k2":"a2"}{"k1":"b1", "k2":"b2"}...

下载完后会显示下载的文件列表以及日志数,例如:

{"files": {"/data/dump_1.data": 75, "/data/dump_2.data": 14}, "total_count": 89}

时间格式

时间格式推荐是%Y-%m-%d %H:%M:%S %Z, 如2018-01-24 17:00:00+8:00, 但也支持其他合法的时间格式, 例如:Jan 01 2018 10:10:10+8:00

时间范围

命令pull_log_dump传入的时间范围, 需要注意几点:

  1. 这里的时间指的是服务器接受日志的时间
  2. 时间的范围是左闭右开[), 上面例子中16:00:00服务器接受到的日志会被拉取到, 但是17:00:00服务器所接受到的日志不会.

特殊的时间范围

有时我们不关心数据的某一边界, 例如期望获得所有存储的数据到某一天日期位置. 或者获取从某一天开始到目前存储的数据为止的话, 就可以使用特殊游标.

特殊游标包括beginend. 例如:

aliyunlog log pull_log_dump --project_name="p1" --logstore_name="l1" --shard_id=3 --from_time="begin" --to_time="2018-01-24 17:00:00+8:00"

这里拉取所有2018-01-24 17:00:00+8:00之前服务器接收到的日志.

又例如:

aliyunlog log pull_log_dump --project_name="p1" --logstore_name="l1" --shard_id=3 --from_time="2018-01-24 17:00:00+8:00" --to_time="end"

这里拉取所有2018-01-24 17:00:00+8:00开始及之后服务器接收到的日志.

进一步参考

  • (Github开源)
  • 扫码加入官方钉钉群 (11775223):
    image

转载地址:http://juwbm.baihongyu.com/

你可能感兴趣的文章
新常态下光伏等电力工业的发展预测
查看>>
服务器重启时又具有哪些危害了
查看>>
安防监控系统组成部分介绍
查看>>
AT&T在宣传语中对用户说“谢谢” 花旗银行不干了
查看>>
中国个人信息安全和隐私保护报告:两成人曾受电信诈骗恐吓
查看>>
SimpliVity公司高管谈IT“难以忍受的复杂性”
查看>>
运营商再赶“双创”潮 政策催化与利润收窄成主推力
查看>>
低端机的希望?曝联发科10nm工艺处理器
查看>>
如何选购电话会议摄像头
查看>>
建设智慧城市力破“信息孤岛”
查看>>
2015年智能家居大事记 合纵连横成主旋律
查看>>
OpenStack网络基础
查看>>
EnterpriseFrameWork框架基础功能之字典数据配置管理
查看>>
今年,全球产业互联网发展提速
查看>>
漂浮式水上光伏场址如何选择?
查看>>
CloudCC CRM观点:移动应用已成必然
查看>>
我谈软件测试
查看>>
一波未平,一波又起:“永恒之石”恶意程序利用七种NSA“网络武器”
查看>>
远程数据中心蓬勃发展
查看>>
《Effective Debugging:软件和系统调试的66个有效方法》——第14条:考虑对软件进行更新...
查看>>