淘宝采集软件哪个好用(手机app数据采集软件推荐) 每日热讯
大数据的来源多种多样,在大数据时代背景下,如何从大数据中采集出有用的信息是大数据发展的最关键因素。大数据采集是大数据产业的基石,大数据采集阶段的工作是大数据的核心技术之一。为了高效采集大数据,依据采集环境及数据类型选择适当的大数据采集方法及平台至关重要。下面介绍一些常用的大数据采集平台和工具。
1 Flume
【资料图】
Flume作为Hadoop的组件,是由Cloudera专门研发的分布式日志收集系统。尤其近几年随着Flume的不断完善,用户在开发过程中使用的便利性得到很大的改善,Flume现已成为Apache Top项目之一。
Flume提供了从Console(控制台)、RPC(Thrift-RPC)、Text(文件)、Tail(UNIX Tail)、Syslog、Exec(命令执行)等数据源上收集数据的能力。
Flume采用了多Master的方式。为了保证配置数据的一致性,Flume引入了ZooKeeper,用于保存配置数据。ZooKeeper本身可保证配置数据的一致性和高可用性。另外,在配置数据发生变化时,ZooKeeper可以通知Flume Master节点。Flume Master节点之间使用Gossip协议同步数据。
Flume针对特殊场景也具备良好的自定义扩展能力,因此Flume适用于大部分的日常数据采集场景。因为Flume使用JRuby来构建,所以依赖Java运行环境。Flume设计成一个分布式的管道架构,可以看成在数据源和目的地之间有一个Agent的网络,支持数据路由。
Flume支持设置Sink的Failover和加载平衡,这样就可以保证在有一个Agent失效的情况下,整个系统仍能正常收集数据。Flume中传输的内容定义为事件(Event),事件由Headers(包含元数据,即Meta Data)和Payload组成。
Flume提供SDK,可以支持用户定制开发。Flume客户端负责在事件产生的源头把事件发送给Flume的Agent。客户端通常和产生数据源的应用在同一个进程空间。常见的Flume 客户端有Avro、Log4J、Syslog和HTTP Post。
2 Fluentd
Fluentd是另一个开源的数据收集架构,如图1所示。Fluentd使用C/Ruby开发,使用JSON文件来统一日志数据。通过丰富的插件,可以收集来自各种系统或应用的日志,然后根据用户定义将日志做分类处理。通过Fluentd,可以非常轻易地实现像追踪日志文件并将其过滤后转存到 MongoDB 这样的操作。Fluentd可以彻底地把人从繁琐的日志处理中解放出来。
图1 Fluentd架构
Fluentd具有多个功能特点:安装方便、占用空间小、半结构化数据日志记录、灵活的插件机制、可靠的缓冲、日志转发。Treasure Data公司对该产品提供支持和维护。另外,采用JSON统一数据/日志格式是它的另一个特点。相对Flume,Fluentd配置也相对简单一些。
Fluentd的扩展性非常好,客户可以自己定制(Ruby)Input/Buffer/Output。Fluentd具有跨平台的问题,并不支持Windows平台。
Fluentd的Input/Buffer/Output非常类似于Flume的Source/Channel/Sink。Fluentd架构如图2所示。
图2 Fluentd架构
3 Logstash
Logstash是著名的开源数据栈ELK(ElasticSearch,Logstash,Kibana)中的那个L。因为Logstash用JRuby开发,所以运行时依赖JVM。Logstash的部署架构如图3所示,当然这只是一种部署的选项。
图3 Logstash的部署架构
一个典型的Logstash的配置如下,包括Input、Filter的Output的设置。
input {
file {
type =>”Apache-access”
path =>”/var/log/Apache2/other_vhosts_access.log”
}
file {
type =>”pache-error”
path =>”/var/log/Apache2/error.log”
}
}
filter {
grok {
match => {“message”=>”%(COMBINEDApacheLOG)”}
}
date {
match => {“timestamp”=>”dd/MMM/yyyy:HH:mm:ss Z”}
}
}
output {
stdout {}
Redis {
host=>”192.168.1.289″
data_type => “list”
key => “Logstash”
}
}
几乎在大部分的情况下,ELK作为一个栈是被同时使用的。在你的数据系统使用ElasticSearch的情况下,Logstash是首选。
4 Chukwa
Chukwa是Apache旗下另一个开源的数据收集平台,它远没有其他几个有名。Chukwa基于Hadoop的HDFS和MapReduce来构建(用Java来实现),提供扩展性和可靠性。它提供了很多模块以支持Hadoop集群日志分析。Chukwa同时提供对数据的展示、分析和监视。该项目目前已经不活跃。
Chukwa适应以下需求:
(1)灵活的、动态可控的数据源。
(2)高性能、高可扩展的存储系统。
(3)合适的架构,用于对收集到的大规模数据进行分析。
Chukwa架构如图4所示。
图4 Chukwa架构
5 Scribe
Scribe是Facebook开发的数据(日志)收集系统。其官网已经多年不维护。Scribe为日志的“分布式收集,统一处理”提供了一个可扩展的,高容错的方案。当中央存储系统的网络或者机器出现故障时,Scribe会将日志转存到本地或者另一个位置;当中央存储系统恢复后,Scribe会将转存的日志重新传输给中央存储系统。Scribe通常与Hadoop结合使用,用于向HDFS中push(推)日志,而Hadoop通过MapReduce作业进行定期处理。
Scribe架构如图5所示。
图5 Scribe架构
Scribe架构比较简单,主要包括三部分,分别为Scribe agent、Scribe和存储系统。
6 Splunk
在商业化的大数据平台产品中,Splunk提供完整的数据采集、数据存储、数据分析和处理,以及数据展现的能力。Splunk是一个分布式机器数据平台,主要有三个角色。Splunk架构如图6所示。
图6 Splunk架构
Search:负责数据的搜索和处理,提供搜索时的信息抽取功能。
Indexer:负责数据的存储和索引。
Forwarder:负责数据的收集、清洗、变形,并发送给Indexer。
Splunk内置了对Syslog、TCP/UDP、Spooling的支持,同时,用户可以通过开发 Input和Modular Input的方式来获取特定的数据。在Splunk提供的软件仓库里有很多成熟的数据采集应用,如AWS、数据库(DBConnect)等,可以方便地从云或数据库中获取数据进入Splunk的数据平台做分析。
Search Head和Indexer都支持Cluster的配置,即高可用、高扩展的、但Splunk现在还没有针对Forwarder的Cluster的功能。也就是说,如果有一台Forwarder的机器出了故障,则数据收集也会随之中断,并不能把正在运行的数据收集任务因故障切换(Failover)到其他的Forwarder上。
7 Scrapy
Python的爬虫架构叫Scrapy。Scrapy是由Python语言开发的一个快速、高层次的屏幕抓取和Web抓取架构,用于抓取Web站点并从页面中提取结构化数据。Scrapy的用途广泛,可以用于数据挖掘、监测和自动化测试。
Scrapy吸引人的地方在于它是一个架构,任何人都可以根据需求方便地进行修改。它还提供多种类型爬虫的基类,如BaseSpider、Sitemap爬虫等,最新版本提供对Web 2.0爬虫的支持。
Scrapy运行原理如图7所示。
图7 Scrapy运行原理
Scrapy的整个数据处理流程由Scrapy引擎进行控制。Scrapy运行流程如下:
(1)Scrapy引擎打开一个域名时,爬虫处理这个域名,并让爬虫获取第一个爬取的URL。
(2)Scrapy引擎先从爬虫那获取第一个需要爬取的URL,然后作为请求在调度中进行调度。
(3)Scrapy引擎从调度那里获取接下来进行爬取的页面。
(4)调度将下一个爬取的URL返回给引擎,引擎将它们通过下载中间件发送到下载器。
(5)当网页被下载器下载完成以后,响应内容通过下载器中间件被发送到Scrapy引擎。
(6)Scrapy引擎收到下载器的响应并将它通过爬虫中间件发送到爬虫进行处理。
(7)爬虫处理响应并返回爬取到的项目,然后给Scrapy引擎发送新的请求。
(8)Scrapy引擎将抓取到的放入项目管道,并向调度器发送请求。
(9)系统重复第(2)步后面的操作,直到调度器中没有请求,然后断开Scrapy引擎与域之间的联系。
标签:
相关阅读
-
热资讯!新seo排名点击软件(免费刷排名点击软件 SEOChat模式生成器)
您是否在博客和网站领域?如果您是,您就会知道SEO的重要性。这是一项非常敏感且耗时的工作。如果您拥有...
2023-02-14 -
热资讯!新seo排名点击软件(免费刷排名点击软件 SEOChat模式生成器)
您是否在博客和网站领域?如果您是,您就会知道SEO的重要性。这是一项非常敏感且耗时的工作。如果您拥有...
2023-02-14 -
google earth打不开怎么办 解决方法如下 全球关注
googleearth打不开怎么办?GoogleEarth打不开不是软件本身的问题,而是国情所至,以前,Google在国内时...
2023-02-14
精彩推荐
阅读排行
相关词
- 苹果怎么查看wifi密码?两种方法告诉你答案
- 打印机脱机状态怎么解除_打印机脱机怎么办 今日最新
- 关闭系统还原好吗 如何关闭系统还原|当前速递
- 扫黑决战故事原型是谁,扫黑决战演员表
- 徐佳宁现任妻子是谁,徐佳宁第一任妻子是谁 个人资料介绍
- 天天观焦点:傅经年现实原型,傅经年孙红雷电视剧 相关剧情简介
- 杨钰莹的老公是谁 杨钰莹简历 _天天快消息
- 个人养老金账户每月最低交多少?个人养老金和社保一样吗?
- 今天 到巫山、万州、贵阳有多趟列车加开_天天关注
- 全球观热点:jeans是什么牌子 主打哪些产品?
- 天天要闻:良辰美景你我共鉴 《剑网3》联动《不良人》点亮佳节
- 航海王热血航线厨师的心愿大盘鸡木须肉制作食谱配方介绍2023-环球速看
- 《原神》孤舰履孤云任务怎么玩 孤舰履孤云任务玩法一览_全球通讯
- 快报:dnf结婚条件介绍
- 【世界报资讯】利好助推游戏行业盈利有望改善 近6亿元主力资金布局5只概念股
- 《生化危机4:重制版》敌人AI进化 更加凶猛无比 世界速读
- 反向跳票!《死亡岛2》宣布制作完成
- 《忍龙》团队砍杀新作《通缉令:死亡》现已上市 天天即时看
- 世界热讯:2023保卫萝卜4财神雕塑礼包码兑换码分享
- 天天讯息:中金:降糖减肥市场存发展潜力 GLP-1RA有望迎来发展机遇
- dnf探险记快速满级攻略
- 暴雪停服、无人看好又如何!20多年,李培楠勇夺星际首冠!
- 箱庭小偶券快速获取攻略-焦点快报
- OpenAI CEO:ChatGPT很酷,但却是个“糟糕的产品”|每日头条
- 腾讯视频:多设备登录或被封号-焦点讯息
- 《红霞岛》主机版将支持鼠标和键盘 打人更方便
- 每经热评|谷歌答错一道题损失万亿市值 ChatGPT跟随者难题多多 消息
- 环球精选!“瑰香千里 患难有情” 中国政府援助叙利亚物资今晨启运
- 谷歌发布ChatGPT竞品为何犹犹豫豫?Alphabet董事长透露原因_视讯
- 金岩及团队鼓楼西开专场 “金广发宇宙秀”乐翻北京观众 通讯
- 《霍格沃茨之遗》登顶英国实体游戏销量榜|环球播报
- 《速激10》来袭:好莱坞大片近期选题续集为主 今日观点
- 育碧仍在开发《我的世界》风格像素游戏|今日快讯
- 推特“满屏尽是马斯克”,到底发生了什么? 环球滚动
- “高氏兄弟”引热议:剧集反派角色以反差萌出圈_天天最新
- 一张银行卡最多能存多少钱?普通人转账50万会查吗?
- 严防快递用户信息泄露 当前资讯
- 白日尽观山海城 日落夜入奇幻梦_天天看热讯
- 买车建议全款还是贷款?为什么贷款买车比全款便宜?
- 公积金取不出来有哪些原因?征信不好公积金能取出来吗?
- 昨日两市共106只个股发生大宗交易 总成交33.34亿元
- 借呗怎么提升额度?借呗额度多久提升一次?
- 全球资讯:开年首月信贷增长实现“开门红” 释放经济加快复苏信号
- 京东金条关闭注销方法有哪些?京东金条注销怎么恢复?
- 怎么看网贷是不是正规平台?靠谱的网贷平台有哪些?
- 有借呗入口但没有额度怎么办?借呗不申请会直接给额度吗?
- 怎么申请降低房贷利率?房贷转贷降息是骗局吗?
- 商务印书馆历史陈列馆向公众开放
- 【天天聚看点】《龙与地下城:侠盗荣耀》定档3月31日 五大职业英雄集结踏上夺宝之旅
- 公积金贷款买房有什么好处?公积金贷款买房有年龄限制吗?
- 楼市又火了!房贷可贷到80岁?银行、中介和律师有话要说 全球观点
- 环球讯息:《完美世界:诸神之战》情人节活动华丽上线
- 中信证券:行业底部明确,看好消费电子拐点向上|全球新资讯
- 当前报道:光大证券:新技术行情持续演绎 看好半固态、电解水制氢等各类新技术
- 本息转存和自动转存有什么区别?自动转存的利息怎么算
- 海南大力推动海洋科技创新 打造深海科技新高地-天天滚动
- 老年人定期存款怎么存?定期存款非本人能取吗?
- 老人理财的方式有哪些?老人理财被骗怎么办?
- 全球快资讯丨2022年风电光伏年发电量首超1万亿千瓦时
- 深耕蓝海,坚信“明天会更好”
- 澄迈县气象台发布大雾黄色预警【Ⅲ级/较重】【2023-02-14】
- 民生证券:ChatGPT或带来人形机器人下一拐点
- “天津老张”的笑与泪
- 人生最棒的礼物|滚动
- 抢抓数字经济发展新机遇 打造三亚经济新增长极
- 《春秋封神》x《苍兰诀》动画联动2月14日开启
- 《造梦大乱斗》鸾凤和鸣礼包已开放领取-全球简讯
- 《镇魂街:天生为王》花海守候 情人节礼包已开放领取 当前报道
- 世界即时看!谢娜为张杰庆生完整版_谢娜为张杰写的歌
- 《异世代:光与魔法》情人节礼包已开放领取
- 《我的起源》2月14号10:00浪漫公测
- 霍格沃茨之遗最低配置是什么
- 每日速看!猎聘:武汉节后招聘需求旺盛 IT/互联网、房地产/建筑、医疗健康行业就业机会多
- 环球微资讯!霍格沃茨之遗全部成就怎么达成
- 饥荒联机版怎么和朋友一起玩
- 全球热点评!吃饭坐小孩那桌梗意思介绍
- 奥比岛手游甜心小熊熊比特怎么获得
- 【世界时快讯】数读|24座万亿城市2022年成绩单出炉!哪六座城市被反超?
- 环球新资讯:春到枝头“芽”先醒 常州大地春耕忙
- 北京拥有人工智能核心企业1048家_新视野
- 江苏老师再出发!多地名师“组团式”援疆支教 全球观速讯
- 猴头菇怎么做_当前焦点
- 环球热消息:挑战极限!东风HondaCIVIC思域控场嘉年华“激情”北京站
- 镇魂街天生为王2023年2月13日兑换码是什么 2月13日全新礼包吗在哪领取
- 道友请留步2023年2月13日兑换码是什么 2月13日礼包兑换码在哪输入
- 世界观天下!《冒险王2》新服“妖狐兽“2月14日开启
- 海口举办首场高层次青年人才联谊交友活动
- 企业必备!《海南自由贸易港营商环境企业服务手册》请查收
- 全球观热点:世界癫痫日丨北京天坛医院癫痫科王群:癫痫发作应尽早就医
- 全球资讯:《2022年光电医美行业消费趋势报告》发布
- 这就是信心|一季度经济发展怎么干?北京突出五个关键字|世界视讯
- 今日讯!坐大巴去西部:“抢人”背后丨相对论·蹲点招工团
- 【新要闻】天津:开年“加速跑”
- 冬春季人呼吸道合胞病毒高发 如何防治?一文了解→
- 海南公积金拟出新规:推出个人住房贷款资产证券化及贴息贷款_环球微动态
- 关注:长寿时代来临 晚年生活如何更有质量?
- 云顶之弈s8幻灵女枪阵容如何搭配
- 新消息丨原神须弥水泡奇馈宝箱在哪 须弥水泡奇馈宝箱获取位置详解
- 【天天热闻】霍格沃茨之遗怎么琦扫帚 骑行扫帚方法
- 今日聚焦!崩坏星穹铁道青雀滔天牌浪成就怎么达成 青雀滔天牌浪成就达成攻略
- 环球播报:光遇2023同心节活动兑换图一览 光遇2.14情人节活动兑换内容是什么
- 全球微动态丨京东大药房连续7年销售增速超行业平均4倍
- 争当环保实践小卫士·学做环保知识小达人 华山街道文林社区开展未成年人卫生环保志愿服务活动 环球微速讯
- 美国纽约再次经历“血腥周末”:多地发生枪击案 至少2死9伤_环球时快讯
- 俄外长:美西方对主权平等原则没有尊重 认为自己高于一切
- 苏银理财:2022年管理产品376只 固收类占比72.87% 前沿热点
- 外交部:中方将同国际社会一道 积极支持、帮助土叙人民早日战胜灾害
- 全球今日讯!中欧班列连续33个月单月开行千列以上
- 周黑鸭:去年净利润不少于人民币2000万元 世界热消息
- 环球即时看!今日辟谣(2023年2月13日)
- 北交所网下打新将迎新规
- 焦点速读:中欧班列连续33个月单月开行千列以上
- 大侠立志传剑痴打法攻略详情
- 《原神》攻略——t0角色排行2023-全球热讯
- 【环球聚看点】2023年2月13日《万宁新闻》完整版
- 天天热议:崩坏星穹铁道角色强度排行一览
- 世界速看:原神3.6新角色白术技能详情
- 京东健康以生态、模式、服务、普惠“四位一体” 打造“全民全域健康消费第一入口” 每日快讯
- 山东科技职业学院获评省工信厅2022年度考核先进集体
- 租房热度上升 85.7%的意向租房人群选择整租|天天速看
- 世界时讯:《光遇》攻略——A大调前奏曲乐谱
- “和润雨水·美自天成”数字藏品即将发布
- 每日观点:美元兑人民币中间价突破6.81 人民币汇率是反弹还是反转?
- 上交所:以盘活存量为重点出台大类基础资产业务规则_世界快报
- 国台办:愿为恢复台湾农渔产品输入大陆提供帮助_全球热消息
- 焦点要闻:《2022年北京人工智能产业发展白皮书》重磅发布:支持头部企业打造对标ChatGPT的大模型
- 2022年全国风电、光伏发电新增装机达1.25亿千瓦
- 上交所:“四条线三层次”的沪市债券业务规则体系基本形成|当前独家
- 世界简讯:中航电测:不排除有关机构和个人进行内幕交易的可能
- 世界看热讯:崩坏星穹铁道沉默且闪耀任务完成攻略
- 陈小军到我市考察国家防震减灾科普教育基地建设工作-微资讯
- 反诈禁毒宣传进校园 上好开学“第一课”|热闻
- 速看:海南发布东坡文化古迹研学游线路 邀您一起与东坡“相遇”
- 全球焦点!海南省营商环境建设厅开通公众号 做好服务企业“店小二”
- 【新要闻】《蛋仔派对》老六地图怎么进方法
- 《光遇》情人节活动时间介绍2023
- 崩坏星穹铁道纸鹤任务道具在哪里|世界时快讯
- 幻塔怎么快速获得墨晶 幻塔墨晶获取方式
- 江苏两化融合水平连续八年全国第一-天天最资讯
- 恒华科技:控股子公司拟引入战投金融街资本 每日聚焦
- 每日短讯:?新热点爆发,ChatGPT倒车接人?
- 环球今亮点!中国光大水务:光大水务南京科技与光大环保订立水务建设分包协议
- 值得买:控股股东隋国栋拟减持不超3%股份
- 民生粥 | 一年之计在于春,满怀信心开好局
- 天天头条:海南:拟鼓励香港银行在海南自由贸易港设立分行或代表处
- 提前还贷或转贷暗藏风险!辽宁银保监局发提示 每日时讯
- 银行理财师对战ChatGPT 关于理财他们怎么作答?_环球播资讯
- 中国力量 全力驰援
- 以项目建设之“进”撑起高质量发展之“稳”
- 《觅长生》清心咒怎么获取 清心咒获取方式-全球通讯