123,123

長(zhǎng)沙大數(shù)據(jù)培訓(xùn)需要掌握哪些內(nèi)容

發(fā)布時(shí)間：2022-01-22 11:52:57

長(zhǎng)沙大數(shù)據(jù)開(kāi)發(fā)怎么樣

一、數(shù)據(jù)采集與預(yù)處理

數(shù)據(jù)采集就是將這些包括移動(dòng)互聯(lián)網(wǎng)數(shù)據(jù)、社交網(wǎng)絡(luò)的數(shù)據(jù)等各種來(lái)源的數(shù)據(jù)，寫(xiě)入數(shù)據(jù)倉(cāng)庫(kù)中，把零散的數(shù)據(jù)整合在一起，對(duì)這些數(shù)據(jù)進(jìn)行綜合分析。Flume NG作為實(shí)時(shí)日志收集系統(tǒng)，支持在日志系統(tǒng)中定制各類(lèi)數(shù)據(jù)發(fā)送方，用于收集數(shù)據(jù)，同時(shí)，對(duì)數(shù)據(jù)進(jìn)行簡(jiǎn)單處理，并寫(xiě)到各種數(shù)據(jù)接收方(比如文本，HDFS，Hbase等)。NDC，Netease Data Canal，直譯為網(wǎng)易數(shù)據(jù)運(yùn)河系統(tǒng)，是網(wǎng)易針對(duì)結(jié)構(gòu)化數(shù)據(jù)庫(kù)的數(shù)據(jù)實(shí)時(shí)遷移、同步和訂閱的平臺(tái)化解決方案。Logstash是開(kāi)源的服務(wù)器端數(shù)據(jù)處理管道，能夠同時(shí)從多個(gè)來(lái)源采集數(shù)據(jù)、轉(zhuǎn)換數(shù)據(jù)，然后將數(shù)據(jù)發(fā)送到您最喜歡的 “存儲(chǔ)庫(kù)” 中。

Sqoop，用來(lái)將關(guān)系型數(shù)據(jù)庫(kù)和Hadoop中的數(shù)據(jù)進(jìn)行相互轉(zhuǎn)移的工具，可以將一個(gè)關(guān)系型數(shù)據(jù)庫(kù)(例如Mysql、Oracle)中的數(shù)據(jù)導(dǎo)入到Hadoop(例如HDFS、Hive、Hbase)中，也可以將Hadoop(例如HDFS、Hive、Hbase)中的數(shù)據(jù)導(dǎo)入到關(guān)系型數(shù)據(jù)庫(kù)(例如Mysql、Oracle)中。Strom集群結(jié)構(gòu)是有一個(gè)主節(jié)點(diǎn)(nimbus)和多個(gè)工作節(jié)點(diǎn)(supervisor)組成的主從結(jié)構(gòu)，主節(jié)點(diǎn)通過(guò)配置靜態(tài)指定或者在運(yùn)行時(shí)動(dòng)態(tài)選舉，nimbus與supervisor都是Storm提供的后臺(tái)守護(hù)進(jìn)程，之間的通信是結(jié)合Zookeeper的狀態(tài)變更通知和監(jiān)控通知來(lái)處理。Zookeeper是一個(gè)分布式的，開(kāi)放源碼的分布式應(yīng)用程序協(xié)調(diào)服務(wù)，提供數(shù)據(jù)同步服務(wù)。

二、數(shù)據(jù)存儲(chǔ)

Hadoop作為一個(gè)開(kāi)源的框架，專(zhuān)為離線(xiàn)和大規(guī)模數(shù)據(jù)分析而設(shè)計(jì)，HDFS作為其核心的存儲(chǔ)引擎，已被廣泛用于數(shù)據(jù)存儲(chǔ)。HBase，是一個(gè)分布式的、面向列的開(kāi)源數(shù)據(jù)庫(kù)，可以認(rèn)為是hdfs的封裝，本質(zhì)是數(shù)據(jù)存儲(chǔ)、NoSQL數(shù)據(jù)庫(kù)。Phoenix，相當(dāng)于一個(gè)Java中間件，幫助開(kāi)發(fā)工程師能夠像使用JDBC訪(fǎng)問(wèn)關(guān)系型數(shù)據(jù)庫(kù)一樣訪(fǎng)問(wèn)NoSQL數(shù)據(jù)庫(kù)HBase。Yarn是一種Hadoop資源管理器，可為上層應(yīng)用提供統(tǒng)一的資源管理和調(diào)度，它的引入為集群在利用率、資源統(tǒng)一管理和數(shù)據(jù)共享等方面帶來(lái)了巨大好處。Mesos是一款開(kāi)源的集群管理軟件，支持Hadoop、ElasticSearch、Spark、Storm 和Kafka等應(yīng)用架構(gòu)。Redis是一種速度非�？斓姆顷P(guān)系數(shù)據(jù)庫(kù)，可以存儲(chǔ)鍵與5種不同類(lèi)型的值之間的映射，可以將存儲(chǔ)在內(nèi)存的鍵值對(duì)數(shù)據(jù)持久化到硬盤(pán)中，使用復(fù)制特性來(lái)擴(kuò)展性能，還可以使用客戶(hù)端分片來(lái)擴(kuò)展寫(xiě)性能。Atlas是一個(gè)位于應(yīng)用程序與MySQL之間的中間件。Kudu是圍繞Hadoop生態(tài)圈建立的存儲(chǔ)引擎，Kudu擁有和Hadoop生態(tài)圈共同的設(shè)計(jì)理念，它運(yùn)行在普通的服務(wù)器上、可分布式規(guī)�；渴�、并且滿(mǎn)足工業(yè)界的高可用要求。

三、數(shù)據(jù)清洗

MapReduce作為Hadoop的查詢(xún)引擎，用于大規(guī)模數(shù)據(jù)集的并行計(jì)算，”Map(映射)”和”Reduce(歸約)”，是它的主要思想。它極大的方便了編程人員在不會(huì)分布式并行編程的情況下，將自己的程序運(yùn)行在分布式系統(tǒng)中。

隨著業(yè)務(wù)數(shù)據(jù)量的增多，需要進(jìn)行訓(xùn)練和清洗的數(shù)據(jù)會(huì)變得越來(lái)越復(fù)雜，這個(gè)時(shí)候就需要任務(wù)調(diào)度系統(tǒng)，比如oozie或者azkaban，對(duì)關(guān)鍵任務(wù)進(jìn)行調(diào)度和監(jiān)控。

四、數(shù)據(jù)查詢(xún)分析

Hive的核心工作就是把SQL語(yǔ)句翻譯成MR程序，可以將結(jié)構(gòu)化的數(shù)據(jù)映射為一張數(shù)據(jù)庫(kù)表，并提供 HQL(Hive SQL)查詢(xún)功能。Hive是為大數(shù)據(jù)批量處理而生的，Hive的出現(xiàn)解決了傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)(MySql、Oracle)在大數(shù)據(jù)處理上的瓶頸Impala是對(duì)Hive的一個(gè)補(bǔ)充，可以實(shí)現(xiàn)高效的SQL查詢(xún)。使用Impala來(lái)實(shí)現(xiàn)SQL on Hadoop，用來(lái)進(jìn)行大數(shù)據(jù)實(shí)時(shí)查詢(xún)分析。Spark擁有Hadoop MapReduce所具有的特點(diǎn)，它將Job中間輸出結(jié)果保存在內(nèi)存中，從而不需要讀取HDFS。Spark 啟用了內(nèi)存分布數(shù)據(jù)集，除了能夠提供交互式查詢(xún)外，它還可以?xún)?yōu)化迭代工作負(fù)載。Nutch 是一個(gè)開(kāi)源Java 實(shí)現(xiàn)的搜索引擎。它提供了我們運(yùn)行自己的搜索引擎所需的全部工具，包括全文搜索和Web爬蟲(chóng)。Solr用Java編寫(xiě)、運(yùn)行在Servlet容器(如Apache Tomcat或Jetty)的一個(gè)獨(dú)立的企業(yè)級(jí)搜索應(yīng)用的全文搜索服務(wù)器。Elasticsearch是一個(gè)開(kāi)源的全文搜索引擎，基于Lucene的搜索服務(wù)器，可以快速的儲(chǔ)存、搜索和分析海量的數(shù)據(jù)。

五、數(shù)據(jù)可視化

對(duì)接一些BI平臺(tái)，將分析得到的數(shù)據(jù)進(jìn)行可視化，用于指導(dǎo)決策服務(wù)。主流的BI平臺(tái)比如，國(guó)外的敏捷BI Tableau、Qlikview、PowrerBI等，國(guó)內(nèi)的SmallBI和新興的網(wǎng)易有數(shù)等。大數(shù)據(jù)技術(shù)的體系龐大且復(fù)雜，每年都會(huì)涌現(xiàn)出大量新的技術(shù)，目前大數(shù)據(jù)行業(yè)所涉及到的核心技術(shù)主要就是：數(shù)據(jù)采集、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)清洗、數(shù)據(jù)查詢(xún)分析和數(shù)據(jù)可視化。

以上文章由長(zhǎng)沙牛耳教育課程顧問(wèn)整理編輯發(fā)布，部分文章來(lái)自網(wǎng)絡(luò)內(nèi)容真實(shí)性請(qǐng)自行核實(shí)或聯(lián)系我們，了解相關(guān)專(zhuān)業(yè)課程信息您可在線(xiàn)咨詢(xún)也可免費(fèi)申請(qǐng)?jiān)囌n。關(guān)注官方微信了解更多：150 3333 6050

免費(fèi) 申請(qǐng) 試課

推薦課程