數據分析專員需要掌握什么技能?
數學知識
對于初級數據分析師來說,則需要了解統計相關的基礎性內容,公式計算,統計模型等。當你獲得一份數據集時,需要先進行了解數據集的質量,進行描述統計。
而對于高級數據分析師,必須具備統計模型的能力,線性代數也要有一定的了解。
分析工具
對于分析工具,SQL 是必須會的,還有要熟悉Excel數據透視表和公式的使用,另外,還要學會一個統計分析工具,SAS作為入門是比較好的,VBA 基本必備,SPSS/SAS/R 至少要熟練使用其中之一,其他分析工具(如 Matlab)可以視情況而定。
編程語言
數據分析領域最熱門的兩大語言是 R 和 Python。涉及各類統計函數和工具的調用,R無疑有優勢。但是大數據量的處理力不足,學習曲線比較陡峭。Python 適用性強,可以將分析的過程腳本化。所以,如果你想在這一領域有所發展,學習 Python 也是相當有必要的。
當然其他編程語言也是需要掌握的。要有獨立把數據化為己用的能力, 這其中SQL 是最基本的,你必須會用 SQL 查詢數據、會快速寫程序分析數據。當然,編程技術不需要達到軟件工程師的水平。要想更深入的分析問題你可能還會用到:Exploratory analysis skills、Optimization、Simulation、Machine Learning、Data Mining、Modeling 等。
業務理解
對業務的理解是數據分析師工作的基礎,數據的獲取方案、指標的選取、還有最終結論的洞察,都依賴于數據分析師對業務本身的理解。
對于初級數據分析師,主要工作是提取數據和做一些簡單圖表,以及少量的洞察結論,擁有對業務的基本了解就可以。對于高級數據分析師,需要對業務有較為深入的了解,能夠基于數據,提煉出有效觀點,對實際業務能有所幫助。對于數據挖掘工程師,對業務有基本了解就可以,重點還是需要放在發揮自己的技術能力上。
邏輯思維
對于初級數據分析師,邏輯思維主要體現在數據分析過程中每一步都有目的性,知道自己需要用什么樣的手段,達到什么樣的目標。對于高級數據分析師,邏輯思維主要體現在搭建完整有效的分析框架,了解分析對象之間的關聯關系,清楚每一個指標變化的前因后果,會給業務帶來的影響。對于數據挖掘工程師,羅輯思維除了體現在和業務相關的分析工作上,還包括算法邏輯,程序邏輯等,所以對邏輯思維的要求也是最高的。
數據可視化
數據可視化主要借助于圖形化手段,清晰有效地傳達與溝通信息。聽起來很高大上,其實包括的范圍很廣,做個 PPT 里邊放上數據圖表也可以算是數據可視化。
對于初級數據分析師,能用 Excel 和 PPT 做出基本的圖表和報告,能清楚地展示數據,就達到目標了。對于稍高級的數據分析師,需要使用更有效的數據分析工具,根據實際需求做出或簡單或復雜,但適合受眾觀看的數據可視化內容。
協調溝通
數據分析師不僅需要具備破譯數據的能力,也經常被要求向項目經理和部門主管提供有關某些數據點的建議,所以,你需要有較強的交流能力。
對于高級數據分析師,需要開始獨立帶項目,或者和產品做一些合作,因此除了溝通能力以外,還需要一些項目協調能力。
1 數據分析,一定要有精強的EXCEL表格數據處理能力.
2 要有政策敏感性,分析數據,關鍵點在分析上,要對行業及企業的數據對政策等都有較強的理解能力,信息收集能力.
3 要有對企業行業的本質管理有明確的思維,要擅于挖掘數據之間的關系及反應出來的問題,與經營管理有連帶關系.
4 需要為上級領導制定可以影響商業績效的策略和行動計劃,因此要有橫向縱向分析的能力.
5 要熟悉PPT SPSS等資料匯總的方法.
6 要針對財務數據分盈余利潤等,因此也要有財務管理及成本核算的基礎知識.
7 不同行業還有不同要求,比如說工民建的知識,工程造價的知識,銷售管理知識等等.這一行需要沉淀,不過從事得當并有突破后,極易成為成功人士,為未來奠定極好的基礎.
加油吧,一定會成功的,書就不必多買了,網絡是個大染缸,你看確定行業,或者喜愛的行業方向后,有不同的選擇.
統計相關的數學知識
數學知識是數據分析師的基礎知識。
對于初級數據分析師,了解一些描述統計相關的基礎內容,有一定的公式計算能力即可,了解常用統計模型算法則是加分。
對于高級數據分析師,統計模型相關知識是必備能力,線性代數(主要是矩陣計算相關知識)最好也有一定的了解。
而對于數據挖掘工程師,除了統計學以外,各類算法也需要熟練使用,對數學的要求是最高的。
趁手的工具
對于初級數據分析師,玩轉Excel是必須的,數據透視表和公式使用必須熟練,VBA是加分。另外,還要學會一個統計分析工具,SPSS作為入門是比較好的。
對于高級數據分析師,使用分析工具是核心能力,VBA基本必備,SPSS/SAS/R至少要熟練使用其中之一,其他分析工具(如Matlab)視情況而定。
對于數據挖掘工程師……嗯,會用用Excel就行了,主要工作要靠寫代碼來解決呢。
Python語言
對于初級數據分析師,會寫SQL查詢,有需要的話寫寫Hadoop和Hive查詢,基本就OK了。
對于高級數據分析師,除了SQL以外,學習Python是很有必要的,用來獲取和處理數據都是事半功倍。當然其他編程語言也是可以的。
對于數據挖掘工程師,Hadoop得熟悉,Python/Java/C++至少得熟悉一門,Shell得會用……總之編程語言絕對是數據挖掘工程師的最核心能力了。
業務理解能力
業務理解說是數據分析師所有工作的基礎也不為過,數據的獲取方案、指標的選取、乃至最終結論的洞察,都依賴于數據分析師對業務本身的理解。
對于初級數據分析師,主要工作是提取數據和做一些簡單圖表,以及少量的洞察結論,擁有對業務的基本了解就可以。
對于高級數據分析師,需要對業務有較為深入的了解,能夠基于數據,提煉出有效觀點,對實際業務能有所幫助。
對于數據挖掘工程師,對業務有基本了解就可以,重點還是需要放在發揮自己的技術能力上。
邏輯思維
理工男都具有的思維。
對于初級數據分析師,邏輯思維主要體現在數據分析過程中每一步都有目的性,知道自己需要用什么樣的手段,達到什么樣的目標。
對于高級數據分析師,邏輯思維主要體現在搭建完整有效的分析框架,了解分析對象之間的關聯關系,清楚每一個指標變化的前因后果,會給業務帶來的影響。
對于數據挖掘工程師,邏輯思維除了體現在和業務相關的分析工作上,還包括算法邏輯,程序邏輯等,所以對邏輯思維的要求也是最高的。
大數據可視化工具
數據可視化說起來很高大上,其實包括的范圍很廣,做個PPT里邊放上數據圖表也可以算是數據可視化,所以我認為這是一項普遍需要的能力。
對于初級數據分析師,能用Excel和PPT做出基本的圖表和報告,能清楚的展示數據,就達到目標了。
對于高級數據分析師,需要探尋更好的數據可視化方法,使用更有效的數據可視化工具,如可視化工具tableau,根據實際需求做出或簡單或復雜,但適合受眾觀看的數據可視化內容。
對于數據挖掘工程師,了解一些數據可視化工具是有必要的,也要根據需求做一些復雜的可視化圖表,但通常不需要考慮太多美化的問題。
協調溝通
不是業務,勝似業務!
對于初級數據分析師,了解業務、尋找數據、講解報告,都需要和不同部門的人打交道,因此溝通能力很重要。
對于高級數據分析師,需要開始獨立帶項目,或者和產品做一些合作,因此除了溝通能力以外,還需要一些項目協調能力。
對于數據挖掘工程師,和人溝通技術方面內容偏多,業務方面相對少一些,對溝通協調的要求也相對低一些。
快速學習能力
哪個行業不喜歡愛學習的人呢?
無論做數據分析的哪個方向,初級還是高級,都需要有快速學習的能力,學業務邏輯、學行業知識、學技術工具、學分析框架……數據分析領域中有學不完的內容,需要大家有一顆時刻不忘學習的心。
想要獲取更多數據分析和職場相關資訊,歡迎關注我們的公眾號:聚數云海
CDA——數據分析師主要是在企業中扮演戰略參謀的角色,對企業各類運營、銷售、管理、戰略等數據進行分析,可以有效的規避運營風險和提升成本利用率。
常見工具如下:
Excel、Python、SPSS、SQL
要學習Python、R、SAS等編程工具;對數據倉庫需要了解可以去九道門做些實驗項目;如果你覺得還是難,那就采用最基礎的學習路徑,直接買MYSQL關系型數據庫的書看,隨便到網上去找個免費的MYSQL課程聽;;分布式存儲HDOOP需要簡單了解;云計算的技術作為了解就可以了;數據可視化不是很難,如果不要求特別美工的話,大家先理解圖表,再研究研究儀表板,阿里云的Quich BI及DataV,百度的echarts都不錯,主要是展示的業務結構需要規劃;大數據技術:這個相對來說有些難度,如果是學數學統計類專業小伙伴就非常有優勢了,其他專業的小伙伴也不用擔心,畢竟工作后還可以繼續學習,在工作中用的比較多的是聚類、關聯、決策樹、線性回歸等,如果你不去做模型和算法工程師那么只需要會用就可以了,實在不行有專業的工具讓我們用,阿里云的機器學習PAN是可以直接出結果的工具;??梢缘教斐卮筚惿先タ匆恍┌咐?,自己做做訓練。如果自學的小伙伴覺得很難堅持,那就只能去報班了,九道門之類的,如果要成為大數據分析師的話就要時間沉定,或者讓老師帶你,像我就是進到決明后由趙強老師帶了半年,現在基本上已經能熟練的搞這一套了。
學計算機技術將來能干什么工作?
成績不太理想上技校嗎?
建議你這樣試試看:
這樣做的好處:
注意事項:
一些家長和學生會有這樣的困惑。在學校里上學,學的知識根本就聽不懂,可是要是不上學出去打工,年齡又太小。所以許多家長就想把孩子送到技校里上學,于是就有了前面的疑問,初中沒畢業能上技校嗎?在這里,我可以肯定的告訴你,可以。
所謂“一技在手,天下任走”,當今的時代對專業化、精通化人才的需求已經十分的明顯。現在的行業發展已經趨于專業化的方向,全能型的人才固然十分的優秀但是那是極少數的人,目前的用人單位更注重人才的實用性,不在乎你是怎么來的而在乎的是你能做什么?,F在擁有一技之長才是最關鍵的。
3
隨著社會的發展,市場提供的技術型工作崗位越來越多。技能型人才與高校生相比,不僅容易就業,同時更容易獲得高薪職位。初中沒畢業上技校,現在學什么技術好呢?人們都處在網絡飛速發展的時代,IT行業擺在了越來越重要的位置。網絡計算機工程師,作為IT行業中的靈魂,也隨之成為當前社會十大高薪職業之一,成了名副其實的香餑餑。中國的IT行業雖然起步較晚,但是發展非常快,中國的網民已經躍居世界第一。由此可以預見,中國將逐漸轉變成一個真正的IT大國。 IT技術作為高新技術,學好了IT技術,輕松就業不是夢。
4
初中生正處于學習知識的時期,悟性較高、學習速度較快,并且因為大多數人從小接觸電腦,現在從開始學習計算機技術,一定能把這門熱門技術學好,畢業之后輕松找到好工作。
所以對于沒有畢業的初中生來說,學習一門技術是一個不錯的選擇。現在是一個信息化的時代,IT行業的發展已經勢不可擋,所以選擇一個合適的專業,能夠成就你的完美人生。
計算機行業分為四大類:
1、軟件編程:前途大好,好多軟件開發單位都需要這樣的人才,經驗和能力很重要,作息時間比較混亂,加班常有,但薪水也高,不用擔心失業和飯碗問題。
2、硬件、網絡工程:適合網管和技術支持,同樣經驗和能力很重要,更要敬業,比較辛苦,而且反應力要好,如果網絡或硬件出了問題,能馬上找到癥結并快速解決,前途看好,薪水還不錯。
3、作圖、設計:對藝術鑒賞力和創造力要求較高,有成功案例作品,創意好,視覺效果好,可以從事廣告設計、室內設計、動畫設計等平面的、立體的設計策劃工作。
4、互聯網相關:包括電子商務,網絡營銷,互聯網+相關技術支持。技術含量雖然不高,但是學的東西比較雜,思維想法很重要,戰略戰術很重要。喜歡把各種資源整合起來實現利益最大的話的人適合做,要求口才好,善于溝通。
軟件工程師
軟件工程師一般從事軟件開發,程序開發。根據智聯招聘網的統計數據顯示,軟件工程師的年薪在10萬元左右。據了解,目前在軟件行業內部,能夠進行軟件整體開發設計的軟件設計人員比較稀缺,也因此造成了軟件開發就業好前景。
在中國,國內市場對軟件人才的需求每年高達80萬人,而高校計算機畢業生中的軟件工程人才還很缺乏,尤其是高素質的軟件工程人才的極度短缺。未來幾年,國內外高層次軟件人才將供不應求。有數據表明,我國軟件出口規模達到215億元,軟件從業人員達到72萬人,在中國十大IT職場人氣職位中,軟件工程師位列第一位,軟件開發的就業的就業前景十分樂觀。
網絡安全與管理工程師
學生畢業后可以在計算機網絡公司、軟件公司、科研部門、教育單位和行政管理部門及現代化企業,從事計算機安全系統的研究、設計、開發和管理工作,也可在IT領域從事網絡日常管理與維護、網站設計與開發、網絡數據庫的應用與維護工作或信息安全產品銷售與服務等工作。值得一提的是,網絡的安全建設對于當今社會來說尤為重要,因為,現代人的生活與網絡的聯系越來越密切,網絡安全與管理工程師可以使網站對黑客攻擊進行防御,避免因此帶來的損失,網絡安全技術已成為信息技術中突現的重點,尤其是在電子商務迅速發展的年代,網絡安全就顯得至關重要。從而導致了網絡安全人才的需求量逐漸增長,并且薪資待遇也是可觀的。
編程語言工程師
根據IDC的統計數字,在所有軟件開發類人才的需求中,對Java工程師的需求達到全部需求量的60%——70%。Java工程師是一項很有發展前景的職業,其他軟件技術當是只有C++可以比得上,像VB、VC等編程語言前景都不如Java,C++。特別是Java學好了以后,可以很輕松地學會JSP,JSP網絡編程在國外很流行。Java工程師的比window類編程的程序員薪水相對較高,通常來說,具有2——4年開發經驗的工程師,擁有年薪10萬元是很正常的一個薪酬水平。
游戲與動漫設計師
中國有廣闊的游戲動漫市場,各地動漫產業發展計劃的制定更是如火如荼,紛紛打造自己的“動漫之都”。深圳開始著力打造國際一流的動漫產業中心;上海、廣州、福州已初步形成以網絡游戲、動畫、手機游戲、單機游戲和與游戲相關的產業鏈。學生學成后可以在動漫游戲公司、玩具公司、網絡公司、手機游戲公司、動漫培訓機構等動漫相關企業,擔任游戲策劃師、動漫原畫設計師、
軟件工程師
軟件工程師一般從事軟件開發,程序開發。根據智聯招聘網的統計數據顯示,軟件工程師的年薪在10萬元左右。據了解,目前在軟件行業內部,能夠進行軟件整體開發設計的軟件設計人員比較稀缺,也因此造成了軟件開發就業好前景。
在中國,國內市場對軟件人才的需求每年高達80萬人,而高校計算機畢業生中的軟件工程人才還很缺乏,尤其是高素質的軟件工程人才的極度短缺。未來幾年,國內外高層次軟件人才將供不應求。有數據表明,我國軟件出口規模達到215億元,軟件從業人員達到72萬人,在中國十大IT職場人氣職位中,軟件工程師位列第一位,軟件開發的就業的就業前景十分樂觀。
網絡安全與管理工程師
學生畢業后可以在計算機網絡公司、軟件公司、科研部門、教育單位和行政管理部門及現代化企業,從事計算機安全系統的研究、設計、開發和管理工作,也可在IT領域從事網絡日常管理與維護、網站設計與開發、網絡數據庫的應用與維護工作或信息安全產品銷售與服務等工作。值得一提的是,網絡的安全建設對于當今社會來說尤為重要,因為,現代人的生活與網絡的聯系越來越密切,網絡安全與管理工程師可以使網站對黑客攻擊進行防御,避免因此帶來的損失,網絡安全技術已成為信息技術中突現的重點,尤其是在電子商務迅速發展的年代,網絡安全就顯得至關重要。從而導致了網絡安全人才的需求量逐漸增長,并且薪資待遇也是可觀的。
編程語言工程師
根據IDC的統計數字,在所有軟件開發類人才的需求中,對Java工程師的需求達到全部需求量的60%——70%。Java工程師是一項很有發展前景的職業,其他軟件技術當是只有C++可以比得上,像VB、VC等編程語言前景都不如Java,C++。特別是Java學好了以后,可以很輕松地學會JSP,JSP網絡編程在國外很流行。Java工程師的比window類編程的程序員薪水相對較高,通常來說,具有2——4年開發經驗的工程師,擁有年薪10萬元是很正常的一個薪酬水平。
游戲與動漫設計師
中國有廣闊的游戲動漫市場,各地動漫產業發展計劃的制定更是如火如荼,紛紛打造自己的“動漫之都”。深圳開始著力打造國際一流的動漫產業中心;上海、廣州、福州已初步形成以網絡游戲、動畫、手機游戲、單機游戲和與游戲相關的產業鏈。學生學成后可以在動漫游戲公司、玩具公司、網絡公司、手機游戲公司、動漫培訓機構等動漫相關企業,擔任游戲策劃師、動漫原畫設計師、
像 軟件編輯
軟件工程師軟件工程師一般從事軟件開發,程序開發。根據智聯招聘網的統計數據顯示,軟件工程師的年薪在10萬元左右。據了解,目前在軟件行業內部,能夠進行軟件整體開發設計的軟件設計人員比較稀缺,也因此造成了軟件開發就業好前景。在中國,國內市場對軟件人才的需求每年高達80萬人,而高校計算機畢業生中的軟件工程人才還很缺乏,尤其是高素質的軟件工程人才的極度短缺。未來幾年,國內外高層次軟件人才將供不應求。有數據表明,我國軟件出口規模達到215億元,軟件從業人員達到72萬人,在中國十大IT職場人氣職位中,軟件工程師位列第一位,軟件開發的就業的就業前景十分樂觀。網絡安全與管理工程師學生畢業后可以在計算機網絡公司、軟件公司、科研部門、教育單位和行政管理部門及現代化企業,從事計算機安全系統的研究、設計、開發和管理工作,也可在IT領域從事網絡日常管理與維護、網站設計與開發、網絡數據庫的應用與維護工作或信息安全產品銷售與服務等工作。值得一提的是,網絡的安全建設對于當今社會來說尤為重要,因為,現代人的生活與網絡的聯系越來越密切,網絡安全與管理工程師可以使網站對黑客攻擊進行防御,避免因此帶來的損失,網絡安全技術已成為信息技術中突現的重點,尤其是在電子商務迅速發展的年代,網絡安全就顯得至關重要。從而導致了網絡安全人才的需求量逐漸增長,并且薪資待遇也是可觀的。編程語言工程師根據IDC的統計數字,在所有軟件開發類人才的需求中,對Java工程師的需求達到全部需求量的60%——70%。Java工程師是一項很有發展前景的職業,其他軟件技術當是只有C++可以比得上,像VB、VC等編程語言前景都不如Java,C++。特別是Java學好了以后,可以很輕松地學會JSP,JSP網絡編程在國外很流行。Java工程師的比window類編程的程序員薪水相對較高,通常來說,具有2——4年開發經驗的工程師,擁有年薪10萬元是很正常的一個薪酬水平。游戲與動漫設計師中國有廣闊的游戲動漫市場,各地動漫產業發展計劃的制定更是如火如荼,紛紛打造自己的“動漫之都”。深圳開始著力打造國際一流的動漫產業中心;上海、廣州、福州已初步形成以網絡游戲、動畫、手機游戲、單機游戲和與游戲相關的產業鏈。學生學成后可以在動漫游戲公司、玩具公司、網絡公司、手機游戲公司、動漫培訓機構等動漫相關企業,擔任游戲策劃師、動漫原畫設計師、
數據庫原理問題,急
根據下面所給的AAA數據庫,寫出每小題所能實現的功能。
假設使用名稱為AAA的數據庫,它包括Students(學號char(8),姓名varchar(8),年齡 intt
,專業varchar(20),入學日期DateTime)和Score(學號char(8),課程名varchar(10),成績numeric(5,2))兩張表。
1.selectx.學號,姓名,課程名,成績
from
Students.x,Score.y.
where x.學號=y.學號and成績>=80?
2.create procedure
xxk5
( @a char(8),@b varchar(10),@c
numeric(5,2)
)
as
begin
insert into
score
values(@a,@b,@c)
End (20 分)
1 .試述數據、數據庫、數據庫系統、數據庫管理系統的概念。
答:
( l )數據( Data ) :描述事物的符號記錄稱為數據。數據的種類有數字、文字、圖形、圖像、聲音、正文等。數據與其語義是不可分的。解析在現代計算機系統中數據的概念是廣義的。早期的計算機系統主要用于科學計算,處理的數據是整數、實數、浮點數等傳統數學中的數據?,F代計算機能存儲和處理的對象十分廣泛,表示這些對象的數據也越來越復雜。數據與其語義是不可分的。 500 這個數字可以表示一件物品的價格是 500 元,也可以表示一個學術會議參加的人數有 500 人,還可以表示一袋奶粉重 500 克。
( 2 )數據庫( DataBase ,簡稱 DB ) :數據庫是長期儲存在計算機內的、有組織的、可共享的數據集合。數據庫中的數據按一定的數據模型組織、描述和儲存,具有較小的冗余度、較高的數據獨立性和易擴展性,并可為各種用戶共享。
( 3 )數據庫系統( DataBas 。 Sytem ,簡稱 DBS ) :數據庫系統是指在計算機系統中引入數據庫后的系統構成,一般由數據庫、數據庫管理系統(及其開發工具)、應用系統、數據庫管理員構成。解析數據庫系統和數據庫是兩個概念。數據庫系統是一個人一機系統,數據庫是數據庫系統的一個組成部分。但是在日常工作中人們常常把數據庫系統簡稱為數據庫。希望讀者能夠從人們講話或文章的上下文中區分“數據庫系統”和“數據庫”,不要引起混淆。
( 4 )數據庫管理系統( DataBase Management sytem ,簡稱 DBMs ) :數據庫管理系統是位于用戶與操作系統之間的一層數據管理軟件,用于科學地組織和存儲數據、高效地獲取和維護數據。 DBMS 的主要功能包括數據定義功能、數據操縱功能、數據庫的運行管理功能、數據庫的建立和維護功能。解析 DBMS 是一個大型的復雜的軟件系統,是計算機中的基礎軟件。目前,專門研制 DBMS 的廠商及其研制的 DBMS 產品很多。著名的有美國 IBM 公司的 DBZ 關系數據庫管理系統和 IMS 層次數據庫管理系統、美國 Oracle 公司的 orade 關系數據庫管理系統、 s 油 ase 公司的 s 油 ase 關系數據庫管理系統、美國微軟公司的 SQL Serve ,關系數據庫管理系統等。
2 .使用數據庫系統有什么好處?
答:
使用數據庫系統的好處是由數據庫管理系統的特點或優點決定的。使用數據庫系統的好處很多,例如,可以大大提高應用開發的效率,方便用戶的使用,減輕數據庫系統管理人員維護的負擔,等等。使用數據庫系統可以大大提高應用開發的效率。因為在數據庫系統中應用程序不必考慮數據的定義、存儲和數據存取的具體路徑,這些工作都由 DBMS 來完成。用一個通俗的比喻,使用了 DBMS 就如有了一個好參謀、好助手,許多具體的技術工作都由這個助手來完成。開發人員就可以專注于應用邏輯的設計,而不必為數據管理的許許多多復雜的細節操心。還有,當應用邏輯改變,數據的邏輯結構也需要改變時,由于數據庫系統提供了數據與程序之間的獨立性,數據邏輯結構的改變是 DBA 的責任,開發人員不必修改應用程序,或者只需要修改很少的應用程序,從而既簡化了應用程序的編制,又大大減少了應用程序的維護和修改。使用數據庫系統可以減輕數據庫系統管理人員維護系統的負擔。因為 DBMS 在數據庫建立、運用和維護時對數據庫進行統一的管理和控制,包括數據的完整性、安全性、多用戶并發控制、故障恢復等,都由 DBMS 執行。總之,使用數據庫系統的優點是很多的,既便于數據的集中管理,控制數據冗余,提高數據的利用率和一致性,又有利于應用程序的開發和維護。讀者可以在自己今后的工作中結合具體應用,認真加以體會和總結。
3 .試述文件系統與數據庫系統的區別和聯系。
答:
文件系統與數據庫系統的區別是:文件系統面向某一應用程序,共享性差,冗余度大,數據獨立性差,記錄內有結構,整體無結構,由應用程序自己控制。數據庫系統面向現實世界,共享性高,冗余度小,具有較高的物理獨立性和一定的邏輯獨立性,整體結構化,用數據模型描述,由數據庫管理系統提供數據的安全性、完整性、并發控制和恢復能力。
文件系統與數據庫系統的聯系是:文件系統與數據庫系統都是計算機系統中管理數據的軟件。解析文件系統是操作系統的重要組成部分;而 DBMS 是獨立于操作系統的軟件。但是 DBMS 是在操作系統的基礎上實現的;數據庫中數據的組織和存儲是通過操作系統中的文件系統來實現的。
4 .舉出適合用文件系統而不是數據庫系統的例子;再舉出適合用數據庫系統的應用例子。答 :
( l )適用于文件系統而不是數據庫系統的應用例子數據的備份、軟件或應用程序使用過程中的臨時數據存儲一般使用文件比較合適。早期功能比較簡單、比較固定的應用系統也適合用文件系統。
( 2 )適用于數據庫系統而非文件系統的應用例子目前,幾乎所有企業或部門的信息系統都以數據庫系統為基礎,都使用數據庫。例如,一個工廠的管理信息系統(其中會包括許多子系統,如庫存管理系統、物資采購系統、作業調度系統、設備管理系統、人事管理系統等),學校的學生管理系統,人事管理系統,圖書館的圖書管理系統,等等,都適合用數據庫系統。希望讀者能舉出自己了解的應用例子。
5 .試述數據庫系統的特點。
答:
數據庫系統的主要特點有:
( l )數據結構化數據庫系統實現整體數據的結構化,這是數據庫的主要特征之一,也是數據庫系統與文件系統的本質區別。解析注意這里的“整體’夕兩個字。在數據庫系統中,數據不再針對某一個應用,而是面向全組織,具有整體的結構化。不僅數據是結構化的,而且數據的存取單位即一次可以存取數據的大小也很靈活,可以小到某一個數據項(如一個學生的姓名),大到一組記錄(成千上萬個學生記錄)。而在文件系統中,數據的存取單位只有一個:記錄,如一個學生的完整記錄。
( 2 )數據的共享性高,冗余度低,易擴充數據庫的數據不再面向某個應用而是面向整個系統,因此可以被多個用戶、多個應用以多種不同的語言共享使用。由于數據面向整個系統,是有結構的數據,不僅可以被多個應用共享使用,而且容易增加新的應用,這就使得數據庫系統彈性大,易于擴充。解析數據共享可以大大減少數據冗余,節約存儲空間,同時還能夠避免數據之間的不相容性與不一致性。所謂“數據面向某個應用”是指數據結構是針對某個應用設計的,只被這個應用程序或應用系統使用,可以說數據是某個應用的“私有資源”。所謂“彈性大”是指系統容易擴充也容易收縮,即應用增加或減少時不必修改整個數據庫的結構,只需做很少的改動??梢匀≌w數據的各種子集用于不同的應用系統,當應用需求改變或增加時,只要重新選取不同的子集或加上一部分數據,便可以滿足新的需求。
( 3 )數據獨立性高數據獨立性包括數據的物理獨立性和數據的邏輯獨立性。數據庫管理系統的模式結構和二級映像功能保證了數據庫中的數據具有很高的物理獨立性和邏輯獨立性。
( 4 )數據由 DBMS 統一管理和控制數據庫的共享是并發的共享,即多個用戶可以同時存取數據庫中的數據甚至可以同時存取數據庫中同一個數據。為此, DBMS 必須提供統一的數據控制功能,包括數據的安全性保護、數據的完整性檢查、并發控制和數據庫恢復。解析 DBMS 數據控制功能包括四個方面:數據的安全性保護:保護數據以防止不合法的使用造成的數據的泄密和破壞;數據的完整性檢查:將數據控制在有效的范圍內,或保證數據之間滿足一定的關系;并發控制:對多用戶的并發操作加以控制和協調,保證并發操作的正確性;數據庫恢復:當計算機系統發生硬件故障、軟件故障,或者由于操作員的失誤以及故意的破壞影響數據庫中數據的正確性,甚至造成數據庫部分或全部數據的丟失時,能將數據庫從錯誤狀態恢復到某一已知的正確狀態(亦稱為完整狀態或一致狀態)。下面可以得到“什么是數據庫”的一個定義:數據庫是長期存儲在計算機內有組織的大量的共享的數據集合,它可以供各種用戶共享,具有最小冗余度和較高的數據獨立性。 DBMS 在數據庫建立、運用和維護時對數據庫進行統一控制,以保證數據的完整性、安全性,并在多用戶同時使用數據庫時進行并發控制,在發生故障后對系統進行恢復。數據庫系統的出現使信息系統從以加工數據的程序為中心轉向圍繞共享的數據庫為中心的新階段。
6 .數據庫管理系統的主要功能有哪些?
答:
( l )數據庫定義功能;
( 2 )數據存取功能;
( 3 )數據庫運行管理;
( 4 )數據庫的建立和維護功能。
7 .試述數據模型的概念、數據模型的作用和數據模型的三個要素。
答:
數據模型是數據庫中用來對現實世界進行抽象的工具,是數據庫中用于提供信息表示和操作手段的形式構架。一般地講,數據模型是嚴格定義的概念的集合。這些概念精確描述了系統的靜態特性、動態特性和完整性約束條件。因此數據模型通常由數據結構、數據操作和完整性約束三部分組成。
( l )數據結構:是所研究的對象類型的集合,是對系統靜態特性的描述。
( 2 )數據操作:是指對數據庫中各種對象(型)的實例(值)允許進行的操作的集合,包括操作及有關的操作規則,是對系統動態特性的描述。
( 3 )數據的約束條件:是一組完整性規則的集合。完整性規則是給定的數據模型中數據及其聯系所具有的制約和依存規則,用以限定符合數據模型的數據庫狀態以及狀態的變化,以保證數據的正確、有效、相容。解析數據模型是數據庫系統中最重要的概念之一。必須通過 《 概論 》 的學習真正掌握數據模型的概念和作用。數據模型是數據庫系統的基礎。任何一個 DBMS 都以某一個數據模型為基礎,或者說支持某一個數據模型。數據庫系統中,模型有不同的層次。根據模型應用的不同目的,可以將模型分成兩類或者說兩個層次:一類是概念模型,是按用戶的觀點來對數據和信息建模,用于信息世界的建模,強調語義表達能力,概念簡單清晰;另一類是數據模型,是按計算機系統的觀點對數據建模,用于機器世界,人們可以用它定義、操縱數據庫中的數據,一般需要有嚴格的形式化定義和一組嚴格定義了語法和語義的語言,并有一些規定和限制,便于在機器上實現。
8 .試述概念模型的作用。
答:
概念模型實際上是現實世界到機器世界的一個中間層次。概念模型用于信息世界的建模,是現實世界到信息世界的第一層抽象,是數據庫設計人員進行數據庫設計的有力工具,也是數據庫設計人員和用戶之間進行交流的語言。
9 .定義并解釋概念模型中以下術語:實體,實體型,實體集,屬性,碼,實體聯系圖( E 一 R 圖)
答:
實體:客觀存在并可以相互區分的事物叫實體。實體型:具有相同屬性的實體具有相同的特征和性質,用實體名及其屬性名集合來抽象和刻畫同類實體,稱為實體型。實體集:同型實體的集合稱為實體集。屬性:實體所具有的某一特性,一個實體可由若干個屬性來刻畫。碼:惟一標識實體的屬性集稱為碼。實體聯系圖( E 一 R 圖):提供了表示實體型、屬性和聯系的方法: ? 實體型:用矩形表示,矩形框內寫明實體名; ? 屬性:用橢圓形表示,并用無向邊將其與相應的實體連接起來; ? 聯系:用菱形表示,菱形框內寫明聯系名,并用無向邊分別與有關實體連接起來,同時在無向邊旁標上聯系的類型( 1 : 1 , 1 : n 或 m : n )。
17 .試述網狀、層次數據庫的優缺點。
答:
層次模型的優點主要有: ( l )模型簡單,對具有一對多層次關系的部門描述非常自然、直觀,容易理解,這是層次數據庫的突出優點; ( 2 )用層次模型的應用系統性能好,特別是對于那些實體間聯系是固定的且預先定義好的應用,采用層次模型來實現,其性能優于關系模型; ( 3 )層次數據模型提供了良好的完整性支持。
層次模型的缺點主要有: ( l )現實世界中很多聯系是非層次性的,如多對多聯系、一個結點具有多個雙親等,層次模型不能自然地表示這類聯系,只能通過引入冗余數據或引入虛擬結點來解決; ( 2 )對插入和刪除操作的限制比較多; ( 3 )查詢子女結點必須通過雙親結點。
網狀數據模型的優點主要有: ( l )能夠更為直接地描述現實世界,如一個結點可以有多個雙親; ( 2 )具有良好的性能,存取效率較高。
網狀數據模型的缺點主要有: ( l )結構比較復雜,而且隨著應用環境的擴大,數據庫的結構就變得越來越復雜,不利于最終用戶掌握; ( 2 )其 DDL 、 DML 語言復雜,用戶不容易使用。由于記錄之間聯系是通過存取路徑實現的,應用程序在訪問數據時必須選擇適當的存取路徑。因此,用戶必須了解系統結構的細節,加重了編寫應用程序的負擔。
18 .試述關系模型的概念,定義并解釋以下術語: ( l )關系( 2 )屬性( 3 )域( 4 )元組 ( 5 )主碼( 6 )分量( 7 )關系模式
答:
關系模型由關系數據結構、關系操作集合和關系完整性約束三部分組成。在用戶觀點下,關系模型中數據的邏輯結構是一張二維表,它由行和列組成。 ( l )關系:一個關系對應通常說的一張表; ( 2 )屬性:表中的一列即為一個屬性; ( 3 )域:屬性的取值范圍; ( 4 )元組:表中的一行即為一個元組; ( 5 )主碼:表中的某個屬性組,它可以惟一確定一個元組; ( 6 )分量:元組中的一個屬性值; ( 7 )關系模式:對關系的描述,一般表示為關系名(屬性 1 ,屬性 2 , … ,屬性 n )
19 .試述關系數據庫的特點。
答:
關系數據模型具有下列優點: ( l )關系模型與非關系模型不同,它是建立在嚴格的數學概念的基礎上的。 ( 2 )關系模型的概念單一,無論實體還是實體之間的聯系都用關系表示,操作的對象和操作的結果都是關系,所以其數據結構簡單、清晰,用戶易懂易用。 ( 3 )關系模型的存取路徑對用戶透明,從而具有更高的數據獨立性、更好的安全保密性,也簡化了程序員的工作和數據庫開發建立的工作。當然,關系數據模型也有缺點,其中最主要的缺點是,由于存取路徑對用戶透明,查詢效率往往不如非關系數據模型。因此為了提高性能,必須對用戶的查詢請求進行優化,增加了開發數據庫管理系統的難度。
20 .試述數據庫系統三級模式結構,這種結構的優點是什么?
答:
數據庫系統的三級模式結構由外模式、模式和內模式組成。(參見書上圖 1 . 29 ) 外模式,亦稱子模式或用戶模式,是數據庫用戶(包括應用程序員和最終用戶)能夠看見和使用的局部數據的邏輯結構和特征的描述,是數據庫用戶的數據視圖,是與某一應用有關的數據的邏輯表示。模式,亦稱邏輯模式,是數據庫中全體數據的邏輯結構和特征的描述,是所有用戶的公共數據視圖。模式描述的是數據的全局邏輯結構。外模式涉及的是數據的局部邏輯結構,通常是模式的子集。內模式,亦稱存儲模式,是數據在數據庫系統內部的表示,即對數據的物理結構和存儲方式的描述。數據庫系統的三級模式是對數據的三個抽象級別,它把數據的具體組織留給 DBMs 管理,使用戶能邏輯抽象地處理數據,而不必關心數據在計算機中的表示和存儲。為了能夠在內部實現這三個抽象層次的聯系和轉換,數據庫系統在這三級模式之間提供了兩層映像:外模式/模式映像和模式/內模式映像。正是這兩層映像保證了數據庫系統中的數據能夠具有較高的邏輯獨立性和物理獨立性。
21 .定義并解釋以下術語:模式、外模式、內模式、 DDL 、 DML 模式、外模式、內模式,亦稱邏輯模式,是數據庫中全體數據的邏輯結構和特征的描述,是所有用戶的公共數據視圖。模式描述的是數據的全局邏輯結構。外模式涉及的是數據的局部邏輯結構,通常是模式的子集。內模式,亦稱存儲模式,是數據在數據庫系統內部的表示,即對數據的物理結構和存儲方式的描述。 DDL :數據定義語言,用來定義數據庫模式、外模式、內模式的語言。 DML :數據操縱語言,用來對數據庫中的數據進行查詢、插入、刪除和修改的語句。
22 .什么叫數據與程序的物理獨立性?什么叫數據與程序的邏輯獨立性?為什么數據庫系統具有數據與程序的獨立性?
答:
數據與程序的邏輯獨立性:當模式改變時(例如增加新的關系、新的屬性、改變屬性的數據類型等),由數據庫管理員對各個外模式/模式的映像做相應改變,可以使外模式保持不變。應用程序是依據數據的外模式編寫的,從而應用程序不必修改,保證了數據與程序的邏輯獨立性,簡稱數據的邏輯獨立性。數據與程序的物理獨立性:當數據庫的存儲結構改變了,由數據庫管理員對模式/內模式映像做相應改變,可以使模式保持不變,從而應用程序也不必改變,保證了數據與程序的物理獨立性,簡稱數據的物理獨立性。數據庫管理系統在三級模式之間提供的兩層映像保證了數據庫系統中的數據能夠具有較高的邏輯獨立性和物理獨立性。
23 .試述數據庫系統的組成。
答:
數據庫系統一般由數據庫、數據庫管理系統(及其開發工具)、應用系統、數據庫管理員和用戶構成。
24 . DBA 的職責是什么?
答:
負責全面地管理和控制數據庫系統。具體職責包括: ① 決定數據庫的信息內容和結構; ② 決定數據庫的存儲結構和存取策略; ③ 定義數據的安全性要求和完整性約束條件; ④ 監督和控制數據庫的使用和運行; ⑤ 改進和重組數據庫系統。 25 .系統分析員、數據庫設計人員、應用程序員的職責是什么?答系統分析員負責應用系統的需求分析和規范說明,系統分析員要和用戶及 DBA 相結合,確定系統的硬件、軟件配置,并參與數據庫系統的概要設計。數據庫設計人員負責數據庫中數據的確定、數據庫各級模式的設計。數據庫設計人員必須參加用戶需求調查和系統分析,然后進行數據庫設計。在很多情況下,數據庫設計人員就由數據庫管理員擔任。應用程序員負責設計和編寫應用系統的程序模塊,并進行調試和安裝。
1 .試述關系模型的三個組成部分。
答:關系模型由關系數據結構、關系操作集合和關系完整性約束三部分組成。
2 .試述關系數據語言的特點和分類。
答:關系數據語言可以分為三類:
關系代數語言。
關系演算語言:元組關系演算語言和域關系演算語言。
SQL:具有關系代數和關系演算雙重特點的語言。
這些關系數據語言的共同特點是,語言具有完備的表達能力,是非過程化的集合操作語言,功能強,能夠嵌入高級語言中使用。
4 .試述關系模型的完整性規則。在參照完整性中,為什么外部碼屬性的值也可以為空?什么情況下才可以為空?
答:實體完整性規則是指若屬性A是基本關系R的主屬性,則屬性A不能取空值。
若屬性(或屬性組)F是基本關系R的外碼,它與基本關系S的主碼Ks相對應(基本關系R和S不一定是不同的關系),則對于R中每個元組在F上的值必須為:或者取空值(F的每個屬性值均為空值);或者等于S中某個元組的主碼值。即屬性F本身不是主屬性,則可以取空值,否則不能取空值。
5.設有一個SPJ數據庫,包括S,P,J,SPJ四個關系模式:
1)求供應工程J1零件的供應商號碼SNO:
πSno(σSno=‘J1’(SPJ))
2)求供應工程J1零件P1的供應商號碼SNO:
πSno(σSno=‘J1’∧Pno=‘P1‘(SPJ))
3)求供應工程J1零件為紅色的供應商號碼SNO:
πSno(σPno=‘P1‘ (σCOLOR=’紅‘ (P)∞SPJ))
4)求沒有使用天津供應商生產的紅色零件的工程號JNO:
πJno(SPJ)- πJNO(σcity=‘天津’∧Color=‘紅‘ (S∞SPJ∞P)
5)求至少用了供應商S1所供應的全部零件的工程號JNO:
πJno,Pno(SPJ)÷ πPno(σSno=‘S1‘ (SPJ))
6.試述等值連接與自然連接的區別和聯系。
答:連接運算符是“=”的連接運算稱為等值連接。它是從關系R與S的廣義笛卡爾積中選取A,B屬性值相等的那些元組
自然連接是一種特殊的等值連接,它要求兩個關系中進行比較的分量必須是相同的屬性組,并且在結果中把重復的屬性列去掉。
7.關系代數的基本運算有哪些 ? 如何用這些基本運算來表示其他運算?
答:并、差、笛卡爾積、投影和選擇5種運算為基本的運算。其他3種運算,即交、連接和除,均可以用這5種基本運算來表達。
1 .試述 sQL 語言的特點。
答:
(l)綜合統一。 sQL 語言集數據定義語言 DDL 、數據操縱語言 DML 、數據控制語言 DCL 的功能于一體。
(2)高度非過程化。用 sQL 語言進行數據操作,只要提出“做什么”,而無需指明“怎么做”,因此無需了解存取路徑,存取路徑的選擇以及 sQL 語句的操作過程由系統自動完成。
(3)面向集合的操作方式。 sQL 語言采用集合操作方式,不僅操作對象、查找結果可以是元組的集合,而且一次插入、刪除、更新操作的對象也可以是元組的集合。
(4)以同一種語法結構提供兩種使用方式。 sQL 語言既是自含式語言,又是嵌入式語言。作為自含式語言,它能夠獨立地用于聯機交互的使用方式;作為嵌入式語言,它能夠嵌入到高級語言程序中,供程序員設計程序時使用。
(5)語言簡捷,易學易用。
2 .試述 sQL 的定義功能。
sQL 的數據定義功能包括定義表、定義視圖和定義索引。 SQL 語言使用 cREATE TABLE 語句建立基本表, ALTER TABLE 語句修改基本表定義, DROP TABLE 語句刪除基本表;使用 CREATE INDEX 語句建立索引, DROP INDEX 語句刪除索引;使用 CREATE VIEW 語句建立視圖, DROP VIEW 語句刪除視圖。
1 .什么是數據庫的安全性?
答:數據庫的安全性是指保護數據庫以防止不合法的使用所造成的數據泄露、更改或破壞。
2 .數據庫安全性和計算機系統的安全性有什么關系?
答:安全性問題不是數據庫系統所獨有的,所有計算機系統都有這個問題。只是在數據庫系統中大量數據集中存放,而且為許多最終用戶直接共享,從而使安全性問題更為突出。
系統安全保護措施是否有效是數據庫系統的主要指標之一。
數據庫的安全性和計算機系統的安全性,包括操作系統、網絡系統的安全性是緊密聯系、相互支持的,
3 .試述可信計算機系統評測標準的情況,試述TDI / TCSEC 標準的基本內容。
答:各個國家在計算機安全技術方面都建立了一套可信標準。目前各國引用或制定的一系列安全標準中,最重要的是美國國防部(DoD )正式頒布的《 DoD 可信計算機系統評估標準》 (伽sted Co 哪uter system Evaluation criteria ,簡稱TcsEc ,又稱桔皮書)。(TDI / TCSEC 標準是將TcsEc 擴展到數據庫管理系統,即《 可信計算機系統評估標準關于可信數據庫系統的解釋》 (Tmsted Database Interpretation 簡稱TDI , 又稱紫皮書)。在TDI 中定義了數據庫管理系統的設計與實現中需滿足和用以進行安全性級別評估的標準。
TDI 與TcsEc 一樣,從安全策略、責任、保證和文檔四個方面來描述安全性級別劃分的指標。每個方面又細分為若干項。
5 .試述實現數據庫安全性控制的常用方法和技術。
答:實現數據庫安全性控制的常用方法和技術有:
( l )用戶標識和鑒別:該方法由系統提供一定的方式讓用戶標識自己的名字或身份。每次用戶要求進入系統時,由系統進行核對,通過鑒定后才提供系統的使用權。
( 2 )存取控制:通過用戶權限定義和合法權檢查確保只有合法權限的用戶訪問數據庫,所有未被授權的人員無法存取數據。例如CZ 級中的自主存取控制( DAC ) , Bl 級中的強制存取控制(MAC )。
( 3 )視圖機制:為不同的用戶定義視圖,通過視圖機制把要保密的數據對無權存取的用戶隱藏起來,從而自動地對數據提供一定程度的安全保護。
( 4 )審計:建立審計日志,把用戶對數據庫的所有操作自動記錄下來放入審計日志中,DBA 可以利用審計跟蹤的信息,重現導致數據庫現有狀況的一系列事件,找出非法存取數據的人、時間和內容等。
( 5 )數據加密:對存儲和傳輸的數據進行加密處理,從而使得不知道解密算法的人無法獲知數據的內容。
6 .什么是數據庫中的自主存取控制方法和強制存取控制方法?
答:
自主存取控制方法:定義各個用戶對不同數據對象的存取權限。當用戶對數據庫訪問時首先檢查用戶的存取權限。防止不合法用戶對數據庫的存取。
強制存取控制方法:每一個數據對象被(強制地)標以一定的密級,每一個用戶也被(強制地)授予某一個級別的許可證。系統規定只有具有某一許可證級別的用戶才能存取某一個密級的數據對象。
7 .SQL 語言中提供了哪些數據控制(自主存取控制)的語句?請試舉幾例說明它們的使用方法。
答:
SQL 中的自主存取控制是通過GRANT語句和REVOKE語句來實現的。如:
GRANT SELECT , INSERT ON Student
TO 王平
WITH GRANT OPTION ;
就將Student 表的SELECT 和INSERT 權限授予了用戶王平,后面的“WITH GRANT OPTION ”子句表示用戶王平同時也獲得了“授權”的權限,即可以把得到的權限繼續授予其他用戶。
REVOKE INSERT ON Student FROM 王平CASCADE ;
就將Student 表的INSERT 權限從用戶王平處收回,選項CASCADE 表示,如果用戶王平將Student 的INSERT 權限又轉授給了其他用戶,那么這些權限也將從其他用戶處收回。
大數據分析師這個職業怎么樣?
數據分析師分布在不同行業中,專門從事行業數據搜集、整理、分析,并依據數據做出行業研究、評估和預測。數據分析師需要敏銳的數字洞察力,因此,統計、會計、保險、工程經濟、金融、數學、計算機等專業的同學對這個行業有明顯優勢。主要工作領域及崗位如下:
1、從事投資項目審核審批和招商引資、項目評估、投資決策等工作的政府機構、企業的相關領導以及從業人員。
2、在銀行或非銀行金融機構、投資管理公司、投資管理顧問公司從事風險投資、產業投資、信貸和投資管理等方面工作的專業從業人員。
3、會計師事務所、資產評估事務所及稅務師事務所、律師相關專業人員。
4、學習財務、統計、投資、金融和企業管理等相關專業的在校應屆學生。
5、在企事業單位從事市場調查與宣傳工作的人士以及具有策劃與決策工作職能要求的人士。
想要了解更多關于大數據分析師的信息可以到CDA認證機構了解一下,全球CDA持證者秉承著先進商業數據分析的新理念,遵循著《CDA職業道德和行為準則》新規范,發揮著自身數據專業能力,推動科技創新進步,助力經濟持續發展。
近期成為月入兩萬的數據分析師的廣告遍地都是,可能會對一些未入行的同學造成錯覺。我個人感覺數據分析師這個崗位,可能近幾年會消亡。
這不意味著這份工作本身不重要,而是說這份工作本身可能會轉化為產品運營的一些必備技能,而不再需要單獨特設人力去做這件事?;蛘哒f,不是再需要你學習SQL或者學習python,只是為了成為一名數據分析師。作為一名數據分析師,職業自身的壁壘正在不斷消減,更加主動的擁抱業務,解決真正的產品和用戶需求,或將成為未來的發展趨勢。
數據分析師的日常工作
我們來看下預設中的分析師的一些工作場景,看看數據分析師核心的工作價值。
取數
數據清洗
數據可視化
統計分析
數據方向建設和規劃
數據報告
取數 — SQL
很多人對數據分析師的預設是SQL達人,包括現在很多數據分析師的核心工作其實就是進行SQL取數。
這項工作的痛點和難點在于,我們為了得到一個結果,通常需要join很多的數據集,然后整個SQL語句就會寫的特別長,而且可能會出現一些問題:比如join的表可能會出現key是重復的情況,造成最終的SQL結果因為重復而變得不可用。所以我們需要專人去專門維護各種各樣的數據集,他們知道每張表應該怎么用。
但這個其實是關系型數據庫遺留下來的產物——我們完全可以不需要join那么多的表?,F在的分布式計算的框架,已經完全可以支持我們只保留一張大寬表,有需要的所有字段,然后所有的操作都在這張大寬表上進行,而且可以保證查詢速度。這樣數據分析最大的痛點已經沒有了。至于你說大寬表里面存了很多重復的數據,是不是很浪費資源(關系型數據庫之所以不用大寬表就是從存儲空間和性能的trade-off角度考慮的):放心,分布式存儲本身是不貴的,而計算效率則是由分布式計算框架進行專門優化的?,F在的計算框架計算的響應速度,已經可以在大寬表上可以很快的得到結果了。相比之下,多次join操作反而可能會更慢一些。
同時,現在很多公司的NB框架,其實都已經支持拖拽取數了,也根本不需要寫SQL了。
此外,不得不說的一點是,SQL語句本身真的不難??赡苋绻阕约红o下心來想學,一個周末的時間肯定能搞定。而資歷老的數據分析師,并不會比資歷輕的數據分析師,在SQL語句的寫作上有什么本質的區別。以前可能還有一些小表join大表的trick,但現在計算框架大多都已經優化過這些了。所以即使是需要寫SQL的場景,本身也是沒有什么難度的。
所以,通過大寬表來解放數據分析工作的生產力。即使在一定要寫SQL做join操作的時候,本身也不是一件壁壘特別高的事情。取數這件事兒,對于其他崗位的同學,就已經沒那么復雜了。
數據清洗 — Python
數據清洗其實是很多強調python進行數據分析課程中,python部分的主要賣點。包括但不限于,怎么處理異常值,怎么從一些原始的數據中,得到我們想要的數據。
在日常產品需求過程中,這種需求的場景其實很小。因為數據大部分都是自己產生的,很少會出現沒有預設到的極端值或者異常情況。如果有的話,一般就是生產數據的同學代碼寫的有bug,這種發現了之后修復代碼bug就行。
數據清洗在工作場景的應用在于落表——就是把原始數據變成上面提到的,可以通過SQL提取的hive表。這個工作是需要懂代碼的同學去支持的,他們負責數據的產出,包括數據的準確性,數據的延時性(不能太晚產出)等等。前文提到的生成大寬表,其實也可以是他們的工作。這其中就涉及到一些代碼的效率優化問題,這個就不是簡單懂一點python可以搞定的了,可能涉及到一些數據壓縮格式的轉化,比如Json/Proto buffer到hive表的轉化,還有一些計算框架層面的調優,比如spark設置什么樣的參數,以及怎么樣存儲可以更好的提升查詢速度。
所以這部分工作一般是由懂代碼的同學完成的??赡軘祿F隊會有比較少數的同學,管理支持全公司的基礎表的生成。
數據可視化 — Tableau
很多之前在數據分析做實習的同學,主要的工作內容就是在一個商業化的軟件(比如Tableau)上,做一些統計報表。這樣可以通過這些數據報表,可以很方便的查看到所屬業務的一些關鍵指標。這些商業軟件通常都比較難用,比如可能需要先預計算一下才能輸出結果;而且不太好做自定義功能的開發。稍微復雜一點的需求場景,可能就需要一個專門的同學搗鼓一陣,才能輸出最終的統計報表。
現在有更先進的套路了。
首先可視化。很多公司打通了前端和后端的數據,這樣就可以通過網頁查詢原始的數據庫得到數據結果。而現在很多優秀的前端可視化插件,已經可以提供非常豐富的統計圖形的支持。而且因為代碼是開源的,可以根據公司的需求場景進行針對性的開發,公司可以再輔以配置一些更加用戶友好的操作界面,這樣一些復雜需求也有了簡單拖拽實現的可能。而且這些前端js代碼都是免費的!對于公司來說也能省去一筆商業公司的采買成本。
其次很多商業軟件,都是針對小數據集場景設計的。在一些大數據集的場景,一般需要先預計算一些中間表。而如果自己公司定制化開發的前端展示結果,就可以根據需要自主設置計算邏輯和配置計算資源,先在后端進行預計算,前端最終只是作為一個結果展示模塊,把結果展示和需要的預計算進行解耦。這樣就省去了很多中間表的產出,也會更加快速的得到想要的業務指標,快速迭代。
所以可視化數據的工作量也會大大減少。而且會變成一個人人都可以操作,快速得到結果的場景。
統計分析
對于一名數據分析師而言,統計學分析可能是一塊知識性的壁壘。尤其是在現在ab實驗成為互聯網公司迭代標配的今天。需要把實驗設計的那套理論應用起來:比如ab實驗進行后的顯著性檢驗,多少樣本量的數據才能讓這個結論有效可信呢。
但是,你我都知道,經典的統計分析其實是一個非常套路性的工作。其實就是套公式,對應到代碼層面,可能也就一兩行就搞定了。這個代碼的統計分析結果可以作為ab平臺的指標展示在最終的ab結果上,大家看一眼就能明白。即使是對那些可能不知道顯著性是什么意思的人,你可以跟他簡單說,顯著了才有效,不顯著就別管。
這么一想是不是其實不怎么需要投入額外的人力進行分析?
其他數據相關的工作
數據層面的規劃和設計。移動互聯網剛剛興起的時候,可能那時候數據分析師需要對每一個數據怎么來設計一套方案,包括原始的埋點怎么樣,又要怎么統計出想要的結果。但現在大部分已經過了快速迭代的時代了,新產品的埋點添加可以參考老產品,這就意味著形成套路了。而一旦形成套路,其實就意味著可以通過程序直接完成或者輔助完成。
數據報告。那就真的是一件人人都能做的事情了,試想誰沒在大學期間做過數據報告呢?以前只是因為數據都是從分析師產出的,而如果人人都能取到數據的話,數據報告是不是也不是一個真需求呢?
在我看來,數據分析師這個崗位的天花板和其他崗位相比起來是比較低的??赡芄ぷ饕粌赡曛螅瑥膷徫槐旧砭鸵呀泴W不到什么額外的工作知識了。主要的工作內容技術含量不是特別高,技能性的更多的是一些可以簡單上手的東西,而且做的時間長了,在這些技能性的事情上得到的積累并不是很多。
數據分析師更像是一個在時代變遷過程中的一個中間崗位:我們從一個基本沒有數據的時代,突然進入了一個數據極大豐富的時代,在這個過程中,我們都知道重視數據。那怎么能夠利用這個數據呢?可能之前的那一幫人并沒有太多的經驗,于是老板就招一些人專門來研究一下它,同時做一些底層數據的優化。
經過多年的迭代,現在互聯網行業的每個人都知道數據的價值,也大概知道了什么樣的數據是重要的,怎樣可以更好的挖掘數據背后的價值。同時底層的基礎設施也已經支持可以讓一個之前沒有經驗的同學可以快速的上手得到自己想要的關鍵數據。這時候對于一個職業數據分析師來說,他的任務就已經完成了。就如同當人人都會講英語的時候,翻譯其實也就沒有存在的價值了。
此后的數據分析工作,可能不再是一些單獨的人做的工作。它會變成一個產品和運營的基礎工具,而且足夠簡單,沒有取數的門檻。只是產品運營怎么樣可以更好的認識數據,通過數據本身更好的配合產品運營的工作,這已經超脫我們一般理解的數據分析師的工作了,而是一個產品運營分內的工作。
對于那些已經在從事數據分析師崗位的同學來說,建議不要把心思全部投入到數據分析的本職工作上,以完成任務為核心KPI。而是不要給自己設置邊界,多從用戶的角度思考問題,不要因為是產品運營的工作就不去做了。數據分析師這個職業發展到這個階段,要么做更加底層的數據建設,要么擁抱業務,最大化的發掘數據背后背后的價值。不要再死守著數據分析的“固有技能”沾沾自喜了。
數據本身的價值是無窮的,作為數據分析師,你們已經先人一步的掌握它了,要有先發優勢。你們最接近數據的人,是最可能發現用戶的寶藏的人。
大數據分析師是做什么的?
阿里巴巴集團研究員就曾表示,“大數據分析師就是一群玩數據的人,玩出數據的商業價值,讓數據變成生產力?!倍髷祿蛡鹘y數據的最大區別在于,它是在線的、實時的、規模海量且形式不規整,無章法可循,因此“會玩”這些數據的人就很重要。
據報道,在美國,大數據分析師平均每年薪酬高達17.5萬美元,而國內頂尖互聯網公司,大數據分析師的薪酬可能要比同一個級別的其他職位高20%至30%,且頗受企業重視。
數據分析越來越受重視,企業開始傾向聘請在數據存儲、檢索和分析方面有所長的人才。對擁有這項技能的人來說,現在的形勢可謂是一片大好。
大數據分析師崗位要求?
大數據分析師更注意是對數據、數據指標的解讀,通過對數據的分析,來解決商業問題。主要有以下幾個次層次:業務監控、建立分析體系、行業未來發展的趨勢分析。
主要技能要求:數據庫知識(SQL至少要熟悉)、基本的統計分析知識、EXCEL要相當熟悉,對SPSS或SAS有一定的了解,對于與網站相關的業務還可能要求掌握GA等網站分析工具,當然PPT也是必備的。
為什么選擇大數據分析師?
現如今大數據將又一次引領技術變革的大潮,大數據產業已逐步從概念走向落地“大數據”和“虛擬化”兩大熱門領域,并得到廣泛關注和重視,90%企業都在使用大數據,而大數據高端軟件類人才供應遠不能滿足時代的發展。
你是否已經意識這是你人生中的一個重要轉機?能不能抓住這個時代的機遇,就在于你對大數據信息的應用和獲取。而如何成為大數據時代的弄潮兒,掌握當下最緊缺的軟件技能是關鍵!谷歌、阿里巴巴、百度、京東都在急需掌握hadoop技術的大數據人才!無論你精通大數據的哪一項類,都將在未來職場脫穎而出!
經典IT技術王者數據分析的出現,西線學院即可滿足你的新期待。從此,你不必再去苦苦追趕最新的IT技術。選擇西線學院,輕松助你穩做IT界稀缺級貴族人才!
數據分析師分布在不同行業中,專門從事行業數據搜集、整理、分析,并依據數據做出行業研究、評估和預測。數據分析師需要敏銳的數字洞察力,因此,統計、會計、保險、工程經濟、金融、數學、計算機等專業的同學對這個行業有明顯優勢。主要工作領域及崗位如下:
1、從事投資項目審核審批和招商引資、項目評估、投資決策等工作的政府機構、企業的相關領導以及從業人員。
2、在銀行或非銀行金融機構、投資管理公司、投資管理顧問公司從事風險投資、產業投資、信貸和投資管理等方面工作的專業從業人員。
3、會計師事務所、資產評估事務所及稅務師事務所、律師相關專業人員。
4、學習財務、統計、投資、金融和企業管理等相關專業的在校應屆學生。
5、在企事業單位從事市場調查與宣傳工作的人士以及具有策劃與決策工作職能要求的人士。
想要了解更多關于大數據分析師的信息可以到CDA認證機構了解一下,全球CDA持證者秉承著先進商業數據分析的新理念,遵循著《CDA職業道德和行為準則》新規范,發揮著自身數據專業能力,推動科技創新進步,助力經濟持續發展。
大數據計算技術可以完美地解決海量數據的收集、存儲、計算、分析的問題,所以以上的種種社會現象、互聯網現狀無一不在推動著大數據行業的快速發展。大數據分析師的缺口很大,未來發展空間很好。
大數據產業的發展離不開國家政策的支持,國家對大數據的戰略政策制定和實施,也成為大數據市場不斷發展的有力條件。
一說到大數據,你肯定想到那些互聯網公司。大數據究竟是不是互聯網公司專屬的強大武器呢?這可不一定。未來所有的公司都會成為數據公司,傳統行業更應該利用自己的優勢,搜集海量的用戶數據,實現逆襲,舉個例子。
某高級時裝品牌例子,他們做了這么一件事兒,在商品上加了個芯片,然后在試衣間加了一個傳感器,這樣每件衣服從貨架上拿下來,被試了多少次就能知道了。如果有件衣服大家不斷試就是不買,你肯定知道不是第一眼看上去不舒服,而是它可能穿在模特身上好看,穿在顧客身上不好看。根據這些數據,就能及時修改設計方案,做出更符合顧客需要的衣服了,創造更大的收入。所以傳統的行業利用大數據,就能更好地實現市場預判和銷售提升,分分鐘實現逆襲。
在數據時代,互聯網行業更有優勢,數據分析師開始在各行業中占據重要地位,數據分析職位需求呈現「井噴式」增長!根據拉勾招聘統計,2015年開始,數據分析師薪酬逐年走高,崗位的薪酬和經驗正相關,越老越值錢!
相關推薦:
最高額保證法律依據(民法典后保證最高額擔保的規定)
中外合資經營企業的資本(中外合資企業注冊資本金要求)
車輛抵押貸款(汽車抵押貸款需要什么條件)
國有企業設立的資料(國有企業注冊條件)
怎么注冊公司流程(公司注冊流程及需要的材料)