大地资源网视频在线观看新浪,日本春药精油按摩系列,成人av骚妻潮喷,国产xxxx搡xxxxx搡麻豆

正在閱讀:解讀:數據科學含義及把數據變成產品的方法

解讀:數據科學含義及把數據變成產品的方法

2016-05-13 09:04:10來源:數據觀 原標題:深解讀丨什么是數據科學?如何把數據變成產品? 關鍵詞:數據科學數據分析數據平臺閱讀量:33083

導讀:據哈爾?瓦里安說,統計學家是下一個性感的工作。五年前,在《什么是Web2.0》里蒂姆?奧萊利說“數據是下一個Intel Inside”。
  【中國智能制造網 學術論文】據哈爾•瓦里安說,統計學家是下一個性感的工作。五年前,在《什么是Web2.0》里蒂姆•奧萊利說“數據是下一個Intel Inside”。但是這句話到底是什么意思?為什么我們突然間開始關注統計學和數據?在這篇文章里,我會檢視數據科學的各個方面,技術、企業和獨特技能集合。
  解讀:數據科學含義及把數據變成產品的方法
 
  互聯網上充斥著“數據驅動的應用”。幾乎任何的電子商務應用都是數據驅動的應用。這里面前端的頁面靠背后的數據庫來支持,它們兩者之間靠中間件來連接其他的數據庫和數據服務(信用卡公司、銀行等等)。但是僅僅使用數據并不是我們所說的真正的“數據科學”。一個數據應用從數據里獲取價值,同時創造更多的數據作為產出。它不只是帶有數據的一個應用,它就是一個數據產品。而數據科學則是能創建這樣的數據產品。
  
  互聯網上早期的數據產品之一就是CDDB數據庫。CDDB數據庫的意識到基于CD(音頻光盤)里面的每首歌曲的確切長度,任何CD都有一個的數字簽名。Gracenote公司創建了一個數據庫,記錄著歌曲的長度,并和專輯的元數據(歌曲名稱、歌手和專輯名稱)數據庫關聯。如果你曾經使用iTunes來找CD,你就是在使用這個數據庫服務。iTunes會先獲取每首歌的長度,然后發給CDDB,從而得到歌曲的名稱。如果你有一些CD(比如你自制的CD)在數據庫里沒有記錄,你也可以在CDDB里創造一個無名專輯的題目。盡管看起來很簡單,但這是革命性的。CDDB把音樂看成是數據,而不僅僅是聲音,并從中創造了新的價值。他們的商業模式和傳統的銷售音樂、共享音樂或者分析音樂口味等業務的模式截然不同,盡管這些業務也可以是“數據產品”。CDDB完全是視音樂的問題為數據的問題。
  
  谷歌是創造數據產品的專家,這里列幾個例子
  
  谷歌的創新是在于其意識到搜索引擎可以使用入鏈接而不是網頁上的文字。谷歌的PageRank算法是早一批使用網頁以外的數據的算法之一,特別是網頁的入鏈接數,即其他網頁指向某網頁的數量。記錄鏈接讓谷歌的搜索引擎比其他的引擎更好,而PageRank則是谷歌的成功因素中非常關鍵的一條。
  
  拼寫檢查不是一個非常難的任務,但是通過在用戶輸入搜索關鍵詞時,向錯誤拼寫推薦正確的用法并查看用戶是如何回應推薦,谷歌讓拼寫檢查的準確率大幅提高。他們還建立起了常見錯誤拼寫的字典,其中還包括對應的正確拼寫以及錯誤拼寫常見的上下文。
  
  語音識別也是一個非常艱難的任務,而且也還沒有完全被解決。但谷歌通過使用自己收集的語音數據,已經開始了針對這個難題的一個宏大的嘗試。并已把語音搜索集成到了核心搜索引擎里。
  
  在2009年豬流感的傳播期,谷歌能夠通過跟蹤與流感相關的搜索來跟蹤這次豬流感的爆發和傳播過程。
  
  通過分析搜索跟流感相關的用戶在不同地區的情況,谷歌能夠比美國國家疾病控制中心提前兩周發現豬流感的爆發和傳播趨勢。
  
  谷歌并不是一家知道如何使用數據的公司。臉書和領英都是用朋友關系來建議用戶他們可能認識或應該認識的其他人。亞馬遜會保存你的搜素關鍵詞,并使用別人的搜索詞來關聯你的搜索,從而能令人驚訝地做出恰當的商品推薦。這些推薦就是數據產品,能幫助推進亞馬遜的傳統的零售業務。所有這些都是因為亞馬遜明白書不僅僅是書,而相機也不僅僅是相機,用戶也不僅僅就是一個用戶。用戶會產生一連串“數據排氣”,挖據它并使用它,那么相機就變成了一堆數據可以用來和用戶的行為進行關聯。每次用戶訪問他們的網站就會留下數據。
  
  把所有這些應用聯系到一起的紐帶就是從用戶那里采集的數據來提供附加價值。無論這個數據是搜索關鍵詞、語音樣本或者產品評價,現在用戶已經成為他們所使用的產品的反饋環中重要的一環。這就是數據科學的開端。
  
  在過去的幾年里,可用的數據量呈爆炸性的增長。不管是網頁日志數據、推特流、在線交易數據、“公民科學”、傳感器數據、政府數據或其他什么數據,現在找到數據已經不再是問題,如何使用這些數據才是關鍵。不僅僅是企業在使用它自己的數據或者用戶貢獻的數據。越來越常見的是把來自多個數據源的數據進行“聚合”。《在R里進行數據聚合》分析了費城郡的房屋抵押贖回權的情況。它從郡長辦公室獲得了房屋抵押贖回權的公開記錄,抽取了其中的地址信息,再使用雅虎把地址信息轉換成了經緯度。然后使用這些地理位置信息把房屋抵押贖回權的情況繪制在地圖上(另外一個數據源)。再把它們按社區、房屋估值、社區人均收入和其他社會—-經濟因素進行分組。
  
  現在每個企業、創業公司、非營利組織或項目網站,當他們想吸引某個社群的時候所面臨的問題是,如何有效的使用數據。不僅僅是他們自己的數據,還包括所有可用的和相關的數據。有效的使用數據需要與傳統的統計不同的技能。傳統的穿職業西裝的精算師們進行著神秘但其實是早已明確定義的分析。而數據科學與統計的不同是數據科學是一種全盤考慮的方法。我們越來越多的在非正規的渠道里找到數據,數據科學正隨著數據的不斷收集、把數據轉換為可處理的形式、讓數據自己講故事以及把故事展現給別人不斷演進。
  
  為了能感受到什么樣的技術是數據科學需要的,讓我們首先看看數據的生命周期:數據從哪里來,如何使用,以及數據到哪里去。
  
  數據從哪里來
  
  數據無處不在,政府、網站、商業伙伴、甚至你自己的身體。雖然我們不是完全淹沒在數據的海洋里,但可以看到幾乎所有的東西都可以(甚至已經)被測量了。在O’Reilly傳媒公司,我們經常會把來自Nielsen Book Scan的行業數據和我們自己的銷售數據、公開的亞馬遜數據、甚至就業數據組合起來研究出版行業發生了什么。一些網站,比如Infochimps和Factual,可以提供很多大型數據集的連接,包括天氣數據、MySpace的活動流數據、體育活動比賽記錄等。Factual網站還招募用戶來更新和改進它的數據集。這些數據集覆蓋了從內分泌學家到徒步小道等的廣泛內容。
  
  很多我們現在所用的數據都是Web2.0的產物,也遵守摩爾定律。Web讓人們花更多的時間在線,同時也留下了他們的瀏覽軌跡。移動端應用則留下了更豐富的數據軌跡,因為很多應用都被標注了地理位置信息或附帶著音頻和視頻。這些數據都可以被挖據。結帳點設備和經常購物者購物卡使得獲取消費者的所有交易信息(不光是在線信息)成為可能。如果我們不能存儲這些數據,那么所有這些數據就將沒有用處。這里就是摩爾定律起作用的地方。自80年代早期開始,處理器的速度就從10Mhz增加到了3.6GHz,增加了360倍(這還沒考慮處理位數和核數的增加)。但是我們看到存儲能力的增加則更為巨大。內存價格從1000美元每兆字節降到25美元每吉字節,幾乎是40000倍的降低。這還沒考慮內存尺寸的減少和速途的增加。日立公司在1982年制造了個吉字節的硬盤,重大概250磅。現在千吉字節級別的硬盤已經是普通消費品,而32吉字節的微存儲卡只有半克重。無論是每克重的比特數、每美元比特數或者總存儲量,存儲能力的提升已經超過了CPU速度的增幅。
  
  摩爾定律應用于數據的重要性不僅是極客的技巧。數據的增長總是能填充滿你的存儲。硬盤容量越大,也就能找到更多的數據把它填滿。瀏覽網頁后留下的“數據排氣”、在臉書上添加某人為朋友或是在本地超市買東西,這些數據都被仔細的收集下來并進行分析。數據存儲的增加就要求有更精致的分析來使用這些數據。這就是數據科學的基石。
我要評論
版權與免責聲明:

凡本站注明“來源:智能制造網”的所有作品,均為浙江興旺寶明通網絡有限公司-智能制造網合法擁有版權或有權使用的作品,未經本站授權不得轉載、摘編或利用其它方式使用上述作品。已經本網授權使用作品的,應在授權范圍內使用,并注明“來源:智能制造網”。違反上述聲明者,本站將追究其相關法律責任。

本站轉載并注明自其它來源(非智能制造網)的作品,目的在于傳遞更多信息,并不代表本站贊同其觀點或和對其真實性負責,不承擔此類作品侵權行為的直接責任及連帶責任。如其他媒體、平臺或個人從本站轉載時,必須保留本站注明的作品第一來源,并自負版權等法律責任。如擅自篡改為“稿件來源:智能制造網”,本站將依法追究責任。

鑒于本站稿件來源廣泛、數量較多,如涉及作品內容、版權等問題,請與本站聯系并提供相關證明材料:聯系電話:0571-89719789;郵箱:1271141964@qq.com。

不想錯過行業資訊?

訂閱 智能制造網APP

一鍵篩選來訂閱

信息更豐富

推薦產品/PRODUCT 更多
智造商城:

PLC工控機嵌入式系統工業以太網工業軟件金屬加工機械包裝機械工程機械倉儲物流環保設備化工設備分析儀器工業機器人3D打印設備生物識別傳感器電機電線電纜輸配電設備電子元器件更多

我要投稿
  • 投稿請發送郵件至:(郵件標題請備注“投稿”)1271141964.qq.com
  • 聯系電話0571-89719789
工業4.0時代智能制造領域“互聯網+”服務平臺
智能制造網APP

功能豐富 實時交流

智能制造網小程序

訂閱獲取更多服務

微信公眾號

關注我們

抖音

智能制造網

抖音號:gkzhan

打開抖音 搜索頁掃一掃

視頻號

智能制造網

公眾號:智能制造網

打開微信掃碼關注視頻號

快手

智能制造網

快手ID:gkzhan2006

打開快手 掃一掃關注
意見反饋
我要投稿
我知道了
主站蜘蛛池模板: 元朗区| 滨海县| 河西区| 苏尼特左旗| 霍林郭勒市| 龙山县| 晋江市| 庆阳市| 扎鲁特旗| 安泽县| 金昌市| 乐昌市| 淅川县| 盐边县| 垫江县| 衡南县| 思南县| 新密市| 洛宁县| 广河县| 西昌市| 沅陵县| 乌兰浩特市| 同江市| 永昌县| 临城县| 石河子市| 揭阳市| 启东市| 陕西省| 寻乌县| 吐鲁番市| 怀宁县| 九寨沟县| 文山县| 丁青县| 苏尼特右旗| 新晃| 阜南县| 阿城市| 铜川市|