當(dāng)前位置：智能制造網(wǎng)資訊中心學(xué)術(shù)論文

解讀：數(shù)據(jù)科學(xué)含義及把數(shù)據(jù)變成產(chǎn)品的方法

2016-05-13 09:04:10來(lái)源：數(shù)據(jù)觀原標(biāo)題：深解讀丨什么是數(shù)據(jù)科學(xué)？如何把數(shù)據(jù)變成產(chǎn)品？關(guān)鍵詞：數(shù)據(jù)科學(xué)數(shù)據(jù)分析數(shù)據(jù)平臺(tái)閱讀量：33098

導(dǎo)讀：據(jù)哈爾?瓦里安說(shuō)，統(tǒng)計(jì)學(xué)家是下一個(gè)性感的工作。五年前，在《什么是Web2.0》里蒂姆?奧萊利說(shuō)“數(shù)據(jù)是下一個(gè)Intel Inside”。

　　【中國(guó)智能制造網(wǎng) 學(xué)術(shù)論文】據(jù)哈爾•瓦里安說(shuō)，統(tǒng)計(jì)學(xué)家是下一個(gè)性感的工作。五年前，在《什么是Web2.0》里蒂姆•奧萊利說(shuō)“數(shù)據(jù)是下一個(gè)Intel Inside”。但是這句話到底是什么意思？為什么我們突然間開(kāi)始關(guān)注統(tǒng)計(jì)學(xué)和數(shù)據(jù)？在這篇文章里，我會(huì)檢視數(shù)據(jù)科學(xué)的各個(gè)方面，技術(shù)、企業(yè)和獨(dú)特技能集合。

　　互聯(lián)網(wǎng)上充斥著“數(shù)據(jù)驅(qū)動(dòng)的應(yīng)用”。幾乎任何的電子商務(wù)應(yīng)用都是數(shù)據(jù)驅(qū)動(dòng)的應(yīng)用。這里面前端的頁(yè)面靠背后的數(shù)據(jù)庫(kù)來(lái)支持，它們兩者之間靠中間件來(lái)連接其他的數(shù)據(jù)庫(kù)和數(shù)據(jù)服務(wù)（信用卡公司、銀行等等）。但是僅僅使用數(shù)據(jù)并不是我們所說(shuō)的真正的“數(shù)據(jù)科學(xué)”。一個(gè)數(shù)據(jù)應(yīng)用從數(shù)據(jù)里獲取價(jià)值，同時(shí)創(chuàng)造更多的數(shù)據(jù)作為產(chǎn)出。它不只是帶有數(shù)據(jù)的一個(gè)應(yīng)用，它就是一個(gè)數(shù)據(jù)產(chǎn)品。而數(shù)據(jù)科學(xué)則是能創(chuàng)建這樣的數(shù)據(jù)產(chǎn)品。
　　
　　互聯(lián)網(wǎng)上早期的數(shù)據(jù)產(chǎn)品之一就是CDDB數(shù)據(jù)庫(kù)。CDDB數(shù)據(jù)庫(kù)的意識(shí)到基于CD（音頻光盤(pán)）里面的每首歌曲的確切長(zhǎng)度，任何CD都有一個(gè)的數(shù)字簽名。Gracenote公司創(chuàng)建了一個(gè)數(shù)據(jù)庫(kù)，記錄著歌曲的長(zhǎng)度，并和專輯的元數(shù)據(jù)（歌曲名稱、歌手和專輯名稱）數(shù)據(jù)庫(kù)關(guān)聯(lián)。如果你曾經(jīng)使用iTunes來(lái)找CD，你就是在使用這個(gè)數(shù)據(jù)庫(kù)服務(wù)。iTunes會(huì)先獲取每首歌的長(zhǎng)度，然后發(fā)給CDDB，從而得到歌曲的名稱。如果你有一些CD（比如你自制的CD）在數(shù)據(jù)庫(kù)里沒(méi)有記錄，你也可以在CDDB里創(chuàng)造一個(gè)無(wú)名專輯的題目。盡管看起來(lái)很簡(jiǎn)單，但這是革命性的。CDDB把音樂(lè)看成是數(shù)據(jù)，而不僅僅是聲音，并從中創(chuàng)造了新的價(jià)值。他們的商業(yè)模式和傳統(tǒng)的銷(xiāo)售音樂(lè)、共享音樂(lè)或者分析音樂(lè)口味等業(yè)務(wù)的模式截然不同，盡管這些業(yè)務(wù)也可以是“數(shù)據(jù)產(chǎn)品”。CDDB完全是視音樂(lè)的問(wèn)題為數(shù)據(jù)的問(wèn)題。
　　
　　谷歌是創(chuàng)造數(shù)據(jù)產(chǎn)品的專家，這里列幾個(gè)例子。
　　
　　谷歌的創(chuàng)新是在于其意識(shí)到搜索引擎可以使用入鏈接而不是網(wǎng)頁(yè)上的文字。谷歌的PageRank算法是早一批使用網(wǎng)頁(yè)以外的數(shù)據(jù)的算法之一，特別是網(wǎng)頁(yè)的入鏈接數(shù)，即其他網(wǎng)頁(yè)指向某網(wǎng)頁(yè)的數(shù)量。記錄鏈接讓谷歌的搜索引擎比其他的引擎更好，而PageRank則是谷歌的成功因素中非常關(guān)鍵的一條。
　　
　　拼寫(xiě)檢查不是一個(gè)非常難的任務(wù)，但是通過(guò)在用戶輸入搜索關(guān)鍵詞時(shí)，向錯(cuò)誤拼寫(xiě)推薦正確的用法并查看用戶是如何回應(yīng)推薦，谷歌讓拼寫(xiě)檢查的準(zhǔn)確率大幅提高。他們還建立起了常見(jiàn)錯(cuò)誤拼寫(xiě)的字典，其中還包括對(duì)應(yīng)的正確拼寫(xiě)以及錯(cuò)誤拼寫(xiě)常見(jiàn)的上下文。
　　
　　語(yǔ)音識(shí)別也是一個(gè)非常艱難的任務(wù)，而且也還沒(méi)有完全被解決。但谷歌通過(guò)使用自己收集的語(yǔ)音數(shù)據(jù)，已經(jīng)開(kāi)始了針對(duì)這個(gè)難題的一個(gè)宏大的嘗試。并已把語(yǔ)音搜索集成到了核心搜索引擎里。
　　
　　在2009年豬流感的傳播期，谷歌能夠通過(guò)跟蹤與流感相關(guān)的搜索來(lái)跟蹤這次豬流感的爆發(fā)和傳播過(guò)程。
　　
　　通過(guò)分析搜索跟流感相關(guān)的用戶在不同地區(qū)的情況，谷歌能夠比美國(guó)國(guó)家疾病控制中心提前兩周發(fā)現(xiàn)豬流感的爆發(fā)和傳播趨勢(shì)。
　　
　　谷歌并不是一家知道如何使用數(shù)據(jù)的公司。臉書(shū)和領(lǐng)英都是用朋友關(guān)系來(lái)建議用戶他們可能認(rèn)識(shí)或應(yīng)該認(rèn)識(shí)的其他人。亞馬遜會(huì)保存你的搜素關(guān)鍵詞，并使用別人的搜索詞來(lái)關(guān)聯(lián)你的搜索，從而能令人驚訝地做出恰當(dāng)?shù)纳唐吠扑]。這些推薦就是數(shù)據(jù)產(chǎn)品，能幫助推進(jìn)亞馬遜的傳統(tǒng)的零售業(yè)務(wù)。所有這些都是因?yàn)閬嗰R遜明白書(shū)不僅僅是書(shū)，而相機(jī)也不僅僅是相機(jī)，用戶也不僅僅就是一個(gè)用戶。用戶會(huì)產(chǎn)生一連串“數(shù)據(jù)排氣”，挖據(jù)它并使用它，那么相機(jī)就變成了一堆數(shù)據(jù)可以用來(lái)和用戶的行為進(jìn)行關(guān)聯(lián)。每次用戶訪問(wèn)他們的網(wǎng)站就會(huì)留下數(shù)據(jù)。
　　
　　把所有這些應(yīng)用聯(lián)系到一起的紐帶就是從用戶那里采集的數(shù)據(jù)來(lái)提供附加價(jià)值。無(wú)論這個(gè)數(shù)據(jù)是搜索關(guān)鍵詞、語(yǔ)音樣本或者產(chǎn)品評(píng)價(jià)，現(xiàn)在用戶已經(jīng)成為他們所使用的產(chǎn)品的反饋環(huán)中重要的一環(huán)。這就是數(shù)據(jù)科學(xué)的開(kāi)端。
　　
　　在過(guò)去的幾年里，可用的數(shù)據(jù)量呈爆炸性的增長(zhǎng)。不管是網(wǎng)頁(yè)日志數(shù)據(jù)、推特流、在線交易數(shù)據(jù)、“公民科學(xué)”、傳感器數(shù)據(jù)、政府?dāng)?shù)據(jù)或其他什么數(shù)據(jù)，現(xiàn)在找到數(shù)據(jù)已經(jīng)不再是問(wèn)題，如何使用這些數(shù)據(jù)才是關(guān)鍵。不僅僅是企業(yè)在使用它自己的數(shù)據(jù)或者用戶貢獻(xiàn)的數(shù)據(jù)。越來(lái)越常見(jiàn)的是把來(lái)自多個(gè)數(shù)據(jù)源的數(shù)據(jù)進(jìn)行“聚合”。《在R里進(jìn)行數(shù)據(jù)聚合》分析了費(fèi)城郡的房屋抵押贖回權(quán)的情況。它從郡長(zhǎng)辦公室獲得了房屋抵押贖回權(quán)的公開(kāi)記錄，抽取了其中的地址信息，再使用雅虎把地址信息轉(zhuǎn)換成了經(jīng)緯度。然后使用這些地理位置信息把房屋抵押贖回權(quán)的情況繪制在地圖上（另外一個(gè)數(shù)據(jù)源）。再把它們按社區(qū)、房屋估值、社區(qū)人均收入和其他社會(huì)—-經(jīng)濟(jì)因素進(jìn)行分組。
　　
　　現(xiàn)在每個(gè)企業(yè)、創(chuàng)業(yè)公司、非營(yíng)利組織或項(xiàng)目網(wǎng)站，當(dāng)他們想吸引某個(gè)社群的時(shí)候所面臨的問(wèn)題是，如何有效的使用數(shù)據(jù)。不僅僅是他們自己的數(shù)據(jù)，還包括所有可用的和相關(guān)的數(shù)據(jù)。有效的使用數(shù)據(jù)需要與傳統(tǒng)的統(tǒng)計(jì)不同的技能。傳統(tǒng)的穿職業(yè)西裝的精算師們進(jìn)行著神秘但其實(shí)是早已明確定義的分析。而數(shù)據(jù)科學(xué)與統(tǒng)計(jì)的不同是數(shù)據(jù)科學(xué)是一種全盤(pán)考慮的方法。我們?cè)絹?lái)越多的在非正規(guī)的渠道里找到數(shù)據(jù)，數(shù)據(jù)科學(xué)正隨著數(shù)據(jù)的不斷收集、把數(shù)據(jù)轉(zhuǎn)換為可處理的形式、讓數(shù)據(jù)自己講故事以及把故事展現(xiàn)給別人不斷演進(jìn)。
　　
　　為了能感受到什么樣的技術(shù)是數(shù)據(jù)科學(xué)需要的，讓我們首先看看數(shù)據(jù)的生命周期：數(shù)據(jù)從哪里來(lái)，如何使用，以及數(shù)據(jù)到哪里去。
　　
　　數(shù)據(jù)從哪里來(lái)
　　
　　數(shù)據(jù)無(wú)處不在，政府、網(wǎng)站、商業(yè)伙伴、甚至你自己的身體。雖然我們不是完全淹沒(méi)在數(shù)據(jù)的海洋里，但可以看到幾乎所有的東西都可以（甚至已經(jīng)）被測(cè)量了。在O’Reilly傳媒公司，我們經(jīng)常會(huì)把來(lái)自Nielsen Book Scan的行業(yè)數(shù)據(jù)和我們自己的銷(xiāo)售數(shù)據(jù)、公開(kāi)的亞馬遜數(shù)據(jù)、甚至就業(yè)數(shù)據(jù)組合起來(lái)研究出版行業(yè)發(fā)生了什么。一些網(wǎng)站，比如Infochimps和Factual，可以提供很多大型數(shù)據(jù)集的連接，包括天氣數(shù)據(jù)、MySpace的活動(dòng)流數(shù)據(jù)、體育活動(dòng)比賽記錄等。Factual網(wǎng)站還招募用戶來(lái)更新和改進(jìn)它的數(shù)據(jù)集。這些數(shù)據(jù)集覆蓋了從內(nèi)分泌學(xué)家到徒步小道等的廣泛內(nèi)容。
　　
　　很多我們現(xiàn)在所用的數(shù)據(jù)都是Web2.0的產(chǎn)物，也遵守摩爾定律。Web讓人們花更多的時(shí)間在線，同時(shí)也留下了他們的瀏覽軌跡。移動(dòng)端應(yīng)用則留下了更豐富的數(shù)據(jù)軌跡，因?yàn)楹芏鄳?yīng)用都被標(biāo)注了地理位置信息或附帶著音頻和視頻。這些數(shù)據(jù)都可以被挖據(jù)。結(jié)帳點(diǎn)設(shè)備和經(jīng)常購(gòu)物者購(gòu)物卡使得獲取消費(fèi)者的所有交易信息（不光是在線信息）成為可能。如果我們不能存儲(chǔ)這些數(shù)據(jù)，那么所有這些數(shù)據(jù)就將沒(méi)有用處。這里就是摩爾定律起作用的地方。自80年代早期開(kāi)始，處理器的速度就從10Mhz增加到了3.6GHz，增加了360倍（這還沒(méi)考慮處理位數(shù)和核數(shù)的增加）。但是我們看到存儲(chǔ)能力的增加則更為巨大。內(nèi)存價(jià)格從1000美元每兆字節(jié)降到25美元每吉字節(jié)，幾乎是40000倍的降低。這還沒(méi)考慮內(nèi)存尺寸的減少和速途的增加。日立公司在1982年制造了個(gè)吉字節(jié)的硬盤(pán)，重大概250磅。現(xiàn)在千吉字節(jié)級(jí)別的硬盤(pán)已經(jīng)是普通消費(fèi)品，而32吉字節(jié)的微存儲(chǔ)卡只有半克重。無(wú)論是每克重的比特?cái)?shù)、每美元比特?cái)?shù)或者總存儲(chǔ)量，存儲(chǔ)能力的提升已經(jīng)超過(guò)了CPU速度的增幅。
　　
　　摩爾定律應(yīng)用于數(shù)據(jù)的重要性不僅是極客的技巧。數(shù)據(jù)的增長(zhǎng)總是能填充滿你的存儲(chǔ)。硬盤(pán)容量越大，也就能找到更多的數(shù)據(jù)把它填滿。瀏覽網(wǎng)頁(yè)后留下的“數(shù)據(jù)排氣”、在臉書(shū)上添加某人為朋友或是在本地超市買(mǎi)東西，這些數(shù)據(jù)都被仔細(xì)的收集下來(lái)并進(jìn)行分析。數(shù)據(jù)存儲(chǔ)的增加就要求有更精致的分析來(lái)使用這些數(shù)據(jù)。這就是數(shù)據(jù)科學(xué)的基石。

上一篇：深度解析：數(shù)字時(shí)代如何建立數(shù)據(jù)基礎(chǔ)設(shè)施

下一篇：推進(jìn)計(jì)量測(cè)試技術(shù)進(jìn)步中國(guó)制造快速發(fā)展

我要評(píng)論

如何利用人工智能和數(shù)據(jù)分析實(shí)現(xiàn)可持續(xù)綠色技術(shù)
人工智能和數(shù)據(jù)分析為實(shí)現(xiàn)可持續(xù)綠色技術(shù)提供了強(qiáng)大的支持。通過(guò)優(yōu)化資源利用、推動(dòng)綠色創(chuàng)新和智能環(huán)境監(jiān)測(cè)與保護(hù)，AI和數(shù)據(jù)分析在多個(gè)領(lǐng)域發(fā)揮了重要作用。
人工智能數(shù)據(jù)分析綠色技術(shù)
2025-06-10 15:37:59
2024年“數(shù)字中國(guó)發(fā)展指數(shù)”同比增長(zhǎng)超10% 數(shù)字中國(guó)建設(shè)穩(wěn)中提質(zhì)
近年來(lái)，數(shù)字中國(guó)建設(shè)成效顯著，數(shù)字化發(fā)展水平快速提升，經(jīng)濟(jì)發(fā)展內(nèi)生動(dòng)力、創(chuàng)新活力不斷增強(qiáng)。以2020年為基期，2024年數(shù)字中國(guó)發(fā)展指數(shù)為150.51，同比增長(zhǎng)10.65%。
數(shù)字中國(guó)數(shù)據(jù)平臺(tái)
2025-05-09 09:19:32
國(guó)家發(fā)展改革委等部門(mén)關(guān)于促進(jìn)數(shù)據(jù)產(chǎn)業(yè)高質(zhì)量發(fā)展的指導(dǎo)意見(jiàn)
到2029年，數(shù)據(jù)產(chǎn)業(yè)規(guī)模年均復(fù)合增長(zhǎng)率超過(guò)15%，數(shù)據(jù)產(chǎn)業(yè)結(jié)構(gòu)明顯優(yōu)化，數(shù)據(jù)技術(shù)創(chuàng)新能力躋身世界先進(jìn)行列，數(shù)據(jù)產(chǎn)品和服務(wù)供給能力大幅提升，催生一批數(shù)智應(yīng)用新產(chǎn)品新服務(wù)新業(yè)態(tài)，涌現(xiàn)一批具有國(guó)際競(jìng)爭(zhēng)力的數(shù)據(jù)企業(yè)，數(shù)據(jù)產(chǎn)業(yè)綜合實(shí)力顯著增強(qiáng)，區(qū)域聚集和協(xié)同發(fā)展格局基本形成。
數(shù)據(jù)產(chǎn)業(yè)數(shù)據(jù)分析
2025-01-03 09:58:46
下一個(gè)前沿：數(shù)據(jù)科學(xué)和人工智能將如何塑造2025年
進(jìn)入2025年，數(shù)據(jù)科學(xué)將在多個(gè)維度上取得革命性進(jìn)展，推動(dòng)新技術(shù)的融合，跨行業(yè)應(yīng)用的拓展，以及道德與監(jiān)管問(wèn)題的嚴(yán)峻考驗(yàn)。
數(shù)據(jù)科學(xué)人工智能
2024-12-17 09:35:18
市場(chǎng)分析|推動(dòng)工業(yè)物聯(lián)網(wǎng)數(shù)據(jù)分析的四項(xiàng)關(guān)鍵技術(shù)
人工智能無(wú)疑將工業(yè)物聯(lián)網(wǎng)分析提升到了一個(gè)新的水平。這種改進(jìn)主要是因?yàn)槿斯ぶ悄芸梢栽诖罅繑?shù)據(jù)中檢測(cè)模式，讓人們能夠比沒(méi)有技術(shù)幫助的情況下更快地得出結(jié)論。
工業(yè)物聯(lián)網(wǎng)數(shù)據(jù)分析
2024-10-23 09:39:50
國(guó)家發(fā)展改革委、國(guó)家數(shù)據(jù)局等部門(mén)聯(lián)合印發(fā)《國(guó)家數(shù)據(jù)標(biāo)準(zhǔn)體系建設(shè)指南》
近日，國(guó)家發(fā)展改革委、國(guó)家數(shù)據(jù)局、中央網(wǎng)信辦、工業(yè)和信息化部、財(cái)政部、國(guó)家標(biāo)準(zhǔn)委聯(lián)合印發(fā)《國(guó)家數(shù)據(jù)標(biāo)準(zhǔn)體系建設(shè)指南》。
國(guó)家數(shù)據(jù)標(biāo)準(zhǔn)體系數(shù)據(jù)平臺(tái)
2024-10-11 08:06:45

版權(quán)與免責(zé)聲明：

凡本站注明“來(lái)源：智能制造網(wǎng)”的所有作品，均為浙江興旺寶明通網(wǎng)絡(luò)有限公司-智能制造網(wǎng)合法擁有版權(quán)或有權(quán)使用的作品，未經(jīng)本站授權(quán)不得轉(zhuǎn)載、摘編或利用其它方式使用上述作品。已經(jīng)本網(wǎng)授權(quán)使用作品的，應(yīng)在授權(quán)范圍內(nèi)使用，并注明“來(lái)源：智能制造網(wǎng)”。違反上述聲明者，本站將追究其相關(guān)法律責(zé)任。

本站轉(zhuǎn)載并注明自其它來(lái)源（非智能制造網(wǎng)）的作品，目的在于傳遞更多信息，并不代表本站贊同其觀點(diǎn)或和對(duì)其真實(shí)性負(fù)責(zé)，不承擔(dān)此類(lèi)作品侵權(quán)行為的直接責(zé)任及連帶責(zé)任。如其他媒體、平臺(tái)或個(gè)人從本站轉(zhuǎn)載時(shí)，必須保留本站注明的作品第一來(lái)源，并自負(fù)版權(quán)等法律責(zé)任。如擅自篡改為“稿件來(lái)源：智能制造網(wǎng)”，本站將依法追究責(zé)任。

鑒于本站稿件來(lái)源廣泛、數(shù)量較多，如涉及作品內(nèi)容、版權(quán)等問(wèn)題，請(qǐng)與本站聯(lián)系并提供相關(guān)證明材料：聯(lián)系電話：0571-89719789；郵箱：1271141964@qq.com。

不想錯(cuò)過(guò)行業(yè)資訊？

訂閱 智能制造網(wǎng)APP

一鍵篩選來(lái)訂閱

信息更豐富

今日焦點(diǎn)/FOCUS 更多

大地资源网视频在线观看新浪,日本春药精油按摩系列,成人av骚妻潮喷,国产xxxx搡xxxxx搡麻豆

解讀：數(shù)據(jù)科學(xué)含義及把數(shù)據(jù)變成產(chǎn)品的方法