如何收集大資料

如何收集大資料
現在談論大資料已經沒有新意了,形形色色的產品、平臺和公司都貼滿大資料標籤,但大資料卻並沒有掀起預期颶風,甚至還被冠以“偽命題”汙名。
本末倒置,資料採集才是大資料產業的基石。都在說大資料應用、大資料價值挖掘,卻不想,沒有資料何來應用、價值一說。就好比不開採石油,一味想得到汽油。當然,石油開採並不容易,各行各業包括政府部門的資訊化建設都是封閉式進行,海量資料被封在不同軟體系統,資料來源多種多樣,資料量大、更新快。

如何收集大資料

操作方法

(01)一、軟體介面方式各個軟體廠商提供資料介面,實現資料採集匯聚。實現過程:· 協調多方軟體廠商工程師到場,瞭解所有系統業務流程以及資料庫相關的表結構設計等,細節推敲,確定可行性方案;· 編碼· 測試、除錯階段· 交付使用介面對接方式的資料可靠性與價值較高,一般不存在資料重複的情況;資料通過介面實時傳輸,滿足資料實時性的要求。介面對接方式的缺點是介面開發費用高;協調各個軟體廠商,協調難度大、投入人力大;擴充套件性不高,如:由於業務需要各軟體系統開發出新的業務模組,其和大資料平臺之間的資料介面也需做相應修改和變動,甚至要推翻以前的所有資料介面編碼,工作量大、耗時長。

如何收集大資料 第2張

(02)二、開放資料庫方式實現資料的採集匯聚,開放資料庫是最直接的一種方式。兩個系統分別有各自的資料庫,同類型的資料庫之間是比較方便的:1. 如果兩個資料庫在同一個伺服器上,只要使用者名稱設定的沒有問題,就可以直接相互訪問,需要在from後將其資料庫名稱及表的架構所有者帶上即可。select * from e12. 如果兩個系統的資料庫不在一個伺服器上,建議採用連結伺服器的形式處理,或者使用openset和opendatasource的方式,這個需要對資料庫的訪問進行外圍伺服器的配置。而不同型別的資料庫之間的連線就比較麻煩,需要做很多設定才能生效,這裡不做詳細說明。開放資料庫方式可以直接從目標資料庫中獲取需要的資料,準確性高,實時性也能得到保證,是最直接、便捷的一種方式。但開放資料庫方式也需要協調各個軟體廠商開放資料庫,難度大;一個平臺如果同時連線多個軟體廠商的資料庫,並實時獲取資料,這對平臺效能也是巨大挑戰。不過,出於安全性考慮,軟體廠商一般不會開放自己的資料庫。

如何收集大資料 第3張

(03)三、基於底層資料交換的資料直接採集方式通過獲取軟體系統的底層資料交換、軟體客戶端和資料庫之間的網路流量包,基於底層IO請求與網路分析等技術,採集目標軟體產生的所有資料,將資料轉換與重新結構化,輸出到新的資料庫,供軟體系統呼叫。技術特點如下:1. 無需原軟體廠商配合;2. 實時資料採集,資料端到端的響應速度達秒級;3. 相容性強,可採集匯聚Windows平臺各種軟體系統資料;4. 輸出結構化資料,作為資料探勘、大資料分析應用的基礎;5. 自動建立資料間關聯,實施週期短、簡單高效;6. 支援自動匯入歷史資料,通過I/O人工智慧自動將資料寫入目標軟體;7. 配置簡單、實施週期短。基於底層資料交換的資料直接採集方式,擺脫對軟體廠商的依賴,不需要軟體廠商配合,不僅需要投入大量的時間、精力與資金,不用擔心繫統開發團隊解體、原始碼丟失等原因導致系統資料採集成死局。直接從各式各樣的軟體系統中開採資料,源源不斷獲取精準、實時的資料,自動建立資料關聯,輸出利用率極高的結構化資料,讓不同系統的資料來源有序、安全、可控的聯動流通,提供決策支援、提高運營效率、產生經濟價值。

方法/步驟2

(01)1、公開資訊及整理比如統計局的資料、公司自己釋出的年報、其他市場機構的研究報告、或者根據公開的零散資訊整理;

(02)2、購買的資料庫市場上有很多產品化的資料庫,比如Bloomberg、OneSource、Wind等等,這個一般是以公司的名義買入口,不光諮詢公司還有很多高等院校及研究機構也買了;

(03)3、自己的資料庫自己維護的資料庫有,但是比較少,一是專業的資料公司差不多能想到的都做了,二是自己做資料庫其實是一件很麻煩的事情。在有些資料是外界無法得到的情況下有可能自己維護一個小型的資料庫;

(04)4、諮詢行業專家當然是有償的,這個在專案中應該蠻常見的。有些行業專家會專門收集和銷售資料,想要的基本能買到。

(05)5、發問卷有時候為了單獨的專案也會收集很特別的資料,如果外界實在沒有但是專案上沒有不行就只有自己做了,比如自己發發問卷之類的,但是這類資料需求要控制工作量,因為除非資料本身是交付內容之一,要不然不能為了箇中間件花費太多時間和精力;

(06)6、客戶有些資料就是來源於客戶,甚至是諮詢公司的產品。舉個例子,比如HR諮詢公司的行業工資資料、四大的一些資料庫等等,這些資料的採集需要比較強的專業性或者時間積累,很大一部分是通過調查客戶的HR收集來的資料進行統計的。

如何收集大資料 第4張