數(shù)據(jù)智能采集平臺(tái)全網(wǎng)捕獲所需互聯(lián)網(wǎng)公開(kāi)信息,所見(jiàn)即所得式采集,為用戶提供持續(xù)獲取外部海量數(shù)據(jù)的服務(wù)。通過(guò)數(shù)據(jù)治理算法組件,對(duì)數(shù)據(jù)進(jìn)行清洗、治理,保證數(shù)據(jù)質(zhì)量,為數(shù)據(jù)應(yīng)用提供有效支撐。
支持對(duì)定向網(wǎng)站、社交平臺(tái)等數(shù)據(jù)源進(jìn)行配置管理。
將采集的定向網(wǎng)站、社交平臺(tái)轉(zhuǎn)換為采集任務(wù),協(xié)調(diào)監(jiān)控每個(gè)任務(wù)隊(duì)列的情況。
支持對(duì)采集任務(wù)異常情況進(jìn)行監(jiān)控預(yù)警。
支持對(duì)信息進(jìn)行初步處理后,將其結(jié)構(gòu)化入庫(kù),數(shù)據(jù)治理算法組件包括:標(biāo)題抽取、新聞?wù)某槿?、人名地名抽取、熱詞發(fā)現(xiàn)、自動(dòng)聚類等。
數(shù)據(jù)采集采用先進(jìn)的分布式架構(gòu)集群部署,可以抓取海量的網(wǎng)頁(yè),消除單點(diǎn)抓取瓶頸。數(shù)據(jù)支持緩存處理和分庫(kù)存儲(chǔ),保證采集系統(tǒng)穩(wěn)定高效運(yùn)行。
采用流式計(jì)算技術(shù),對(duì)用戶的數(shù)據(jù)請(qǐng)求能夠秒級(jí)快速響應(yīng)。智能的調(diào)度機(jī)制,對(duì)于實(shí)時(shí)性要求較高的源網(wǎng)站優(yōu)先調(diào)度處理。
采用先進(jìn)的數(shù)據(jù)采集容錯(cuò)機(jī)制,確保數(shù)據(jù)傳輸?shù)男阅芎驼_性。對(duì)于傳輸錯(cuò)誤的數(shù)據(jù)能夠進(jìn)行重傳。
不展示!