服務(wù)咨詢電話
發(fā)表于:2019-05-28
作者:科翔信息
瀏覽 109 次
專利申請(qǐng)?zhí)?/span>:
CN201310576331.5
專利類型:
發(fā)明
IPC 分類號(hào):
G06F17/30
應(yīng)用領(lǐng)域:
用于 Web 頁(yè)面。
現(xiàn)有技術(shù)缺點(diǎn):
現(xiàn)有方法生成的大規(guī)模數(shù)據(jù)存在真實(shí)性問題。
技術(shù)優(yōu)勢(shì):
本發(fā)明使用真實(shí)小規(guī)模數(shù)據(jù)來生成大規(guī)模的相對(duì)真實(shí)可靠的數(shù)據(jù)來提供給數(shù)據(jù)中心的應(yīng)用,從而使得到的研究結(jié)果有更加真實(shí)。通過提取小規(guī)模的真實(shí)數(shù)據(jù)的特征,進(jìn)而基于獲得的特征來生成大規(guī)模的數(shù)據(jù)。
摘要:
本發(fā)明公開了一種基于 Web 頁(yè)面的大規(guī)模數(shù)據(jù)生成方法,通過將原始小規(guī)模種子網(wǎng)頁(yè)按長(zhǎng)度分類的方式,依據(jù)原始網(wǎng)頁(yè)的長(zhǎng)度和詞頻信息生成大規(guī)模的文本數(shù)據(jù),入出度生成和 URL 賦值,則根據(jù)原始種子頁(yè)面中每類頁(yè)面的入出度的條件概率計(jì)算生成網(wǎng)頁(yè)的入出度值,利用已有入出度值向網(wǎng)頁(yè)中插入 URL,使得在生成的數(shù)據(jù)中, 入度的總和是等于出度的總和。通過提取小規(guī)模的真實(shí)數(shù)據(jù)的特征來生成大規(guī)模的相對(duì)真實(shí)可靠的數(shù)據(jù)來提供給數(shù)據(jù)中心的應(yīng)用,從而使得到的研究結(jié)果有更加真實(shí)。
(以上資訊來源于網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系管理員刪除。)
上一篇:人工智能項(xiàng)目推介——47、一種將矢量圖形轉(zhuǎn)化成位圖并進(jìn)行自適應(yīng)分割的方法
下一篇:人工智能項(xiàng)目推介——68、一種粒子濾波跟蹤方法和跟蹤裝置
合肥科翔信息技術(shù)服務(wù)有限責(zé)任公司 版權(quán)所有 免責(zé)聲明
地址:安徽省合肥市高新區(qū)天元路軟件園1號(hào)樓210-212室
電話:180-1954-5300 QQ:2501649871
COPYRIGHT ? 合肥科翔信息技術(shù)服務(wù)有限責(zé)任公司 ALL RIGHTS RESERVED. 皖I(lǐng)CP備2023003016號(hào)-1
技術(shù)支持:明圖網(wǎng)絡(luò)