服務(wù)咨詢電話
發(fā)表于:2019-05-31
作者:科翔信息
瀏覽 125 次
專利申請(qǐng)?zhí)?/span>:
CN201210401317.7
專利類型:
發(fā)明
IPC 分類號(hào):
G06F17/30
應(yīng)用領(lǐng)域:
用于搜索引擎。
現(xiàn)有技術(shù)缺點(diǎn):
現(xiàn)有搜索引擎技術(shù)文檔必須帶有 URL 信息,限制了該方法的使用范圍,基于聚類的方法由于復(fù)雜度較高,壓縮比率也不如基于 TSP 的方法。
技術(shù)優(yōu)勢(shì):
1、通過對(duì)詞項(xiàng)進(jìn)行排序,挖掘文檔之間的相似度關(guān)系,大大降低了算法的時(shí)間復(fù)雜度和空間復(fù)雜度,在運(yùn)行過程中僅占用少量?jī)?nèi)存空間;
2、解決了現(xiàn)有技術(shù)中存在的算法復(fù)雜度較高的問題以及對(duì)數(shù)據(jù)集限制的問題。
摘要:
本發(fā)明公開了用于對(duì)倒排索引進(jìn)行壓縮的文檔序號(hào)重排方法及其系統(tǒng),該方法包括:
步驟 1,對(duì)已經(jīng)分配好文檔序號(hào)的文檔進(jìn)行詞語劃分得到詞項(xiàng),對(duì)所述詞項(xiàng)按照其在所述文檔中的出現(xiàn)頻率進(jìn)行排列,得到第一順序的詞項(xiàng);
步驟 2,利用所述第一順序的詞項(xiàng)對(duì)所述文檔進(jìn)行重新排序,獲得所述文檔的最終排序;
步驟 3,新的文檔序號(hào)按照所述文檔的最終排序進(jìn)行重新分配。本發(fā)明在運(yùn)行過程中通過對(duì)詞項(xiàng)進(jìn)行排序,挖掘文檔之間的相似度關(guān)系,僅占用少量?jī)?nèi)存空間,大大降低了算法的時(shí)間復(fù)雜度和空間復(fù)雜度。
(以上資訊來源于網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系管理員刪除。)
上一篇:人工智能項(xiàng)目推介——70、一種高維動(dòng)態(tài)數(shù)據(jù)處理方法
下一篇:人工智能項(xiàng)目推介——50、紐扣電池在線質(zhì)量檢測(cè)系統(tǒng)
合肥科翔信息技術(shù)服務(wù)有限責(zé)任公司 版權(quán)所有 免責(zé)聲明
地址:安徽省合肥市高新區(qū)天元路軟件園1號(hào)樓210-212室
電話:180-1954-5300 QQ:2501649871
COPYRIGHT ? 合肥科翔信息技術(shù)服務(wù)有限責(zé)任公司 ALL RIGHTS RESERVED. 皖I(lǐng)CP備2023003016號(hào)-1
技術(shù)支持:明圖網(wǎng)絡(luò)