導航:首頁 > 觀區塊鏈 > 龍馬環衛區塊鏈

龍馬環衛區塊鏈

發布時間:2022-12-17 00:19:34

『壹』 基於Gensim的文本相似度計算

    Gensim 是一個Python的自然語言處理庫,所用到的演算法,如 TF-IDF (Term Frequency–Inverse Document Frequency), 隱含 狄利克雷分配 (Latent Dirichlet Allocation,LDA),  潛在語義分析 (Latent Semantic Analysis,LSA) 或 隨機預測 (Random Projections)等, 是通過檢查單詞在訓練語料庫的同一文檔中的統計共現模式來發現文檔的語義結構,最後轉化成向量模式,以便進行進一步的處理。此外,Gensim還實現了word2vec功能,能夠將單詞轉化為詞向量。   

     語料(corpus) 是一組原始文本的集合,用於無監督地訓練文本主題的隱層結構。語料中不需要人工標注的附加信息。在Gensim中,Corpus通常是一個可迭代的對象(比如列表)。每一次迭代返回一個可用於表達文本對象的稀疏向量。

     向量(vector) 是由一組文本特徵構成的列表。是一段文本在Gensim中的內部表達。

     詞典(dictionary) 是所有文檔中所有單詞的集合,而且記錄了各詞的出現次數等信息。 

模型(Model) 是一個抽象的術語。定義了兩個向量空間的變換(即從文本的一種向量表達變換為另一種向量表達)。

    用一個實驗去理解:

# -*- coding: UTF-8 -*-  

from gensim import corpora,similarities,models

import jieba

classGensimExp(object):

def__init__(self,documents,test_document,Type,feature_num,best_num):

self.raw_documents = documents

self.test_document = test_document

self.SimCalType = Type

self.num_features = feature_num

self.num_best = best_num

defCalSim(self):

corpora_documents = []

#分詞

foritem_textinself.raw_documents:

item_seg = list(jieba.cut(item_text))

corpora_documents.append(item_seg)

# 生成字典和語料

dictionary = corpora.Dictionary(corpora_documents)

# 計算每一條新聞對應的bow向量

corpus = [dictionary.doc2bow(text)fortextincorpora_documents]# 迭代器

ifself.SimCalType =='Similarity-tfidf-index':

# 統計corpus中出現的每一個特徵的IDF值  

tfidf_model = models.TfidfModel(corpus)

corpus_tfidf = tfidf_model[corpus]

self._similarity = similarities.Similarity(self.SimCalType, corpus_tfidf, \

num_features=self.num_features,num_best=self.num_best)

test_cut_raw = list(jieba.cut(self.test_document))

test_corpus = dictionary.doc2bow(test_cut_raw)

# 根據訓練後的model,生成IF-IDF值,然後計算相似度

self._test_corpus=tfidf_model[test_corpus]

elifself.SimCalType =='Similarity-LSI-index':

lsi_model = models.LsiModel(corpus)

corpus_lsi = lsi_model[corpus]

self._similarity = similarities.Similarity(self.SimCalType, corpus_lsi, \

num_features=self.num_features,num_best=self.num_best)

test_cut_raw = list(jieba.cut(self.test_document))

test_corpus = dictionary.doc2bow(test_cut_raw)

self._test_corpus=lsi_model[test_corpus]

self.Print_Out()

defPrint_Out(self):

string ='The Most Similar material is '

fortplinrange(len(self._similarity[self._test_corpus])):

iftpl != len(self._similarity[self._test_corpus]) -1:

string = string + str(self._similarity[self._test_corpus][tpl][0]) \

+'('+ str(self._similarity[self._test_corpus][tpl][1]) +'),'

else:

string = string + str(self._similarity[self._test_corpus][tpl][0]) \

+'('+ str(self._similarity[self._test_corpus][tpl][1]) +')'

print(string)

if__name__=='__main__':

raw_documents = [

'0 1月19日,中信集團與騰訊在深圳簽署戰略框架協議,宣布將推進雲和大數據、區塊鏈、人工智慧等技術領域的業務合作,積極探索實體產業的數字化轉型升級路徑。',

'1 浦發銀行公告稱,公司成都分行因違規辦理信貸業務等違規行為被銀監會罰款4.62億元,處罰金額已全額計入2017年度公司損益,對公司的業務開展及持續經營無重大不利影響。 ',

'2 【浦發回應浦發成都分行違規被罰4.62億:深感愧疚】從浦發銀行總行方面了解到,浦發銀行對於成都分行發生的違規發放貸款案件深感愧疚;對於監管部門的查處表示堅決支持和接受,同時將以此為鞭策強化自身管理,堅持從嚴治行,在未來的經營發展中始終將依法合規經營作為立行之本。(一財)',

'3 蘇試試驗公告,公司1332萬股首次公開發行前已發行股份將於1月24日解禁,占公司總股本的10.61%;解禁日實際可上市流通股份為1221.5萬股,占總股本的9.73%。本次申請解除股份限售的股東有蘇州試驗儀器總廠和鍾瓊華、陳晨、武元楨、陳英等4位自然人股東。',

'4 波士頓科學和國葯控股子公司據悉參與競購XIO旗下的Lumenis。',

'5 蘇寧雲商回復深交所問詢函:蘇寧金融研究院於2017年7月正式成立區塊鏈實驗室,該實驗室針對區塊鏈技術及其在金融行業的應用進行研究,旨在利用區塊鏈技術為蘇寧金服業務及蘇寧銀行業務提供技術支撐。蘇寧銀行區塊鏈國內信用證信息傳輸系統採用聯盟鏈方式,只在聯盟銀行之間免費使用,不對外直接提供服務,該系統無直接收入產生。',

'6 龍馬環衛公告,公司1.60億股首次公開發行限售股將於1月26日上市流通,涉及股東包括現任董事、監事及高管張桂豐等17人。',

'7 航天工程公告,公司3.24億股首次公開發行限售股將於1月29日上市流通,涉及股東為中國運載火箭技術研究院、航天投資控股有限公司、北京航天動力研究所、北京航天產業投資基金(有限合夥)及全國社會保障基金理事會轉持二戶。',

'8 大千生態公告,公司與江蘇大千設計院有限公司組成的聯合體,預中標高淳區東壩鎮特色田園鄉村建設項目EPC總承包項目,項目投資估算約1.4億元。項目的順利實施,將對公司本年度的經營業績產生積極影響。',

'9 1954年2月19日,蘇聯最高蘇維埃主席團,在「兄弟的烏克蘭與俄羅斯結盟300周年之際」通過決議,將俄羅斯聯邦的克里米亞州,劃歸烏克蘭加盟共和國',

'10集友股份公告,公司預計2017年實現凈利潤與上年同期相比,將增加約4250萬元至5300萬元,同比增加約80.49%-100.37%,上年同期實現盈利5280.38萬元。本期收入較上期增長較多,營業利潤較上期增長;收到的政府補助及理財收益等非經常性損益事項對公司凈利潤的影響約為3200萬元。',

'11【千山葯機:大股東質押股票跌破平倉線】千山葯機公告,第一大股東、實控人之一劉祥華合計持有公司14.83%股權。目前,劉祥華共質押公司13.78%股權。劉祥華質押給國泰君安證券的2980.8萬股股票已跌破平倉線。公司目前正在被證監會立案調查,根據有關規定,公司在被立案調查期間大股東不得減持(包括股權質押平倉)公司股份。因此本次劉祥華質押的股票跌破平倉線不會導致公司實際控制權發生變化。',

'12天馬精化:子公司擬逾億元控股中科電子,加碼供應鏈管理發展戰略。',

'13超華科技公告,於近日收到參股子公司貝爾信員工通知,反饋貝爾信公司近期與其董事長鄭長春無法取得聯系。截至目前,公司亦尚無法與貝爾信董事長鄭長春取得聯系。經與貝爾信主要股東商議,經貝爾信董事會審議通過後將由貝爾信現有管理層組成臨時工作小組,以維持貝爾信正常生產和經營秩序。公司全面開展對貝爾信的核查,以維護上市公司及股東的利益。',

'14勝宏科技公告,公司預計2017年實現盈利2.8億元-2.9億元,同比增長20.65%-24.96%,上年同期盈利2.32億元。報告期內,公司預計非經常性損益對凈利潤的影響約1000萬-1300萬元。',

'15東旭光電公告,控股股東東旭集團員工成長共贏計劃已完成對公司股票的購買,總計購買公司股票1119.01萬股,占總股本的0.2%,成交金額合計約1.02億元,成交均價約9.12元/股。'

]

Obj1 = GensimExp(raw_documents,'數字化轉型升級路徑','Similarity-tfidf-index',600,5).CalSim()

Obj2 = GensimExp(raw_documents,'違規辦理信貸業務','Similarity-tfidf-index',600,3).CalSim()

Obj3 = GensimExp(raw_documents,'本期收入較上期增長較多','Similarity-LSI-index',400,2).CalSim()

    實驗結果:

    由於語料庫不多,選擇返回相似的文本個數較少,不過也能大致看出判斷是正確的。(PS:分詞的過程中沒有進行停用詞處理)

參考:

https://radimrehurek.com/gensim/tutorial.html

閱讀全文

與龍馬環衛區塊鏈相關的資料

熱點內容
2019比特幣合法嗎 瀏覽:196
數字貨幣預計什麼時候上架 瀏覽:860
港股的區塊鏈概念股 瀏覽:167
ace幣區塊鏈 瀏覽:536
數字貨幣超過巴菲特是誰 瀏覽:70
gucs數字貨幣今日價格 瀏覽:305
PS42k18虛擬貨幣到賬 瀏覽:857
虎爾比特幣 瀏覽:390
紅牛礦池怎麼激活 瀏覽:535
btc合約如何套利 瀏覽:491
以太坊打開埠 瀏覽:250
數字貨幣紙質貨幣還能用嗎 瀏覽:334
中國禁止比特幣的影響 瀏覽:606
如何發起比特幣交易 瀏覽:674
在哪下比特幣勒索補丁 瀏覽:885
螞蟻礦機額定算力什麼意思 瀏覽:909
通過知道創宇審核的虛擬貨幣 瀏覽:83
gcc虛擬貨幣是什麼軟體 瀏覽:546
以太坊超過比特幣 瀏覽:116
顯卡人工智慧算力怎麼查看 瀏覽:946