Doc2Vec

医学中央雑誌の抄録

論文の抄録を集めてコーパスを作成し、Doc2Vecで類似文書検索を行ったのでまとめておく。抄録コーパス wakati_texts の作成についてはここの「データセットの作成」を参照のこと。

from gensim.models.doc2vec import Doc2Vec, TaggedDocument

documents = [TaggedDocument(doc, [i]) for i, doc in enumerate(wakati_texts)]

model = Doc2Vec(dm=0, vector_size=50, min_count=1, alpha = 0.025)
model.build_vocab(documents)
model.train(documents, total_examples=model.corpus_count, epochs=100)

# k番目の文書と類似の文書
k = 10
print(documents[k])
for i, x in model.docvecs.most_similar(k, topn=3):
  print(i, x, documents[i])

実行結果は次のようになる。

TaggedDocument(リツキシマブ ( RTX ) 晩期 合併症     減少  ( late - onset neutropenia : LON ) , ネフローゼ 症候群 骨髄 所見 報告 . , RTX 投与  LON ( R - LON ) 発症   未知 . 難治  ネフローゼ 症候群 RTX 投与 3 か月  LON 症例 骨髄 検査 施行 . 骨髄 所見 末梢  CD 20 細胞 推移 R - LON 発症   考察 . 症例 7  女児 . 難治  ネフローゼ , RTX ( 1  375 mg / m 2 ) 4  投与 . 最終 投与 2 か月   発熱 Grade IV 顆粒   . 骨髄 検査 骨髄   分化 停止 所見 . とき 末梢  CD 20 細胞 0 . 05 % , 1 か月  1 . 5 % , 2 か月  7 % 正常  . 以上 B 細胞 回復 直前 LON 発症 . RTX 投与  B 細胞 回復  白血球  , 白血球   注意 必要 .( 著者 抄録 ), [10])
252 0.5759676694869995 TaggedDocument(最近 筆者  , めまい 自分 部屋 徘徊 症例 経験 発症  3   MRI ,  海馬 , 拡散 強調  ( diffusion - weighted image ; DWI ) 信号 , ADC ( apparentdiffusion coefficient ) map 信号 発症  10   , 発症  17   MRI , FLAIR ( fluid . attenuated inversion recovery )  , T 2 強調   梗塞 所見 海馬 一過    病巣 めまい 報告  , 投稿 ( 著者 抄録 ), [252])
378 0.5115715861320496 TaggedDocument(高齢  弁膜   心房   ( nonvalvular atrial fibrillation : NVAF ) 患者     塞栓 はじめ 血栓 塞栓  合併 比率 増加 ため 臨床 現場 凝固 製剤 ワルファリン こと 日常  ワルファリン 治療  維持 コントロール 困難     必要  管理 複雑 ため 正確  プロトロンビン 時間 ( prothrombin time - international normalized ratio : PT - INR ) 凝固  モニタリング こと 不可欠 ワルファリン 療法  PT - INR 低下 ワルファリン 用量 不足  梗塞 ( cerebral infarction : CI ) 一過性脳虚血発作 ( transient ischemic attack : TIA ) stroke (   ) 難治  NVAF 患者 13 年間 長期間 臨床 経過 報告 NVAF 発症 stroke 成り行き 観察 この間 様々 イベント 反省 臨床  注意 喚起 ( 著者 抄録 ), [378])
258 0.4994485378265381 TaggedDocument(症例 特記 既往 41  男性 2013  毎回 3  5 分間 持続   上下  脱力  一過性脳虚血発作 診断 5 日間 入院 アスピリン 投与 退院 4   再発 ため 入院 NIHSS 評価 スコア 7 中等  白血球  減少 ヘモグロビン 軽度 減少 明らか 血小板 減少 播種  血管  凝固 症候群 アラニンアミノトランスフェラーゼ グルタミン酸 オキサロ 酢酸 トランスアミナーゼ 数値 上昇 骨髄 スメア 末梢  スメア 所見 骨髄    それぞれ 89 %、 51 % こと t ( 15 ; 17 )( q 22 ; q 12 ) 急性 骨髄   白血病 診断 臨床 所見 進行  神経 症候 増悪 意識 混濁 尿 失禁 入院 24 時間 以内 NIHSS スコア 10 増悪 頭部 MRI 検査 播種  信号 領域 観察 ため オールトランスレチノイン  導入 化学 療法 開始 入院 6   死亡, [258])

0 件のコメント:

コメントを投稿