微博实体与百科条目链接 的多策略研究 西南大学计算机系 郭云龙 徐潇 向宇 曾维刚 李莉 Southwest University 微博实体与百科条目链接的多策略研究 2012年数据 微博实体与百科条目链接的多策略研究 2012年数据 微博实体与百科条目链接的多策略研究 新浪微博用户的最新数据,截至2012年12 月底,新浪微博注册用户数已超过5亿,同比增 长74%。日活跃用户数达到4620万,微博 用户数与活跃用户数保持稳定增长。 2013年数据 微博实体与百科条目链接的多策略研究 对于海量微博数据进行挖掘 微博实体与百科条目链接的多策略研究 “微博实体与百科条目链接”的应用: 有助于利用社交媒体内容进行知识库的构建与扩 展; 帮助用户阅读; 广告;市场; ··· 微博实体与百科条目链接的多策略研究 “微博实体与百科条目链接”的难点: 一对多消歧 一对零消歧 ··· 微博实体与百科条目链接的多策略研究 TTT Model Term crawler lexicon Tweet context + tags corpus Tweets Machine Learning Statistics Term Level 微博实体与百科条目链接的多策略研究 中移动 中国移动通信集团公司 Term Level 微博实体与百科条目链接的多策略研究 海贼王 航海王 海贼王 Term Level 微博实体与百科条目链接的多策略研究 猛龙 多伦多猛龙队 李仁港执导电影 猛 龙(Mllen) Term Level 微博实体与百科条目链接的多策略研究 奥胖 沙奎尔·奥尼尔 Term Level 微博实体与百科条目链接的多策略研究 Tweet Level 微博实体与百科条目链接的多策略研究 Tweet Level 微博实体与百科条目链接的多策略研究 Polysemy page of Target Key on baike.baidu.com Tweet Level 微博实体与百科条目链接的多策略研究 Each target entry and labels Tweet Level 微博实体与百科条目链接的多策略研究 Build label lists for target entry Tweet Level 微博实体与百科条目链接的多策略研究 Calculating label list’s weight by basal list. The entry whose label list is the most weight is the real entry that target key map to. k Wi Pk Wb Tweets Level 微博实体与百科条目链接的多策略研究 Tweets Level 微博实体与百科条目链接的多策略研究 Tweets Level 微博实体与百科条目链接的多策略研究 (2) Constructing a wordmatrix for each “Key Term” (4) Computing the similarity of two words based on Mi. Matrix M 1* Matrix M 1 “Key Terms” related tweets Dividing tweets for each “Key Term” 1)Extracting words from each tweet (5) Clustering similaritymatrix M* Similarity based on the co-occurrences in the same paragraph Matrix M maxD (3) Computing the co-occurrences of two words that appear in the same tweet * Matrix M maxD (6) Analyzing and Tagging in each cluster Cip Tweets Level 微博实体与百科条目链接的多策略研究 Tweets Level 微博实体与百科条目链接的多策略研究 评测结果:我们评测结过为84.99%,改进后为 88.38%。 西南大学 计算机系 郭云龙 Email:[email protected] Southwest University
© Copyright 2024