分詞和詞性標注

      介紹:

      中文分詞指的是將連續的漢字序列切分成一個個單獨的詞。搜狗云分詞系統包括中文分詞與詞性標注。

      主要特點:

      采用了基于漢字標注的分詞方法,主要使用了線性鏈鏈CRF(Linear-chain CRF)模型。

      詞性標注模塊主要基于結構化線性模型(Structured Linear Model)

      分詞精度:

      使用國家語委語料庫所開放的2000萬字漢語語料,其詞性標注集符合《信息處理用現代漢語詞類標記規范》(GB/T 20532—2006)。其中1800萬字作為訓練集,220萬字作為測試集。在該集合上進行封閉測試,分詞精度可達:F1 = 97.03%。

      詞性標注精度:

      訓練和測試集同上。封閉測試精度:96.08%

      在線演示

      分詞源文:
      分詞結果:

      批量處理

      第一步:上傳文件(100M以內的txt文件)

      第二步:輸入提取碼

      夫妻性生生活视频,亚洲男人的天堂在线aⅴ视频,成年片黄色电影大全