代码拉取完成,页面将自动刷新
同步操作将从 HDT3213/SaberNLP 强制同步,此操作会覆盖自 Fork 仓库以来所做的任何修改,且无法恢复!!!
确定后同步将在后台操作,完成时将刷新页面,请耐心等待。
# encoding=utf-8
from recognize import tag
from segment import cut, hmm_cut, dict_cut, dag_segger
from abstract import get_abstract
from word2vec import Word2Vec
import os
def data_path(filename):
return os.path.join(os.path.dirname(__file__), "%s" % filename)
def test_seg():
cases = [
"给你们传授一点人生的经验",
"我来到北京清华大学",
"长春市长春节讲话",
"我们在野生动物园玩",
"我只是做了一些微小的工作",
"国庆节我在研究中文分词",
"比起生存还是死亡来忠诚与背叛可能更是一个问题"
]
for case in cases:
result = dict_cut(case)
print(result)
def test_tag():
cases = [
"给你们传授一点人生的经验",
"我来到北京清华大学",
"长春市长春节讲话",
"我们在野生动物园玩",
"我只是做了一些微小的工作",
"国庆节我在研究中文分词",
"比起生存还是死亡来忠诚与背叛可能更是一个问题"
]
for case in cases:
result = tag(case)
print(result)
def test_abstract():
fr = open(data_path('tmp/news.txt'), encoding='utf-8')
case = ''
for line in fr:
line = line.strip()
if line == '####':
result = get_abstract(case)
print(result)
case = ''
else:
case += line
def test_word2vec():
data = [
'Merge multiple sorted inputs into a single sorted output',
'The API below differs from textbook heap algorithms in two aspects'
]
wv = Word2Vec(vec_len=50)
wv.train(data, model='cbow')
print(wv['into'])
def test():
print("test seg:")
test_seg()
print("==========")
#print("test tag:")
#test_tag()
#print("==========")
#print("test abstract:")
#test_abstract()
#print("==========")
#print("test word2vec:")
#test_word2vec()
#print("==========")
if __name__ == '__main__':
test()
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。