设为首页收藏本站

NLP Code Studio

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
热搜: 活动 交友 discuz
查看: 5187|回复: 4

[scikit-learn] 文本挖掘系列 06--构建基于scikit-learn的文本挖掘学习系统

[复制链接]

该用户从未签到

600

主题

669

帖子

1万

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
15110
发表于 2014-10-8 10:50:14 | 显示全部楼层 |阅读模式
构建基于scikit-learn的文本挖掘学习系统
1. 下载和安装 python-2.7.8 for win32
2. 下载和安装 numpy-1.9.0-win32-superpack-python2.7
3. 下载和安装 scipy-0.14.0-win32-superpack-python2.7
4. 下载和安装 matplotlib-1.1.0.win32-py2.7
5. 下载和安装 结巴分词:jieba-master, 解压后运行 python setup.py install
    参考网站: https://github.com/fxsjy/jieba
6. 下载和安装 scikit-learn-0.15.2.win32-py2.7
7. 解压scikit-learn-master,从example目录获取例子文件

安装包下载:集成安装包下载

相关基础教程:机器学习源码解析01--开发环境与数学基础

系统安装完成之后,按照“源码解析01--开发环境与数学基础”帖子的内容配置 Ultraedit支持python2.7.8开发环境。

在windows的X磁盘建立机器学习工作空间:

1.  测试scikit-learn默认例子文件
打开例子 文件 plot_classifier_comparison.py
执行python 程序
输出图片:
scikit-learn安装成功!

2. 测试结巴分词:
代码如下:
  
#encoding=utf-8
import sys  
import jieba

reload(sys)  

sys.setdefaultencoding('utf-8')  

seg_list = jieba.cut("我来到北京清华大学",  cut_all=True)  
print "Full Mode:", "/  ".join(seg_list)  # 全模式
  
  
seg_list = jieba.cut("我来到北京清华大学",  cut_all=False)  
print "Default Mode:",  "/ ".join(seg_list)  # 精确模式
  
  
seg_list = jieba.cut("他来到了网易杭研大厦")  # 默认是精确模式
print ", ".join(seg_list)
  
seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所,后在日本京都大学深造")  # 搜索引擎模式
print ", ".join(seg_list)
  
  
输出:


  1. Building Trie..., from C:\Python27\lib\site-packages\jieba\dict.txt
  2. loading model from cache c:\users\jackycaf\appdata\local\temp\jieba.cache
  3. loading model cost 2.55099987984 seconds.
  4. Trie has been built succesfully.
  5. Full Mode: 我/ 来到/ 北京/ 清华/ 清华大学/ 华大/ 大学
  6. Default Mode: 我/ 来到/ 北京/ 清华大学
  7. 他, 来到, 了, 网易, 杭研, 大厦
  8. 小明, 硕士, 毕业, 于, 中国, 科学, 学院, 科学院, 中国科学院, 计算, 计算所, ,, 后, 在, 日本, 京都, 大学, 日本京都大学, 深造

复制代码

结巴分词安装成功!

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

该用户从未签到

0

主题

7

帖子

162

积分

注册会员

Rank: 2

积分
162
发表于 2016-4-1 17:34:17 | 显示全部楼层
结巴分词在文本挖掘用一般使用哪种模式,精确模式么?
回复 支持 反对

使用道具 举报

该用户从未签到

0

主题

1

帖子

141

积分

注册会员

Rank: 2

积分
141
发表于 2016-10-28 21:45:05 | 显示全部楼层
回复

使用道具 举报

该用户从未签到

0

主题

39

帖子

235

积分

中级会员

Rank: 3Rank: 3

积分
235
发表于 2017-5-20 14:47:01 | 显示全部楼层
thanks a lot!!!
回复 支持 反对

使用道具 举报

该用户从未签到

0

主题

1

帖子

145

积分

注册会员

Rank: 2

积分
145
发表于 2018-3-14 16:47:03 | 显示全部楼层
python3 没有sys了
with open(seg_path+file_path,'wb') as file_write:
            file_write.write( " ".join(corpus_seg).encode("utf-8") )
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表