knitr::opts_chunk$set(echo=TRUE)
library(XML)
library(RCurl)
strurl<-‘https://movie.douban.com/top250’
movie<-RCurl::getURL(strurl)
movie<-htmlParse(movie)
nodes<-getNodeSet(movie,”//div[@class=’info’]//a//span[1]”)
moviename<-sapply(nodes,xmlValue)
moviename[1:10]
[1] “肖申克的救赎” “霸王别姬” “阿甘正传” “这个杀手不太冷”
[5] “美丽人生” “泰坦尼克号” “千与千寻” “辛德勒的名单”
[9] “盗梦空间” “忠犬八公的故事”
分类: R语言
-
R 爬取豆瓣电影 top250
-
R词云制作jieba&wordcloud2
用jiebaR分词,运行速度比用tm,tmcn,Rwordseg分词快很多!试下这段代码:
library(jiebaR)
library(wordcloud2)
data <- read.csv(“d.csv”,encoding=”UTF-8″) #注意 UTF-8 大写,防止出错!
#d.csv格式
#id, comment
#kdkt kkdfirekk
#大好河山
#wulunruhe 真实不虚哦耶
#……
data <- unique(data)# 去除重复的数据
data <- gsub(‘[a-zA-Z0-9]’,’ ‘,data$comment)
data<-sample(data,50)
data <- gsub(‘[的是了不]’,’ ‘,data)
cutter=worker() #结巴分词实例cutter
text<-segment(data, cutter, mod = NULL)
data=freq(text)
wordcloud2(data,shape = ‘circle’)
wordcloud2(data,shape = ‘star’)
————————————————————————-R语言绘制词云
需要的程序包
jiebaR,jiebaRD:分词
installpackage('jiebaR','jiebaRD','wordcloud2) #安装程序包运行程序包
library(jiebaR,jiebaRD) library(wordcloud2)导入数据
news <- read.csv(''C:/Users/Administrator/Desktop/news.csv'') #读取csv格式文件 news <- read_excel(''C:/Users/Administrator/Desktop/news.csv'') #读取xls 和 xlsx 格式文件text<-news$x #提取文本数据所在列
分词
mixseg<-worker("mix") #建立模型分词 a<-segment(text,mixseg) #开始分词去停用词
需要将对研究无意义的词去除,再次只提供了示例代码。
stopwords <- read.table("C:/Users/Thinkpad/Desktop/停用词.txt") class(stopwords) stopwords <- as.vector(stopwords[,1]) wordResult <- removeWords(a,stopwords)绘制词云
freq<-table(a) #词频统计 freq #查看词频统计结果 wordcloud2(freq,shape='star') #绘制词云参数解读
wordcloud2(data, size = 1, minSize = 0, gridSize = 0, fontFamily = 'Segoe UI', fontWeight = 'bold', color = 'random-dark', backgroundColor = "white", minRotation = -pi/4, maxRotation = pi/4, shuffle = TRUE, rotateRatio = 0.4, shape = 'circle', ellipticity = 0.65, widgetsize = NULL, figPath = NULL, hoverFunction = NULL)data:包含每列中的word和freq的数据帧,按照word出现的顺序由内向外画图(可以按照freq降序美化wordcloud)。
size:字体大小,默认为1。较大的大小意味着较大的单词。
fontFamily:要使用的字体。
fontWeight:字体重量,例如normal, bold or 600
color:文本的颜色,可以使用关键字random-dark和random-light。也支持颜色矢量。
minSize:字幕的字符串
backgroundColor:背景的颜色。
gridSize:用于标记画布可用性的网格大小,网格大小越大,单词之间的差距越大。
minRotation:文本应该旋转的最小旋转(以rad为单位)。
maxRotation:文本应旋转的最大旋转(以rad为单位)。
rotateRatio:单词旋转的概率。将数字设置为1以始终旋转。
shape:绘制“云”的形状。 ‘circle’ (default), ‘cardioid’ (心形’,苹果或心形曲线,最知名的极坐标方程), ‘diamond’ (菱形), ‘triangle-forward’(三角形前移), ‘triangle’(三角形), ‘pentagon’(五角形), and ‘starellipticity:平坦度
figPath:画布路径 -
R读取网页表格(pm2.5)
Sys.setlocale(“LC_ALL”,”Chinese”)
library(“XML”)
strurl<-“http://pm25.in/rank”
tables<-readHTMLTable(strurl,header=FALSE,stringAsFactors=FALSE,encoding=”UTF-8″)
head(tables[[1]]) -
R语言读取豆瓣电影top10
library(XML)
library(RCurl)
strurl<-‘https://movie.douban.com/top250’
movie<-RCurl::getURL(strurl)
movie=htmlParse(movie)
nodes<-getNodeSet(movie,”//div[@class=’info’]//a//span[1]”)
moviename<-sapply(nodes, xmlValue)
moviename[1:10][1] “肖申克的救赎” “霸王别姬” “阿甘正传” “这个杀手不太冷” “泰坦尼克号” “美丽人生” “千与千寻”
[8] “辛德勒的名单” “盗梦空间” “忠犬八公的故事” -
R电子书整理
推荐的书籍来自人大经济论坛R版,唯一的修改是<the art of r programming>中文版已经有了,主要是添加了这些书籍的下载链接(最近添加了一本新书<R graphics cookbook>)。可以在书籍上点击右健,选择另存为即可下载。
kongying168 发表于 2013-4-8 15:56:31 |只看作者 |倒序
以前人的烦恼是没有书可读,现在人的烦恼是书太多了。关于R语言的书已经出版很多了,博主大约读过其中的四十多本,但是书在精,而不在多,学在透,而不在速。把有限的时间放到无限的书海中,这不是阅读的真意。本着造福学习者的角度,博主精选出十二本R书。什么是好书的标准?我以为是:有案例,有代码,有习题,有讲解,逻辑清楚,排版精良,体系完备,互有补充,内容千锤百炼,值得反复揣摩。书单均为英文版,都可以从网上找到。当然这份书单的选择是有主观偏见的。一、初学入门
《R in Action》
《The Art of_R Programming》
入门者可首选两本,前者从统计角度入手,分高中低三部分由浅入深的讲解了如何用R来实现统计分析,另外此书已经有中文版面世。后者从程序编写的角度入手,对R的本身特点进行了清晰的介绍。中文版也已经有了。二、统计进阶:
《A Handbook of Statistical Analyses_Using_R》
《Modern Applied Statistics With S》
这两本书基本上涵盖了统计的一些高阶内容,例如多元分析、多层回归模型、荟萃分析、生存分析等内容。案例丰富,公式不多,值得反复学习参考。三、科学计算
《Introduction to Scientific Programming and Simulation Using R》
除了统计分析外,此书独特之处在于使用R来做数值分析,如求根,最优化,数值积分。还包括了一些常见的模拟技术。书后的习题和最后的案例非常有用。该书的中文版据说还在翻译。四、数据挖掘
《Data Mining with R_ Learning with Case Studies》
《Machine Learning for Hackers》
两本侧重于数据挖掘的R书,全是以案例为线索,示范的代码量很大。跟一遍下来会有很大的收获。五、数据绘图:
《ggplot2 Elegant Graphics for Data Analysis》
ggplot2还有什么好说的呢,R中最优秀的绘图包,但由于近期该包升级很快,这书显得有些过时。好在中文版进行了大幅更新,即将面世。《R graphics cookbook》
2013版,主要以ggplot为基础,按照图的类别分别介绍如何在R中作图。对于有些作图要求,使用了ggplot以外的其他包。可以作为作图时的参考手册。六、参考手册:
《R Cookbook》
《R in a Nutshell》
有时候我们需要类似词典的案头参考手册,以方便随时查阅。又或者可以通读一遍以查漏补缺。上面两本书虽然有些厚度,但仍然推荐之。后者的中文版也在翻译状态。七、高级编程:
《R Programming for Bioinformatics》(目前我这里还没有这本书)
《software for data analysis programming with R》
如果你是初学者,不要去看上面两本书。如果你想进阶为专家级R用户,那你需要精读它们。前者讲解了R少为人知的一面,例如字符处理、正则表达和XML,还有报错处理以及与其它语言的交互。后者更是编写生产级代码的圣经指南。转自朝复暮