分类： R语言

R 爬取豆瓣电影 top250

knitr::opts_chunk$set(echo=TRUE)
library(XML)
library(RCurl)
strurl<-‘https://movie.douban.com/top250’
movie<-RCurl::getURL(strurl)
movie<-htmlParse(movie)
nodes<-getNodeSet(movie,”//div[@class=’info’]//a//span[1]”)
moviename<-sapply(nodes,xmlValue)
moviename[1:10]
[1] “肖申克的救赎” “霸王别姬” “阿甘正传” “这个杀手不太冷”
[5] “美丽人生” “泰坦尼克号” “千与千寻” “辛德勒的名单”
[9] “盗梦空间” “忠犬八公的故事”

2020年4月16日
R t 检验方法

下载此文件，了解R内置数据sleep t.test 下载

2020年3月30日
R词云制作jieba&wordcloud2
用jiebaR分词，运行速度比用tm,tmcn,Rwordseg分词快很多！试下这段代码：
library(jiebaR)
library(wordcloud2)
data <- read.csv(“d.csv”,encoding=”UTF-8″) #注意 UTF-8 大写，防止出错！
#d.csv格式
#id, comment
#kdkt kkdfirekk
#大好河山
#wulunruhe 真实不虚哦耶
#……
data <- unique(data)# 去除重复的数据
data <- gsub(‘[a-zA-Z0-9]’,’ ‘,data$comment)
data<-sample(data,50)
data <- gsub(‘[的是了不]’,’ ‘,data)
cutter=worker() #结巴分词实例cutter
text<-segment(data, cutter, mod = NULL)
data=freq(text)
wordcloud2(data,shape = ‘circle’)
wordcloud2(data,shape = ‘star’)
————————————————————————-

R语言绘制词云

需要的程序包

jiebaR，jiebaRD：分词
```
installpackage('jiebaR','jiebaRD','wordcloud2) #安装程序包
```
运行程序包
```
library(jiebaR,jiebaRD)
library(wordcloud2)
```
导入数据
```
news <- read.csv(''C:/Users/Administrator/Desktop/news.csv'') #读取csv格式文件
news <- read_excel(''C:/Users/Administrator/Desktop/news.csv'') #读取xls 和 xlsx 格式文件
```
```
text<-news$x #提取文本数据所在列
```
分词
```
mixseg<-worker("mix") #建立模型分词
a<-segment(text,mixseg) #开始分词
```
去停用词

需要将对研究无意义的词去除，再次只提供了示例代码。
```
stopwords <- read.table("C:/Users/Thinkpad/Desktop/停用词.txt")
class(stopwords)
stopwords <- as.vector(stopwords[,1])
wordResult <- removeWords(a,stopwords)
```
绘制词云
```
freq<-table(a) #词频统计
freq   #查看词频统计结果
wordcloud2(freq,shape='star') #绘制词云
```
参数解读
```
wordcloud2(data, size = 1, minSize = 0, gridSize =  0,
fontFamily = 'Segoe UI', fontWeight = 'bold',
color = 'random-dark', backgroundColor = "white",
minRotation = -pi/4, maxRotation = pi/4, shuffle = TRUE,
rotateRatio = 0.4, shape = 'circle', ellipticity = 0.65,
widgetsize = NULL, figPath = NULL, hoverFunction = NULL)
```
data：包含每列中的word和freq的数据帧，按照word出现的顺序由内向外画图（可以按照freq降序美化wordcloud）。
size：字体大小，默认为1。较大的大小意味着较大的单词。
fontFamily：要使用的字体。
fontWeight：字体重量，例如normal, bold or 600
color：文本的颜色，可以使用关键字random-dark和random-light。也支持颜色矢量。
minSize：字幕的字符串
backgroundColor：背景的颜色。
gridSize：用于标记画布可用性的网格大小，网格大小越大，单词之间的差距越大。
minRotation：文本应该旋转的最小旋转（以rad为单位）。
maxRotation：文本应旋转的最大旋转（以rad为单位）。
rotateRatio：单词旋转的概率。将数字设置为1以始终旋转。
shape：绘制“云”的形状。 ‘circle’ (default), ‘cardioid’ (心形’，苹果或心形曲线，最知名的极坐标方程), ‘diamond’ (菱形), ‘triangle-forward’(三角形前移), ‘triangle’(三角形), ‘pentagon’(五角形), and ‘star

ellipticity：平坦度
figPath：画布路径
2020年1月4日
R读取网页表格（pm2.5）

Sys.setlocale(“LC_ALL”,”Chinese”)
library(“XML”)
strurl<-“http://pm25.in/rank”
tables<-readHTMLTable(strurl,header=FALSE,stringAsFactors=FALSE,encoding=”UTF-8″)
head(tables[[1]])

2020年1月2日
R语言读取豆瓣电影top10

library(XML)
library(RCurl)
strurl<-‘https://movie.douban.com/top250’
movie<-RCurl::getURL(strurl)
movie=htmlParse(movie)
nodes<-getNodeSet(movie,”//div[@class=’info’]//a//span[1]”)
moviename<-sapply(nodes, xmlValue)
moviename[1:10]

[1] “肖申克的救赎” “霸王别姬” “阿甘正传” “这个杀手不太冷” “泰坦尼克号” “美丽人生” “千与千寻”
[8] “辛德勒的名单” “盗梦空间” “忠犬八公的故事”

2020年1月1日
R电子书整理

推荐的书籍来自人大经济论坛R版，唯一的修改是<the art of r programming>中文版已经有了，主要是添加了这些书籍的下载链接（最近添加了一本新书<R graphics cookbook>）。可以在书籍上点击右健，选择另存为即可下载。

kongying168 发表于 2013-4-8 15:56:31 |只看作者 |倒序
以前人的烦恼是没有书可读，现在人的烦恼是书太多了。关于R语言的书已经出版很多了，博主大约读过其中的四十多本，但是书在精，而不在多，学在透，而不在速。把有限的时间放到无限的书海中，这不是阅读的真意。本着造福学习者的角度，博主精选出十二本R书。什么是好书的标准？我以为是：有案例，有代码，有习题，有讲解，逻辑清楚，排版精良，体系完备，互有补充，内容千锤百炼，值得反复揣摩。书单均为英文版，都可以从网上找到。当然这份书单的选择是有主观偏见的。

一、初学入门
《R in Action》
《The Art of_R Programming》
入门者可首选两本，前者从统计角度入手，分高中低三部分由浅入深的讲解了如何用R来实现统计分析，另外此书已经有中文版面世。后者从程序编写的角度入手，对R的本身特点进行了清晰的介绍。中文版也已经有了。

二、统计进阶：
《A Handbook of Statistical Analyses_Using_R》
《Modern Applied Statistics With S》
这两本书基本上涵盖了统计的一些高阶内容，例如多元分析、多层回归模型、荟萃分析、生存分析等内容。案例丰富，公式不多，值得反复学习参考。

三、科学计算
《Introduction to Scientific Programming and Simulation Using R》
除了统计分析外，此书独特之处在于使用R来做数值分析，如求根，最优化，数值积分。还包括了一些常见的模拟技术。书后的习题和最后的案例非常有用。该书的中文版据说还在翻译。

四、数据挖掘
《Data Mining with R_ Learning with Case Studies》
《Machine Learning for Hackers》
两本侧重于数据挖掘的R书，全是以案例为线索，示范的代码量很大。跟一遍下来会有很大的收获。

五、数据绘图：
《ggplot2 Elegant Graphics for Data Analysis》
ggplot2还有什么好说的呢，R中最优秀的绘图包，但由于近期该包升级很快，这书显得有些过时。好在中文版进行了大幅更新，即将面世。

《R graphics cookbook》
2013版，主要以ggplot为基础，按照图的类别分别介绍如何在R中作图。对于有些作图要求，使用了ggplot以外的其他包。可以作为作图时的参考手册。

六、参考手册：
《R Cookbook》
《R in a Nutshell》
有时候我们需要类似词典的案头参考手册，以方便随时查阅。又或者可以通读一遍以查漏补缺。上面两本书虽然有些厚度，但仍然推荐之。后者的中文版也在翻译状态。

七、高级编程：
《R Programming for Bioinformatics》(目前我这里还没有这本书)
《software for data analysis programming with R》
如果你是初学者，不要去看上面两本书。如果你想进阶为专家级R用户，那你需要精读它们。前者讲解了R少为人知的一面，例如字符处理、正则表达和XML，还有报错处理以及与其它语言的交互。后者更是编写生产级代码的圣经指南。

http://www.bagualu.net/wordpress/archives/4765

转自朝复暮

2019年12月30日

分类： R语言

R 爬取豆瓣电影 top250

R t 检验方法

R词云制作jieba&wordcloud2

R语言绘制词云

需要的程序包

运行程序包

导入数据

分词

去停用词

绘制词云

参数解读

R读取网页表格（pm2.5）

R语言读取豆瓣电影top10

R电子书整理