分类: R语言

  • R 爬取豆瓣电影 top250

    knitr::opts_chunk$set(echo=TRUE)
    library(XML)
    library(RCurl)
    strurl<-‘https://movie.douban.com/top250’
    movie<-RCurl::getURL(strurl)
    movie<-htmlParse(movie)
    nodes<-getNodeSet(movie,”//div[@class=’info’]//a//span[1]”)
    moviename<-sapply(nodes,xmlValue)
    moviename[1:10]
    [1] “肖申克的救赎” “霸王别姬” “阿甘正传” “这个杀手不太冷”
    [5] “美丽人生” “泰坦尼克号” “千与千寻” “辛德勒的名单”
    [9] “盗梦空间” “忠犬八公的故事”

  • R词云制作jieba&wordcloud2

    用jiebaR分词,运行速度比用tm,tmcn,Rwordseg分词快很多!试下这段代码:
    library(jiebaR)
    library(wordcloud2)
    data <- read.csv(“d.csv”,encoding=”UTF-8″) #注意 UTF-8 大写,防止出错!
    #d.csv格式
    #id, comment
    #kdkt kkdfirekk
    #大好河山
    #wulunruhe 真实不虚哦耶
    #……
    data <- unique(data)# 去除重复的数据
    data <- gsub(‘[a-zA-Z0-9]’,’ ‘,data$comment)
    data<-sample(data,50)
    data <- gsub(‘[的是了不]’,’ ‘,data)
    cutter=worker() #结巴分词实例cutter
    text<-segment(data, cutter, mod = NULL)
    data=freq(text)
    wordcloud2(data,shape = ‘circle’)
    wordcloud2(data,shape = ‘star’)
    ————————————————————————-

    R语言绘制词云

    需要的程序包

    jiebaR,jiebaRD:分词

    installpackage('jiebaR','jiebaRD','wordcloud2) #安装程序包

    运行程序包

    library(jiebaR,jiebaRD)
    library(wordcloud2)

    导入数据

    news <- read.csv(''C:/Users/Administrator/Desktop/news.csv'') #读取csv格式文件
    news <- read_excel(''C:/Users/Administrator/Desktop/news.csv'') #读取xls 和 xlsx 格式文件
    text<-news$x #提取文本数据所在列

    分词

    mixseg<-worker("mix") #建立模型分词
    a<-segment(text,mixseg) #开始分词

    去停用词

    需要将对研究无意义的词去除,再次只提供了示例代码。

    stopwords <- read.table("C:/Users/Thinkpad/Desktop/停用词.txt")
    class(stopwords)
    stopwords <- as.vector(stopwords[,1])
    wordResult <- removeWords(a,stopwords)

    绘制词云

    freq<-table(a) #词频统计
    freq   #查看词频统计结果
    wordcloud2(freq,shape='star') #绘制词云

    参数解读

    wordcloud2(data, size = 1, minSize = 0, gridSize =  0,
    fontFamily = 'Segoe UI', fontWeight = 'bold',
    color = 'random-dark', backgroundColor = "white",
    minRotation = -pi/4, maxRotation = pi/4, shuffle = TRUE,
    rotateRatio = 0.4, shape = 'circle', ellipticity = 0.65,
    widgetsize = NULL, figPath = NULL, hoverFunction = NULL)
    
    

    data:包含每列中的word和freq的数据帧,按照word出现的顺序由内向外画图(可以按照freq降序美化wordcloud)。
    size:字体大小,默认为1。较大的大小意味着较大的单词。
    fontFamily:要使用的字体。
    fontWeight:字体重量,例如normal, bold or 600
    color:文本的颜色,可以使用关键字random-dark和random-light。也支持颜色矢量。
    minSize:字幕的字符串
    backgroundColor:背景的颜色。
    gridSize:用于标记画布可用性的网格大小,网格大小越大,单词之间的差距越大。
    minRotation:文本应该旋转的最小旋转(以rad为单位)。
    maxRotation:文本应旋转的最大旋转(以rad为单位)。
    rotateRatio:单词旋转的概率。将数字设置为1以始终旋转。
    shape:绘制“云”的形状。 ‘circle’ (default), ‘cardioid’ (心形’,苹果或心形曲线,最知名的极坐标方程), ‘diamond’ (菱形), ‘triangle-forward’(三角形前移), ‘triangle’(三角形), ‘pentagon’(五角形), and ‘star

    ellipticity:平坦度
    figPath:画布路径

  • R读取网页表格(pm2.5)

    Sys.setlocale(“LC_ALL”,”Chinese”)
    library(“XML”)
    strurl<-“http://pm25.in/rank”
    tables<-readHTMLTable(strurl,header=FALSE,stringAsFactors=FALSE,encoding=”UTF-8″)
    head(tables[[1]])

  • R语言读取豆瓣电影top10

    library(XML)
    library(RCurl)
    strurl<-‘https://movie.douban.com/top250’
    movie<-RCurl::getURL(strurl)
    movie=htmlParse(movie)
    nodes<-getNodeSet(movie,”//div[@class=’info’]//a//span[1]”)
    moviename<-sapply(nodes, xmlValue)
    moviename[1:10]

    [1] “肖申克的救赎” “霸王别姬” “阿甘正传” “这个杀手不太冷” “泰坦尼克号” “美丽人生” “千与千寻”
    [8] “辛德勒的名单” “盗梦空间” “忠犬八公的故事”

  • R电子书整理

    推荐的书籍来自人大经济论坛R版,唯一的修改是<the art of r programming>中文版已经有了,主要是添加了这些书籍的下载链接(最近添加了一本新书<R graphics cookbook>)。可以在书籍上点击右健,选择另存为即可下载。

    kongying168 发表于 2013-4-8 15:56:31 |只看作者 |倒序
    以前人的烦恼是没有书可读,现在人的烦恼是书太多了。关于R语言的书已经出版很多了,博主大约读过其中的四十多本,但是书在精,而不在多,学在透,而不在速。把有限的时间放到无限的书海中,这不是阅读的真意。本着造福学习者的角度,博主精选出十二本R书。什么是好书的标准?我以为是:有案例,有代码,有习题,有讲解,逻辑清楚,排版精良,体系完备,互有补充,内容千锤百炼,值得反复揣摩。书单均为英文版,都可以从网上找到。当然这份书单的选择是有主观偏见的。

    一、初学入门
    《R in Action》
    《The Art of_R Programming》
    入门者可首选两本,前者从统计角度入手,分高中低三部分由浅入深的讲解了如何用R来实现统计分析,另外此书已经有中文版面世。后者从程序编写的角度入手,对R的本身特点进行了清晰的介绍。中文版也已经有了。

    二、统计进阶
    《A Handbook of Statistical Analyses_Using_R》
    《Modern Applied Statistics With S》
    这两本书基本上涵盖了统计的一些高阶内容,例如多元分析、多层回归模型、荟萃分析、生存分析等内容。案例丰富,公式不多,值得反复学习参考。

    三、科学计算
    《Introduction to Scientific Programming and Simulation Using R》
    除了统计分析外,此书独特之处在于使用R来做数值分析,如求根,最优化,数值积分。还包括了一些常见的模拟技术。书后的习题和最后的案例非常有用。该书的中文版据说还在翻译。

    四、数据挖掘
    《Data Mining with R_ Learning with Case Studies》
    《Machine Learning for Hackers》
    两本侧重于数据挖掘的R书,全是以案例为线索,示范的代码量很大。跟一遍下来会有很大的收获。

    五、数据绘图
    《ggplot2 Elegant Graphics for Data Analysis》
    ggplot2还有什么好说的呢,R中最优秀的绘图包,但由于近期该包升级很快,这书显得有些过时。好在中文版进行了大幅更新,即将面世。

    《R graphics cookbook》
    2013版,主要以ggplot为基础,按照图的类别分别介绍如何在R中作图。对于有些作图要求,使用了ggplot以外的其他包。可以作为作图时的参考手册。

    六、参考手册
    《R Cookbook》
    《R in a Nutshell》
    有时候我们需要类似词典的案头参考手册,以方便随时查阅。又或者可以通读一遍以查漏补缺。上面两本书虽然有些厚度,但仍然推荐之。后者的中文版也在翻译状态。

    七、高级编程
    《R Programming for Bioinformatics》(目前我这里还没有这本书)
    《software for data analysis programming with R》
    如果你是初学者,不要去看上面两本书。如果你想进阶为专家级R用户,那你需要精读它们。前者讲解了R少为人知的一面,例如字符处理、正则表达和XML,还有报错处理以及与其它语言的交互。后者更是编写生产级代码的圣经指南。

    http://www.bagualu.net/wordpress/archives/4765

    转自朝复暮