• 回答数

    0

  • 浏览数

    565

  • 收藏数

    0

作者:团子良 发表于 2022-12-27 16:46:37
跳转到指定楼层
数据源是安卓的项目,把同一类功能的安卓代码的头部,每一个文件都有import 包名。把所有import的包名都抓了下来存到了mysql, 这是数据源 , 需要用r分析这些包名。
用r给这些包做统计,同名的包有多少,占百分之多少,做可视化图,打标签。
这个项目的目的是,比如一类功能是发email的app,每一个项目里java文件头部都有引用的包名,通过把所有的包名一分析,发现80%的项目里面都有同一个包,那么就认为这个包的功能就是email , 然后再通过标签关联java文件 。
导入数据



  1. channel <- odbcConnect("test", uid="root", pwd="123");

  2. sqlTables(channel);#查看数据中的表

  3. data<-sqlFetch(channel,"test")# 查看表的内容,存到数据框里
复制代码
画直方图显示词频重合率
  1. #做出百分比统计直方图

  2. barplot(table(data$package)/sum(table(data$package)))


  3. # 一共多少包

  4. unique(data$package)
复制代码






删去没有重复的包


  1. norepeat=which(table(data$package)==1)

  2. data=data[-as.numeric(norepeat),]



  3. for(i in names(table(data$package))[index][-1]){
  4.   #找出project名
  5.   data$project[data$package ==i]
复制代码
变换数据

  1. cordata2=matrix(0,length(unique(data$project)),length(unique(data$package)))
  2. colnames(cordata2)=unique(data$package)
  3. rownames(cordata2)=unique(data$project)
复制代码


计算出重复率





画网络图
这个是git上的项目,每一个点是一个项目,不同颜色表示不同语言,每个点之间有线连着,表示每个项目的联系,可能是关注人一样,也可能是作者一样 。当把包名打上标签后,有可能不同包名是一个标签,那么就可以画出这种联系图。
  1.    }
  2.   }
  3.   close(f)
  4.   cat(paste(c("Successfully output to ", getwd(), "/", filename, "/n"), collapse=""))
  5. }

  6. topajek(events, filename="mypajek.net")
复制代码
对图进行删减,删去连接少的边

  1. newe = censor.edgeweight(e, floor=0.5); newe
  2. V(e)$color = rainbow(max(V(e)$sg),alpha=0.8)[V(e)$sg]
  3. plot(newe,layout=layout.fruchterman.reingold, vertex.size=5,
  4.      vertex.color=V(e)$color, edge.width=1,edge.arrow.size=0.08,
复制代码


用网络图可视化
所有数据:



以chat为基地:




以email为基地:




Kmeans算法聚类
聚类数为3,将数据聚成3个类别
  1. y$name1=as.numeric(y$name)
复制代码
可视化聚类结果











本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册 微信登录

x
分享:
回复

使用道具

成为第一个回答人

高级模式 评论
您需要登录后才可以回帖 登录 | 立即注册 微信登录