Mryqu's Notes


  • 首页

  • 搜索
close

又被Mining Massive Datasets的老师伤了!

时间: 2014-11-07   |   分类: DataScience     |   阅读: 381 字 ~2分钟
Mining Massive Datasets这周的课讲聚类和计算广告学:二分图匹配。课后的作业好几个都是一眼看不出来,只好写程序算。 其中有一道题是这个样子: We wish to cluster the following set of points: into 10 clusters. We initially choose each of the green points(25,125), (44,105), (29,97), (35,63), (55,63), (42,57), (23,40),(64,37), (33,22), and (55,20) as a centroid. Assign each of thegold points to their nearest centroid. (Note: the scales of thehorizontal and vertical axes differ, so you really need to applythe formula for distance of points; you can’t just “eyeball” it.)Then, recompute the centroids of each of the clusters.
阅读全文 »

igraph包的cliques函数总也不返回

时间: 2014-10-29   |   分类: DataScience     |   阅读: 40 字 ~1分钟
做社交网络分析课的作业时碰到一个小麻烦,igraph包的cliques函数总也不返回,最后只能强行终止但是数据量也不大,而且largest.cliques和clique.number都是立刻返回,不解呀! > library(igraph) > g = read.graph("wikipedia.gml",format="gml") > cliques(as.undirected(g)) > largest.cliques(as.undirected(g)) [[1]] [1] 26526 247 370 2119 6625 7826 8277 10019 11773 11801 13289 15758 [13] 16845 16885 16937 18925 22144 22644 23318 24585 24654 25487 > clique.number(as.undirected(g)) [1] 22

A Short Tutorial on Graph Laplacians, Laplacian Embedding, and Spectral Clustering

时间: 2014-10-24   |   分类: DataScience     |   阅读: 1 字 ~1分钟
http://csustan.csustan.edu/~tom/Lecture-Notes/Clustering/GraphLaplacian-tutorial.pdf

创建MySQL表失败,“show tables”命令显示表存在却无法删除

时间: 2014-10-19   |   分类: db+nosql     |   阅读: 95 字 ~1分钟
在MySQL表中创建一个表table_c失败了,返回错误ERROR 1146(42S02);结果发现MySQL显示有这个表,却无法查询和删除。``` mysql> create table table_c (………); ERROR 1146 (42S02): Table ‘yqutesting.table_c’ doesn’t exist mysql> show tables; +———————–+ | Tables_in_yqutesting | +———————–+ | table_a | | table_b | | table_c | +———————–+ 3 rows in set (0.00 sec) mysql> select * from table_c; ERROR 1146 (42S02): Table ‘yqutesting.table_c’ doesn’t exist mysql> drop table table_c; ERROR 1051 (42S02): Unknown table ’table_c’ 结果还是drop掉yqutesting数据库,修正了table_c的定义重新创建数据库和所有表完事。 参考:[ MySQL Create Table Error - Table Doesn't Exist](http://stackoverflow.com/questions/18034485/mysql-create-table-error-table-doesnt-exist)[ MySQL > Table doesn't exist.
阅读全文 »

[Hadoop] Map Reduce Slot

时间: 2014-10-17   |   分类: BigData     |   阅读: 7 字 ~1分钟
MR1 在MR1中,每个节点可以启动的并发map和reduce任务数(即slot数)由管理员通过mapred-site.xml中mapred.tasktracker.map.tasks.maximum (MR2中为mapreduce.tasktracker.map.tasks.maximum )和mapred.tasktracker.reduce.tasks.maximum (MR2中为mapreduce.tasktracker.reduce.tasks.maximum )配置指定。(下面的参考帖子提到过作业级参数mapred.map.tasks.maximum和mapred.reduce.tasks.maximum,但是在HADOOP-4295并没有通过。) 此外,管理员通过mapred.child.配置设置mapper或reducer默认的内存分配量。

[社交网络分析课] 笔记

时间: 2014-10-08   |   分类: DataScience     |   阅读: 790 字 ~4分钟
本文为Social Network Analysis学习笔记,课程地址为https://www.coursera.org/course/sna。 第一讲:SNA工具 Gephi https://gephi.github.io/ 用于网络、复杂系统和动态封层图形的交互式可视化及研究平台,支持度、介数、紧密性等网络中心性指标以及密度、路径长度、网络直径、模块度、集聚系数等指标,支持GDF(GUESS)、GraphML (NodeXL)、GML、NET (Pajek)、GEXF等文件格式。 开源,支持Windows、Linux和Mac OS X平台 Gephi指南 使用Gephi可视化twitter网络 Twitter上的埃及革命 NetLogo https://ccl.northwestern.edu/netlogo/index.shtml 多主体仿真建模工具。可用于模拟各种社会现象和自然现象,通过设置个体行为并使多个个体自由运行来研究个体行为对于复杂系统的影响和变化。 开源,支持Windows、Linux和Mac平台 NetLogo帮助文档 Lada的多个特定网络属性演示 iGraph http://igraph.org/ 网络分析工具库,侧重于执行效率、可移植性和易用性,可被R、Python和C/C++调用。 开源,支持Windows、Linux和Mac OS X平台 R iGraph帮助文档 Python iGraph帮助文档 C iGraph帮助文档 Pajek http://pajek.imfm.si/doku.php 网络分析和可视化工具,功能丰富,通过下拉菜单进行各种操作。 免费,支持Windows平台,也可以在Linux(64)和Mac平台上仿真(Wine)运行 Pajek参考手册 UCINet https://sites.google.com/site/ucinetsoftware/ 社交网络数据分析软件包,功能丰富。 商业软件,支持Windows平台 UCINet文档 NodeXL http://nodexl.codeplex.com/ 交互式网络可视化和分析工具,以MS Excel模板的形式利用MSExcel作为数据展示和分析平台。可以定制图像外观、无损缩放、移动图像,动态过滤顶点和边,提供多种布局方式,查找群和相关边,支持多种数据格式输入和输出。 开源,支持Windows Excel 2007/2010/2013 NodeXL文档 其他 R R的SNA库(见统计软件杂志上关于sna包的文章):功能丰富,偏于统计 如果使用Gephi的话,可以看一下用于读写Gephi gexf图形文件的rgexf库。 Python NetworkX:开源Python包,用于复杂网络的创建、操作和复杂网络的结构、动力学和功能方面的研究。 Sage:开源基于Web的数学计算环境,包含NetworkX以及自己的图形库。这里有三篇重要文档,通用图参考文档、 无向图参考文档 和 有向图参考文档。 graph-tool:高效python模块,用于图/网络的操作和统计分析。 Newt Java Jung(Java Universal Network/Graph Framework):Java平台网络/图应用开发的一种通用基础架构。其目的在于为开发关于图或网络结构的应用程序提供一个易用、通用的基础架构。使用JUNG功能调用,可以方便的构造图或网络的数据结构,应用经典算法(如聚类、最短路径,最大流量等),编写和测试用户自己的算法,以及可视化的显示数据的网络图。 Neo4j:图数据库 Blueprints:类似于JDBC,但是用于图数据库 SoNIA(Social Network Image Animator):用于动态或纵向数据的可视化。 JavaScript D3.
阅读全文 »

[Hadoop] 通过MultipleOutputs生成多输出文件

时间: 2014-09-29   |   分类: BigData     |   阅读: 50 字 ~1分钟
即前一博文[Hadoop] 通过MultipleInputs处理多输入文件展示如何处理MapReduce多输入问题,本文将展示一下如何处理MapReduce多输出的方法。 MultipleOutputs示例 MultipleOutputsDemo.java源码 Scores.txt Tomas,100 Edward,81 Henry,59 Gordon,60 James,97 Percy,93 Toby,77 Emily,87 Duke,68 Donald,47 Douglas,35 执行 hadoop jar YquMapreduceDemo.jar MultipleOutputsDemo /user/hadoop/mos_input/scores.txt /user/hadoop/mos_output 测试结果 MultipleOutputs分析 普通Driver |API|Job属性 |—– |Job.setOutputFormatClass|mapreduce.job.outputformat.class示例:org.apache.hadoop.mapreduce.lib.output.TextOutputFormat |Job.setOutputKeyClass|mapreduce.job.output.key.class示例:org.apache.hadoop.io.Text |Job.setOutputValueClass|mapreduce.job.output.value.class示例:org.apache.hadoop.io.IntWritable 使用MultipleOutputs的Driver |API|Job属性 |—– |MultipleOutputs.addNamedOutput|mapreduce.multipleoutputs 示例:pass fail mapreduce.multipleoutputs.namedOutput.pass.format 示例:org.apache.hadoop.mapreduce.lib.output.TextOutputFormat mapreduce.multipleoutputs.namedOutput.pass.key 示例:org.apache.hadoop.io.NullWritable mapreduce.multipleoutputs.namedOutput.pass.value 示例:org.apache.hadoop.io.Text mapreduce.multipleoutputs.namedOutput.fail.format 示例:org.apache.hadoop.mapreduce.lib.output.TextOutputFormat mapreduce.multipleoutputs.namedOutput.fail.key 示例:org.apache.hadoop.io.NullWritable mapreduce.multipleoutputs.namedOutput.fail.value 示例:org.apache.hadoop.io.Text 通过调用org.apache.hadoop.mapreduce.lib.output.MultipleOutputs.write方法,根据相应NamedOutput相应的OutputFormat、OutputKeyClass和OutputValueClass创建NamedOutput自己的RecordWriter,完成相应的输出。

[Hadoop] 通过MultipleInputs处理多输入文件

时间: 2014-09-29   |   分类: BigData     |   阅读: 53 字 ~1分钟
一般MapReduce程序仅处理一个输入文件,但当我们必须处理多个输入文件时,普通MapReduce方法就无能为力了,这时候可以使用org.apache.hadoop.mapreduce.lib.input.MultipleInputs类搞定这一问题。 MultipleInputs示例 MultipleInputsDemo.java源码 people.txt 1,Tomas,1 2,Edward,2 3,Henry,3 4,Gordon,4 5,James,4 6,Percy,3 7,Toby,2 8,Emily,1 9,Duke,3 10,Donald,3 11,Douglas,3 locations.txt 1,China 2,USA 3,Canada 4,New Zealand 执行 hadoop jar YquMapreduceDemo.jar MultipleInputsDemo /user/hadoop/mijoin/people.txt /user/hadoop/mijoin/locations.txt /user/hadoop/mijoin_output 测试结果 MultipleInputs分析 与普通Driver的区别 普通Driver |API|Job属性 |— |FileInputFormat.addInputPath|mapreduce.input.fileinputformat.inputdir 示例:/user/hadoop/wordcount/book.txt |Job.setMapperClass|mapreduce.job.map.class 示例:WordCount.TokenizerMapper |Job.setInputFormatClass|mapreduce.job.inputformat.class 示例:org.apache.hadoop.mapreduce.lib.input.TextInputFormat 使用MultipleInputs的Driver APIJob属性MultipleInputs.addInputPathmapreduce.input.multipleinputs.dir.formats 示例:/user/hadoop/mijoin/people.txt:o.a.h.m.l.i.TextInputFormat, /user/hadoop/mijoin/locations.txt:o.a.h.m.l.i.TextInputFormatmapreduce.input.multipleinputs.dir.mappers 示例:/user/hadoop/mijoin/people.txt:MultipleInputsDemo.PersonMapper, /user/hadoop/mijoin/locations.txt:MultipleInputsDemo.LocationMappermapreduce.job.inputformat.class 示例:org.apache.hadoop.mapreduce.lib.input.DelegatingInputFormatmapreduce.job.map.class 示例:org.apache.hadoop.mapreduce.lib.input.DelegatingMapper 由上可见,MultipleInputs方法不设置mapreduce.input.fileinputformat.inputdir属性,将mapreduce.job.inputformat.class和mapreduce.job.map.class属性设为多输入的委托类,增加了两个专用的属性mapreduce.input.multipleinputs.dir.formats和mapreduce.input.multipleinputs.dir.mappers已用于映射每一输入文件的格式和mapper类。 调用每个输入文件的FileFormat 调用每个输入文件的Mapper 示例流程

使用微软的机器学习云Azure ML进行预测分析

时间: 2014-09-23   |   分类: Tech     |   阅读: 8 字 ~1分钟
今天看了一个帖子Predictive Analytics with Microsoft Azure Machine Learning。尽管机器学习已经是一项历史悠久而且应用广泛的技术,微软以云服务形式推出希望获得一些市场。AzureML通过拖拽操作在界面上组织数据清理、训练模型、模型打分和评估,最后可以生成C#、R或Python代码。 对云数据进行数据分析,除了用Hadoop/Spark等技术自己搭积木开发实现外,这种通用分析产品还不够丰富。期望早日看到各厂家纷纷推出成熟的旗舰产品那一天,我司(SAS)加油!:)

将Ultraedit集成到Windows文件资源管理器

时间: 2014-09-10   |   分类: Tool     |   阅读: 1 字 ~1分钟
最近自己的公司电脑换新的了,IT同事给装好了Ultraedit,可是安装时没有在Windows文件资源管理器的菜单加入Ultraedit项,使用起来不便。在配置里设一下,搞定!
40 41 42 43 44 45 46 47 48

Programmer & Architect

662 日志
27 分类
1472 标签
RSS 订阅
GitHub Twitter FB Page
© 2009 - 2023 Mryqu's Notes
Powered by - Hugo v0.120.4
Theme by - NexT
0%