Hadoop下怎么使用C程序啊

[二级考试C技巧:VC下dll程序的调试]很多初学DLL和编程的人都为DLL的调试方法发愁。我结合自己学习的体验，总结DLL程序的调试如下。 DLL是一个不可运行的程序，它必须有其它程序的加载才可运行。故要调试DLL程序，需...+阅读

hadoop有个C++的接口，没有c的。需要自己编译链接库文件。你可以在网上找找，有个wordcount的例子。但是具体讲哪些类的好像没见过。 c语言或者其他语言的程序可以使用streaming方式来运行。 streaming的执行方法如下： $HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/hadoop-streaming.jar [options] Options: -input mapper的程序（可以是java的类，也可以是编译好的其他语言的程序） -combiner Combiner的程序 -reducer reducer的程序 -file

-outputformat TextOutputFormat(default)|JavaClassName Optional.输出文件的格式 -partitioner JavaClassName 这个是决定根据key值制定处理数据用哪个reducer的那个类。 -numReduceTasks reducer的数目（这只是任务分配的数目，具体能否并行执行还看hadoop配置的最大并发reducer数目） -inputreader =

怎么用myeclipse开发hadoop

首先要安装Myeclipse，在Ubuntu下安装Myeclipse和windows环境下安装的方法一样，下载myeclipse-9.1-offline-installer-linux.run然后双击运行就ok了。接下来安装Myeclipse的Hadoop插件，在hadoop的安装路径里找到hadoop的eclipse插件，0.20.2的路径在hadoop安装路径/contrib/eclipse-plugin，将插件复制到myeclipse的安装路径中的dropins文件里 Ubuntu下利用MyEclipse开发Hadoop程序然后重启myeclipse,myeclipse会自动提示你说发现新插件。安装插件成功，打开Window-->Preferens，你会发现HadoopMap/Reduce选项，在这个选项里你需要配置Hadoop installation directory。配置完成后退出。之后就是调出mapreduce视图，操作流程是MyEclipse->Window->OpenPerspective->other->勾选show all->看见一个小象Map/Reduce 就是它了。到目前你已经安装成功好hadoop插件了，接下来就是配置hadoop插件使它连上你的hadoop平台。

在Map/Reduce Locations中新建一个Hadoop Location。在这个View中，右键选择New Hadoop Location。在弹出的对话框中你需要配置Location name，如myHadoop，还有Map/Reduce Master和DFS Master。这里面的Host、Port分别为你在mapred-site.xml、core-site.xml中配置的地址及端口。Ubuntu下利用MyEclipse开发Hadoop程序 Ubuntu下利用MyEclipse开发Hadoop程序配置完后退出。点击DFSLocations-->myHadoop如果能显示文件夹说明配置正确，如果显示＂拒绝连接＂，请检查你的配置。配置成功的如图 Ubuntu下利用MyEclipse开发Hadoop程序完成上面的一系列操作我们就可以进行开发了，先来个hello world 练练手。新建项目。File-->New-->Other-->Map/Reduce Project 项目名可以随便取，如hadoop-helloWorld。复制 hadoop安装目录/src/example/org/apache/hadoop/example/WordCount.java到刚才新建的项目下面。

上传模拟数据文件夹。为了运行程序，我们需要一个输入的文件夹，和输出的文件夹。输出文件夹，在程序运行完成后会自动生成。我们需要给程序一个输入文件夹。1.在当前目录（如hadoop安装目录）下新建文件夹input，并在文件夹下新建两个文件file01、file02，这两个文件内容分别如下：file01 HelloWorld Bye World file02 HelloHadoop Goodbye Hadoop2.将文件夹input上传到分布式文件系统中。在已经启动Hadoop守护进程终端中cd 到hadoop安装目录，运行下面命令：bin/hadoopfs -put input input01 这个命令将input文件夹上传到了hadoop文件系统了，在该系统下就多了一个input01文件夹，你可以使用下面命令查看：bin/hadoopfs -ls 运行项目。1.在新建的项目hadoop-test，点击WordCount.java，右键-->Run As-->Run Configurations2.在弹出的Run Configurations对话框中，点Java Application，右键-->New，这时会新建一个application名为WordCount3.配置运行参数，点Arguments，在Program arguments中输入“你要传给程序的输入文件夹和你要求程序将计算结果保存的文件夹”，如：hdfs://localhost:9000/user/xx/input01hdfs://localhost:9000/user/xx/output01 这里面的input01就是你刚传上去文件夹。

文件夹地址你可以根据自己具体情况填写。4.点击Run，运行程序。点击Run，运行程序，过段时间将运行完成，等运行结束后，可以在终端中用命令：bin/hadoopfs -ls 查看是否生成文件夹output01。用下面命令查看生成的文件内容：bin/hadoopfs -cat output01/* 如果显示如下，恭喜你一切顺利，你已经成功在eclipse下运行第一个MapReduce程序了。Bye1 Goodbye 1 Hadoop2 Hello2 World2

Spark编程有哪些有用技巧

所谓Spark是起源于美国加州大学伯克利分校AMPLab的大数据计算平台，在2010年开源，目前是Apache软件基金会的顶级项目。随着Spark在大数据计算领域的暂露头角，越来越多的企业开始关注和使用。2014年11月，Spark在Daytona Gray Sort 100TB Benchmark竞赛中打破了由Hadoop MapReduce保持的排序记录。Spark利用1/10的节点数，把100TB数据的排序时间从72分钟提高到了23分钟。Spark在架构上包括内核部分和4个官方子模块Spark SQLSpark Streaming机器学习库MLlib图计算库GraphX由Spark在伯克利的数据分析软件栈BDAS(Berkeley Data Analytics Stack)中的位置可见，Spark专注于数据的计算，而数据的存储在生产环境中往往还是由Hadoop分布式文件系统HDFS承担。Spark在BDAS中的位置Spark被设计成支持多场景的通用大数据计算平台，它可以解决大数据计算中的批处理，交互查询及流式计算等核心问题。

Spark可以从多数据源的读取数据，并且拥有不断发展的机器学习库和图计算库供开发者使用。数据和计算在Spark内核及Spark的子模块中是打通的，这就意味着Spark内核和子模块之间成为一个整体。Spark的各个子模块以Spark内核为基础，进一步支持更多的计算场景，例如使用Spark SQL读入的数据可以作为机器学习库MLlib的输入。以下列举了一些在Spark平台上的计算场景。Spark的应用场景举例之前在大数据概述的课程中我们提到了Hadoop，大数据工程师都非常了解Hadoop MapReduce一个最大的问题是在很多应用场景中速度非常慢，只适合离线的计算任务。这是由于MapReduce需要将任务划分成map和reduce两个阶段，map阶段产生的中间结果要写回磁盘，而在这两个阶段之间需要进行shuffle操作。Shuffle操作需要从网络中的各个节点进行数据拷贝，使其往往成为最为耗时的步骤，这也是Hadoop MapReduce慢的根本原因之一，大量的时间耗费在网络磁盘IO中而不是用于计算。

在一些特定的计算场景中，例如像逻辑回归这样的迭代式的计算，MapReduce的弊端会显得更加明显。那Spark是如果设计分布式计算的呢？首先我们需要理解Spark中最重要的概念--弹性分布数据集（Resilient Distributed Dataset），也就是RDD。关键词：弹性分布数据集RDDRDD是Spark中对数据和计算的抽象，是Spark中最核心的概念，它表示已被分片（partition），不可变的并能够被并行操作的数据集合。对RDD的操作分为两种transformation和action。Transformation操作是通过转换从一个或多个RDD生成新的RDD。Action操作是从RDD生成最后的计算结果。在Spark最新的版本中，提供丰富的transformation和action操作，比起MapReduce计算模型中仅有的两种操作，会大大简化程序开发的难度。RDD的生成方式只有两种，一是从数据源读入，另一种就是从其它RDD通过transformation操作转换。

一个典型的Spark程序就是通过Spark上下文环境（SparkContext）生成一个或多个RDD，在这些RDD上通过一系列的transformation操作生成最终的RDD，最后通过调用最终RDD的action方法输出结果。每个RDD都可以用下面5个特性来表示，其中后两个为可选的：分片列表（数据块列表）计算每个分片的函数对父RDD的依赖列表对key-value类型的RDD的分片器（Partitioner）（可选）每个数据分片的预定义地址列表（如HDFS上的数据块的地址）（可选）虽然Spark是基于内存的计算，但RDD不光可以存储在内存中，根据useDisk、useMemory、useOffHeap, deserialized、replication五个参数的组合Spark提供了12种存储级别，在后面说明RDD的容错机制时，我们会进一步理解。值得注意的是当StorageLevel设置成OFF_HEAP时，RDD实际被保存到Tachyon中。

Tachyon是一个基于内存的分布式文件系统，目前正在快速发展，在这里我们就不做详细说明啦，可以通过其官方网站进一步了解。DAG、Stage与任务的生成Spark的计算发生在RDD的action操作，而对action之前的所有transformation,Spark只是记录下RDD生成的轨迹，而不会触发真正的计算。Spark内核会在需要计算发生的时刻绘制一张关于计算路径的有向无环图，也就是DAG。举个例子，在下图中，从输入中逻辑上生成A和C两个RDD，经过一系列transformation操作，逻辑上生成了F，注意，我们说的是逻辑上，因为这时候计算没有发生，Spark内核做的事情只是记录了RDD的生成和依赖关系。当F要进行输出时，也就是F进行了action操作，Spark会根据RDD的依赖生成DAG，并从起点开始真正的计算。逻辑上的计算过程：DAG 有了计算的DAG图，Spark内核下一步的任务就是根据DAG图将计算划分成任务集，也就是Stage，这样可以将任务提交到计算节点进行真正的计算。

Spark计算的中间结果默认是保存在内存中的，Spark在划分Stage的时候会充分考虑在分布式计算中可流水线计算（pipeline）的部分来提高计算的效率，而在这个过程中，主要的根据就是RDD的依赖类型。根据不同的transformation操作，RDD的依赖可以分为窄依赖（Narrow Dependency）和宽依赖（Wide Dependency，在代码中为ShuffleDependenc...

以下为关联文档：

万用表怎么使用啊a使用前，应认真阅读有关的使用说明书，熟悉电源开关、量程开关、插孔、特殊插口的作用. b将电源开关置于ON位置。 c交直流电压的测量：根据需要将量程开关拨至DCV（直流）或ACV（交流）的...

C排序程序不成功啊swap( &array[ i ], &array[ smallest ] ); 放在第2个for循环外面。 for ( int i = 0; i < size - 1; i++ ) { smallest = i; // first index of remaining array // loop t...

VS 2005怎么使用它来学C啊1、建立项目。文件-新建-项目-Visual C++-空项目-&lt；输入名称&gt；-确定 2、新建文件。文件-新建-文件-Visual C++-CPP文件-&lt；输入名称&gt；-确定 3、编辑程序。在新建的文件中...

C程序程序只能启动一个private void txtage_keypress(object sender, keypresseventargs e) { if (!(e.keychar >= '0' & e.keychar <= '9') & (int)e.keychar != 8) { e.handled = true; } } txt...

C中怎么让程序只能启动一次System.Threading.Mutex mutex = new System.Threading.Mutex(false, ＂ThisShouldOnlyRunOnce＂); bool Running = !mutex.WaitOne(0, false); if (! Running) Application.Run...

到底怎么在Linux里编写c程序啊在linux下通常使用gedit或vim直接编写.c程序，然后通过gcc指令编译。以Ubuntu系统为例，详细过程如下： 1、进入桌面Temp文件夹 2、右键新建空白文件 3、将文件命名为hello.c 4...

到底怎么在Linux里编写c<em>程序</em>啊

导游怎么考啊什么程序必须具有高级中学、中等专业学校或者以上学历九十月的时候到市旅游局报名大概百来元的报名费带上学生证身份证几张寸照旅游局那可以买一套考试用的书然后就使劲背吧！1...

怎么编写这个程序啊// C版 #include <stdio.h> int main() { int a[1000/7+1000/11]={0}; // a指向的数组的大小 int i,j=0; for (i=7;i<1001;i++) if (i%7==0 || i%11==0 && i%77!=0) a[j++]=...

c程序编译后自动生成的文件有什么用分别解释下c程序编译后自动生成的文件有什么用分别解释下：1, PCH文件预编译头文件（一般扩展名为.PCH），是把一个工程中较稳定的代码预先编译好放在一个文件（.PCH）里.这些预先编译好的代码可以...