Differences

This shows you the differences between two versions of the page.

--- courses:mapreduce-tutorial [2012/01/25 00:33]
straka
+++ courses:mapreduce-tutorial [2012/01/25 18:38]
straka
@@ Line 21: / Line 21: @@
   * [[.:mapreduce-tutorial:Step 6]]: Running on cluster.
   * [[.:mapreduce-tutorial:Step 7]]: Dynamic Hadoop cluster for several computations.
+From now on, it is best to run MR jobs using a one-machine cluster. Running the scripts locally without any cluster has several disadvantages, most notably having only one reducer per job.
 === MapReduce extended ===
-Setup, cleanup
+  * [[.:mapreduce-tutorial:Step 8]]: Multiple mappers, reducers and partitioning.
-Multiple reducers + Partitions
+  * [[.:mapreduce-tutorial:Step 9]]: Hadoop properties.
-Combiners, perl inplace
+  * [[.:mapreduce-tutorial:Step 10]]: Combiners.
-Work dir
+  * [[.:mapreduce-tutorial:Step 11]]: Initialization and cleanup of MR tasks.
-Hadoop properties
+  * [[.:mapreduce-tutorial:Step 12]]: Additional output from mappers and reducers.
-N-grams
+=== Advanced MapReduce exercises ===
-K-means and Iterations
+  * [[.:mapreduce-tutorial:Step 13]]: Sorting
+  * [[.:mapreduce-tutorial:Step 14]]: N-gram language model
+  * [[.:mapreduce-tutorial:Step 15]]: K-means algorithm
 ===== Other =====
   * [[user:majlis:hadoop|Further information]]

Institute of Formal and Applied Linguistics Wiki