gitextract_h83fh3m2/ ├── .gitignore ├── .travis.yml ├── CHANGELOG.md ├── Gemfile ├── Guardfile ├── LICENSE.txt ├── README.md ├── Rakefile ├── TODO.md ├── benchmark/ │ ├── aggregate.rb │ ├── bisect.rb │ ├── comparison/ │ │ ├── prepare.sh │ │ ├── python.py │ │ ├── r.r │ │ ├── ruby.rb │ │ ├── run-all.sh │ │ └── scala.scala │ ├── custom_marshal.rb │ ├── digest.rb │ ├── enumerator.rb │ ├── serializer.rb │ ├── sort.rb │ ├── sort2.rb │ └── take.rb ├── bin/ │ └── ruby-spark ├── example/ │ ├── pi.rb │ └── website_search.rb ├── ext/ │ ├── ruby_c/ │ │ ├── extconf.rb │ │ ├── murmur.c │ │ ├── murmur.h │ │ └── ruby-spark.c │ ├── ruby_java/ │ │ ├── Digest.java │ │ ├── Murmur2.java │ │ ├── RubySparkExtService.java │ │ └── extconf.rb │ └── spark/ │ ├── build.sbt │ ├── project/ │ │ └── plugins.sbt │ ├── sbt/ │ │ └── sbt │ └── src/ │ ├── main/ │ │ └── scala/ │ │ ├── Exec.scala │ │ ├── MLLibAPI.scala │ │ ├── Marshal.scala │ │ ├── MarshalDump.scala │ │ ├── MarshalLoad.scala │ │ ├── RubyAccumulatorParam.scala │ │ ├── RubyBroadcast.scala │ │ ├── RubyConstant.scala │ │ ├── RubyMLLibAPI.scala │ │ ├── RubyMLLibUtilAPI.scala │ │ ├── RubyPage.scala │ │ ├── RubyRDD.scala │ │ ├── RubySerializer.scala │ │ ├── RubyTab.scala │ │ ├── RubyUtils.scala │ │ └── RubyWorker.scala │ └── test/ │ └── scala/ │ └── MarshalSpec.scala ├── lib/ │ ├── ruby-spark.rb │ ├── spark/ │ │ ├── accumulator.rb │ │ ├── broadcast.rb │ │ ├── build.rb │ │ ├── cli.rb │ │ ├── command/ │ │ │ ├── base.rb │ │ │ ├── basic.rb │ │ │ ├── pair.rb │ │ │ ├── sort.rb │ │ │ └── statistic.rb │ │ ├── command.rb │ │ ├── command_builder.rb │ │ ├── command_validator.rb │ │ ├── config.rb │ │ ├── constant.rb │ │ ├── context.rb │ │ ├── error.rb │ │ ├── ext/ │ │ │ ├── hash.rb │ │ │ ├── integer.rb │ │ │ ├── io.rb │ │ │ ├── ip_socket.rb │ │ │ ├── module.rb │ │ │ ├── object.rb │ │ │ └── string.rb │ │ ├── helper/ │ │ │ ├── logger.rb │ │ │ ├── parser.rb │ │ │ ├── serialize.rb │ │ │ ├── statistic.rb │ │ │ └── system.rb │ │ ├── helper.rb │ │ ├── java_bridge/ │ │ │ ├── base.rb │ │ │ ├── jruby.rb │ │ │ └── rjb.rb │ │ ├── java_bridge.rb │ │ ├── library.rb │ │ ├── logger.rb │ │ ├── mllib/ │ │ │ ├── classification/ │ │ │ │ ├── common.rb │ │ │ │ ├── logistic_regression.rb │ │ │ │ ├── naive_bayes.rb │ │ │ │ └── svm.rb │ │ │ ├── clustering/ │ │ │ │ ├── gaussian_mixture.rb │ │ │ │ └── kmeans.rb │ │ │ ├── matrix.rb │ │ │ ├── regression/ │ │ │ │ ├── common.rb │ │ │ │ ├── labeled_point.rb │ │ │ │ ├── lasso.rb │ │ │ │ ├── linear.rb │ │ │ │ └── ridge.rb │ │ │ ├── ruby_matrix/ │ │ │ │ ├── matrix_adapter.rb │ │ │ │ └── vector_adapter.rb │ │ │ ├── stat/ │ │ │ │ └── distribution.rb │ │ │ └── vector.rb │ │ ├── mllib.rb │ │ ├── rdd.rb │ │ ├── sampler.rb │ │ ├── serializer/ │ │ │ ├── auto_batched.rb │ │ │ ├── base.rb │ │ │ ├── batched.rb │ │ │ ├── cartesian.rb │ │ │ ├── compressed.rb │ │ │ ├── marshal.rb │ │ │ ├── message_pack.rb │ │ │ ├── oj.rb │ │ │ ├── pair.rb │ │ │ └── text.rb │ │ ├── serializer.rb │ │ ├── sort.rb │ │ ├── sql/ │ │ │ ├── column.rb │ │ │ ├── context.rb │ │ │ ├── data_frame.rb │ │ │ ├── data_frame_reader.rb │ │ │ ├── data_type.rb │ │ │ └── row.rb │ │ ├── sql.rb │ │ ├── stat_counter.rb │ │ ├── storage_level.rb │ │ ├── version.rb │ │ └── worker/ │ │ ├── master.rb │ │ ├── spark_files.rb │ │ └── worker.rb │ └── spark.rb ├── ruby-spark.gemspec └── spec/ ├── generator.rb ├── inputs/ │ ├── lorem_300.txt │ ├── numbers/ │ │ ├── 1.txt │ │ ├── 10.txt │ │ ├── 11.txt │ │ ├── 12.txt │ │ ├── 13.txt │ │ ├── 14.txt │ │ ├── 15.txt │ │ ├── 16.txt │ │ ├── 17.txt │ │ ├── 18.txt │ │ ├── 19.txt │ │ ├── 2.txt │ │ ├── 20.txt │ │ ├── 3.txt │ │ ├── 4.txt │ │ ├── 5.txt │ │ ├── 6.txt │ │ ├── 7.txt │ │ ├── 8.txt │ │ └── 9.txt │ ├── numbers_0_100.txt │ ├── numbers_1_100.txt │ └── people.json ├── lib/ │ ├── collect_spec.rb │ ├── command_spec.rb │ ├── config_spec.rb │ ├── context_spec.rb │ ├── ext_spec.rb │ ├── external_apps_spec.rb │ ├── filter_spec.rb │ ├── flat_map_spec.rb │ ├── group_spec.rb │ ├── helper_spec.rb │ ├── key_spec.rb │ ├── manipulation_spec.rb │ ├── map_partitions_spec.rb │ ├── map_spec.rb │ ├── mllib/ │ │ ├── classification_spec.rb │ │ ├── clustering_spec.rb │ │ ├── matrix_spec.rb │ │ ├── regression_spec.rb │ │ └── vector_spec.rb │ ├── reduce_by_key_spec.rb │ ├── reduce_spec.rb │ ├── sample_spec.rb │ ├── serializer_spec.rb │ ├── sort_spec.rb │ ├── sql/ │ │ ├── column_spec.rb │ │ └── data_frame_spec.rb │ ├── statistic_spec.rb │ └── whole_text_files_spec.rb └── spec_helper.rb