gitextract_2qljhz4z/ ├── .dir-locals.el ├── .dockerignore ├── .gitignore ├── .travis/ │ ├── check_script_template.py │ ├── cmd/ │ │ └── hadoop_localfs.sh │ ├── run_checks │ └── start_container ├── .travis.yml ├── AUTHORS ├── Dockerfile ├── Dockerfile.client ├── Dockerfile.docs ├── LICENSE ├── MANIFEST.in ├── README.md ├── VERSION ├── dev_tools/ │ ├── build_deprecation_tables │ ├── bump_copyright_year │ ├── docker/ │ │ ├── client_side_tests/ │ │ │ ├── apache_2.6.0/ │ │ │ │ ├── initialize.sh │ │ │ │ └── local_client_setup.sh │ │ │ └── hdp_2.2.0.0/ │ │ │ ├── initialize.sh │ │ │ └── local_client_setup.sh │ │ ├── cluster.rst │ │ ├── clusters/ │ │ │ └── apache_2.6.0/ │ │ │ ├── docker-compose.yml │ │ │ └── images/ │ │ │ ├── base/ │ │ │ │ ├── Dockerfile │ │ │ │ └── scripts/ │ │ │ │ ├── generate_conf_files.py │ │ │ │ ├── zk_set.py │ │ │ │ └── zk_wait.py │ │ │ ├── bootstrap/ │ │ │ │ ├── Dockerfile │ │ │ │ └── scripts/ │ │ │ │ ├── bootstrap.py │ │ │ │ └── create_hdfs_dirs.sh │ │ │ ├── datanode/ │ │ │ │ ├── Dockerfile │ │ │ │ └── scripts/ │ │ │ │ └── start_datanode.sh │ │ │ ├── historyserver/ │ │ │ │ ├── Dockerfile │ │ │ │ └── scripts/ │ │ │ │ └── start_historyserver.sh │ │ │ ├── namenode/ │ │ │ │ ├── Dockerfile │ │ │ │ └── scripts/ │ │ │ │ └── start_namenode.sh │ │ │ ├── nodemanager/ │ │ │ │ ├── Dockerfile │ │ │ │ └── scripts/ │ │ │ │ └── start_nodemanager.sh │ │ │ ├── resourcemanager/ │ │ │ │ ├── Dockerfile │ │ │ │ └── scripts/ │ │ │ │ └── start_resourcemanager.sh │ │ │ └── zookeeper/ │ │ │ ├── Dockerfile │ │ │ └── scripts/ │ │ │ └── start_namenode.sh │ │ ├── images/ │ │ │ ├── base/ │ │ │ │ └── Dockerfile │ │ │ └── client/ │ │ │ └── Dockerfile │ │ └── scripts/ │ │ ├── build_base_images.sh │ │ ├── build_cluster_images.sh │ │ ├── share_etc_hosts.py │ │ ├── start_client.sh │ │ └── start_cluster.sh │ ├── docker_build │ ├── dump_app_params │ ├── edit_conf │ ├── git_export │ ├── import_src │ ├── mapred_pipes │ ├── unpack_debian │ └── update_docs ├── docs/ │ ├── Makefile │ ├── _build/ │ │ └── .gitignore │ ├── _templates/ │ │ └── layout.html │ ├── api_docs/ │ │ ├── hadut.rst │ │ ├── hdfs_api.rst │ │ ├── index.rst │ │ └── mr_api.rst │ ├── conf.py │ ├── examples/ │ │ ├── avro.rst │ │ ├── index.rst │ │ ├── input_format.rst │ │ ├── intro.rst │ │ └── sequence_file.rst │ ├── how_to_cite.rst │ ├── index.rst │ ├── installation.rst │ ├── news/ │ │ ├── archive.rst │ │ ├── index.rst │ │ └── latest.rst │ ├── pydoop_script.rst │ ├── pydoop_script_options.rst │ ├── pydoop_submit_options.rst │ ├── running_pydoop_applications.rst │ ├── self_contained.rst │ └── tutorial/ │ ├── hdfs_api.rst │ ├── index.rst │ ├── mapred_api.rst │ └── pydoop_script.rst ├── examples/ │ ├── README │ ├── avro/ │ │ ├── build.sh │ │ ├── config.sh │ │ ├── data/ │ │ │ └── mini_aligned_seqs.gz.parquet │ │ ├── pom.xml │ │ ├── py/ │ │ │ ├── avro_base.py │ │ │ ├── avro_container_dump_results.py │ │ │ ├── avro_key_in.py │ │ │ ├── avro_key_in_out.py │ │ │ ├── avro_key_value_in.py │ │ │ ├── avro_key_value_in_out.py │ │ │ ├── avro_parquet_dump_results.py │ │ │ ├── avro_pyrw.py │ │ │ ├── avro_value_in.py │ │ │ ├── avro_value_in_out.py │ │ │ ├── check_cc.py │ │ │ ├── check_results.py │ │ │ ├── color_count.py │ │ │ ├── create_input.py │ │ │ ├── gen_data.py │ │ │ ├── generate_avro_users.py │ │ │ ├── kmer_count.py │ │ │ ├── show_kmer_count.py │ │ │ └── write_avro.py │ │ ├── run │ │ ├── run_avro_container_in │ │ ├── run_avro_container_in_out │ │ ├── run_avro_parquet_in │ │ ├── run_avro_parquet_in_out │ │ ├── run_avro_pyrw │ │ ├── run_color_count │ │ ├── run_kmer_count │ │ ├── schemas/ │ │ │ ├── alignment_record.avsc │ │ │ ├── alignment_record_proj.avsc │ │ │ ├── pet.avsc │ │ │ ├── stats.avsc │ │ │ └── user.avsc │ │ ├── src/ │ │ │ └── main/ │ │ │ └── java/ │ │ │ └── it/ │ │ │ └── crs4/ │ │ │ └── pydoop/ │ │ │ ├── WriteKV.java │ │ │ └── WriteParquet.java │ │ └── write_avro_kv │ ├── c++/ │ │ ├── HadoopPipes.cc │ │ ├── Makefile │ │ ├── README.txt │ │ ├── SerialUtils.cc │ │ ├── StringUtils.cc │ │ ├── include/ │ │ │ └── hadoop/ │ │ │ ├── Pipes.hh │ │ │ ├── SerialUtils.hh │ │ │ ├── StringUtils.hh │ │ │ └── TemplateFactory.hh │ │ └── wordcount.cc │ ├── config.sh │ ├── hdfs/ │ │ ├── common.py │ │ ├── repl_session.py │ │ ├── run │ │ ├── treegen.py │ │ └── treewalk.py │ ├── input/ │ │ ├── alice_1.txt │ │ └── alice_2.txt │ ├── input_format/ │ │ ├── check_results.py │ │ ├── it/ │ │ │ └── crs4/ │ │ │ └── pydoop/ │ │ │ ├── mapred/ │ │ │ │ └── TextInputFormat.java │ │ │ └── mapreduce/ │ │ │ └── TextInputFormat.java │ │ └── run │ ├── pydoop_script/ │ │ ├── check.py │ │ ├── data/ │ │ │ ├── base_histogram_input/ │ │ │ │ ├── example_1.sam │ │ │ │ └── example_2.sam │ │ │ ├── stop_words.txt │ │ │ └── transpose_input/ │ │ │ └── matrix.txt │ │ ├── run │ │ ├── run_script.sh │ │ └── scripts/ │ │ ├── base_histogram.py │ │ ├── caseswitch.py │ │ ├── grep.py │ │ ├── lowercase.py │ │ ├── transpose.py │ │ ├── wc_combiner.py │ │ ├── wordcount.py │ │ └── wordcount_sw.py │ ├── pydoop_submit/ │ │ ├── check.py │ │ ├── data/ │ │ │ ├── cols_1.txt │ │ │ └── cols_2.txt │ │ ├── mr/ │ │ │ ├── map_only_java_writer.py │ │ │ ├── map_only_python_writer.py │ │ │ ├── nosep.py │ │ │ ├── wordcount_full.py │ │ │ └── wordcount_minimal.py │ │ ├── run │ │ └── run_submit.sh │ ├── run_all │ ├── self_contained/ │ │ ├── check_results.py │ │ ├── run │ │ └── vowelcount/ │ │ ├── __init__.py │ │ ├── lib/ │ │ │ └── __init__.py │ │ └── mr/ │ │ ├── __init__.py │ │ ├── main.py │ │ ├── mapper.py │ │ └── reducer.py │ └── sequence_file/ │ ├── bin/ │ │ ├── filter.py │ │ └── wordcount.py │ ├── check.py │ └── run ├── int_test/ │ ├── config.sh │ ├── mapred_submitter/ │ │ ├── check.py │ │ ├── genwords.py │ │ ├── input/ │ │ │ ├── map_only/ │ │ │ │ ├── f1.txt │ │ │ │ └── f2.txt │ │ │ ├── map_reduce/ │ │ │ │ ├── f1.txt │ │ │ │ └── f2.txt │ │ │ └── map_reduce_long/ │ │ │ └── f.txt │ │ ├── mr/ │ │ │ ├── map_only_java_writer.py │ │ │ ├── map_only_python_writer.py │ │ │ ├── map_reduce_combiner.py │ │ │ ├── map_reduce_java_rw.py │ │ │ ├── map_reduce_java_rw_pstats.py │ │ │ ├── map_reduce_python_partitioner.py │ │ │ ├── map_reduce_python_reader.py │ │ │ ├── map_reduce_python_writer.py │ │ │ ├── map_reduce_raw_io.py │ │ │ ├── map_reduce_slow_java_rw.py │ │ │ └── map_reduce_slow_python_rw.py │ │ ├── run │ │ ├── run_app.sh │ │ └── run_perf.sh │ ├── opaque_split/ │ │ ├── check.py │ │ ├── gen_splits.py │ │ ├── mrapp.py │ │ └── run │ ├── progress/ │ │ ├── mrapp.py │ │ └── run │ └── run_all ├── lib/ │ └── avro-mapred-1.7.7-hadoop2.jar ├── logo/ │ └── ubuntu-font-family.tar.bz2 ├── notice_template.txt ├── pydoop/ │ ├── __init__.py │ ├── app/ │ │ ├── __init__.py │ │ ├── argparse_types.py │ │ ├── main.py │ │ ├── script.py │ │ ├── script_template.py │ │ └── submit.py │ ├── avrolib.py │ ├── hadoop_utils.py │ ├── hadut.py │ ├── hdfs/ │ │ ├── __init__.py │ │ ├── common.py │ │ ├── core/ │ │ │ └── __init__.py │ │ ├── file.py │ │ ├── fs.py │ │ └── path.py │ ├── jc.py │ ├── mapreduce/ │ │ ├── __init__.py │ │ ├── api.py │ │ ├── binary_protocol.py │ │ ├── connections.py │ │ └── pipes.py │ ├── test_support.py │ ├── test_utils.py │ └── utils/ │ ├── __init__.py │ ├── conversion_tables.py │ ├── jvm.py │ ├── misc.py │ └── py3compat.py ├── pydoop.properties ├── requirements.txt ├── setup.cfg ├── setup.py ├── src/ │ ├── Py_macros.h │ ├── buf_macros.h │ ├── it/ │ │ └── crs4/ │ │ └── pydoop/ │ │ ├── NoSeparatorTextOutputFormat.java │ │ └── mapreduce/ │ │ └── pipes/ │ │ ├── Application.java │ │ ├── BinaryProtocol.java │ │ ├── DownwardProtocol.java │ │ ├── DummyRecordReader.java │ │ ├── OpaqueSplit.java │ │ ├── OutputHandler.java │ │ ├── PipesMapper.java │ │ ├── PipesNonJavaInputFormat.java │ │ ├── PipesNonJavaOutputFormat.java │ │ ├── PipesPartitioner.java │ │ ├── PipesReducer.java │ │ ├── PydoopAvroBridgeKeyReader.java │ │ ├── PydoopAvroBridgeKeyValueReader.java │ │ ├── PydoopAvroBridgeKeyValueWriter.java │ │ ├── PydoopAvroBridgeKeyWriter.java │ │ ├── PydoopAvroBridgeReaderBase.java │ │ ├── PydoopAvroBridgeValueReader.java │ │ ├── PydoopAvroBridgeValueWriter.java │ │ ├── PydoopAvroBridgeWriterBase.java │ │ ├── PydoopAvroInputBridgeBase.java │ │ ├── PydoopAvroInputKeyBridge.java │ │ ├── PydoopAvroInputKeyValueBridge.java │ │ ├── PydoopAvroInputValueBridge.java │ │ ├── PydoopAvroKeyInputFormat.java │ │ ├── PydoopAvroKeyOutputFormat.java │ │ ├── PydoopAvroKeyRecordReader.java │ │ ├── PydoopAvroKeyRecordWriter.java │ │ ├── PydoopAvroKeyValueInputFormat.java │ │ ├── PydoopAvroKeyValueOutputFormat.java │ │ ├── PydoopAvroKeyValueRecordReader.java │ │ ├── PydoopAvroKeyValueRecordWriter.java │ │ ├── PydoopAvroOutputBridgeBase.java │ │ ├── PydoopAvroOutputFormatBase.java │ │ ├── PydoopAvroOutputKeyBridge.java │ │ ├── PydoopAvroOutputKeyValueBridge.java │ │ ├── PydoopAvroOutputValueBridge.java │ │ ├── PydoopAvroRecordReaderBase.java │ │ ├── PydoopAvroRecordWriterBase.java │ │ ├── PydoopAvroValueInputFormat.java │ │ ├── PydoopAvroValueOutputFormat.java │ │ ├── PydoopAvroValueRecordReader.java │ │ ├── PydoopAvroValueRecordWriter.java │ │ ├── Submitter.java │ │ ├── TaskLog.java │ │ ├── TaskLogAppender.java │ │ └── UpwardProtocol.java │ ├── libhdfs/ │ │ ├── common/ │ │ │ ├── htable.c │ │ │ └── htable.h │ │ ├── config.h │ │ ├── exception.c │ │ ├── exception.h │ │ ├── hdfs.c │ │ ├── include/ │ │ │ └── hdfs/ │ │ │ └── hdfs.h │ │ ├── jni_helper.c │ │ ├── jni_helper.h │ │ └── os/ │ │ ├── mutexes.h │ │ ├── posix/ │ │ │ ├── mutexes.c │ │ │ ├── platform.h │ │ │ ├── thread.c │ │ │ └── thread_local_storage.c │ │ ├── thread.h │ │ ├── thread_local_storage.h │ │ └── windows/ │ │ ├── inttypes.h │ │ ├── mutexes.c │ │ ├── platform.h │ │ ├── thread.c │ │ ├── thread_local_storage.c │ │ └── unistd.h │ ├── native_core_hdfs/ │ │ ├── hdfs_file.cc │ │ ├── hdfs_file.h │ │ ├── hdfs_fs.cc │ │ ├── hdfs_fs.h │ │ └── hdfs_module.cc │ ├── py3k_compat.h │ └── sercore/ │ ├── HadoopUtils/ │ │ ├── SerialUtils.cc │ │ └── SerialUtils.hh │ ├── hu_extras.cpp │ ├── hu_extras.h │ ├── sercore.cpp │ ├── streams.cpp │ └── streams.h └── test/ ├── __init__.py ├── all_tests.py ├── app/ │ ├── __init__.py │ ├── all_tests.py │ └── test_submit.py ├── avro/ │ ├── all_tests.py │ ├── common.py │ ├── test_io.py │ └── user.avsc ├── common/ │ ├── __init__.py │ ├── all_tests.py │ ├── test_hadoop_utils.py │ ├── test_hadut.py │ ├── test_pydoop.py │ └── test_test_support.py ├── hdfs/ │ ├── __init__.py │ ├── all_tests.py │ ├── common_hdfs_tests.py │ ├── test_common.py │ ├── test_core.py │ ├── test_hdfs.py │ ├── test_hdfs_fs.py │ ├── test_local_fs.py │ ├── test_path.py │ └── try_hdfs.py ├── mapreduce/ │ ├── __init__.py │ ├── all_tests.py │ ├── it/ │ │ └── crs4/ │ │ └── pydoop/ │ │ └── mapreduce/ │ │ └── pipes/ │ │ └── OpaqueRoundtrip.java │ ├── m_task.cmd │ ├── r_task.cmd │ ├── test_connections.py │ └── test_opaque.py └── sercore/ ├── all_tests.py ├── test_deser.py └── test_streams.py