gitextract_jurvigyb/ ├── .github/ │ ├── ISSUE_TEMPLATE/ │ │ ├── bug_report.yml │ │ ├── feature_request.yml │ │ └── questions.yml │ ├── actions/ │ │ └── crab_install/ │ │ └── action.yml │ └── workflows/ │ ├── documentation.yml │ ├── publish_release.yml │ └── pytest_package.yml ├── .gitignore ├── .pre-commit-config.yaml ├── README.md ├── crab/ │ ├── __init__.py │ ├── actions/ │ │ ├── android_actions.py │ │ ├── crab_actions.py │ │ ├── desktop_actions.py │ │ ├── file_actions.py │ │ ├── system_actions.py │ │ └── visual_prompt_actions.py │ ├── agents/ │ │ ├── backend_models/ │ │ │ ├── __init__.py │ │ │ ├── camel_model.py │ │ │ ├── claude_model.py │ │ │ ├── gemini_model.py │ │ │ └── openai_model.py │ │ ├── policies/ │ │ │ ├── __init__.py │ │ │ ├── multi_agent_by_env.py │ │ │ ├── multi_agent_by_func.py │ │ │ └── single_agent.py │ │ └── utils.py │ ├── benchmarks/ │ │ ├── __init__.py │ │ └── template.py │ ├── core/ │ │ ├── __init__.py │ │ ├── agent_policy.py │ │ ├── backend_model.py │ │ ├── benchmark.py │ │ ├── csv_log.py │ │ ├── decorators.py │ │ ├── environment.py │ │ ├── exceptions.py │ │ ├── experiment.py │ │ ├── graph_evaluator.py │ │ ├── models/ │ │ │ ├── __init__.py │ │ │ ├── action.py │ │ │ ├── agent_interface.py │ │ │ ├── benchmark_interface.py │ │ │ ├── config.py │ │ │ ├── evaluator.py │ │ │ └── task.py │ │ └── task_generator.py │ ├── environments/ │ │ ├── __init__.py │ │ └── template.py │ ├── server/ │ │ ├── __init__.py │ │ ├── api.py │ │ ├── config.py │ │ ├── exception_handlers.py │ │ ├── logger.py │ │ ├── main.py │ │ ├── middleware.py │ │ └── utils.py │ └── utils/ │ ├── __init__.py │ ├── common.py │ ├── encryption.py │ └── measure.py ├── crab-benchmark-v0/ │ ├── README.md │ ├── __init__.py │ ├── android_env.py │ ├── dataset/ │ │ ├── android/ │ │ │ ├── 1005c437-50d1-465a-b3fc-833098b22bfc.json │ │ │ ├── 12333aa0-e76d-4a5c-8657-9f897f62f62d.json │ │ │ ├── 22b04776-8eec-4303-b3f6-9c981f7f29b8.json │ │ │ ├── 2ade6a13-c7a6-4df7-8c62-77382687369e.json │ │ │ ├── 346caf7c-dc74-4c38-962a-aaffb638e0c7.json │ │ │ ├── 379b9c58-5125-41b3-9cc6-ea925c8b094d.json │ │ │ ├── 4190c90c-b28c-4bb3-ab5c-af3c4fde0a3d.json │ │ │ ├── 46d7ccdb-d2e4-4b8a-bead-f2641b5ac23c.json │ │ │ ├── 483fbf9c-dc78-4ac2-9264-53c4f617f6cc.json │ │ │ ├── 4893a9b0-6477-495d-a73c-32503326e24a.json │ │ │ ├── 53010c40-dce4-4d72-a856-842c21059e2b.json │ │ │ ├── 6d9f6395-de79-4ad0-8a2a-2d674f93f293.json │ │ │ ├── 71ef7fd2-0ae3-49c8-8238-06b7aa985d25.json │ │ │ ├── 73f78fc3-1ca5-442d-801f-bc175a0bfb89.json │ │ │ ├── 764838cc-9359-4130-9bb2-4a75900b2d89.json │ │ │ ├── 77289141-e52b-48c8-b3a7-1b29520f3e1e.json │ │ │ ├── 7891ceab-7965-4ddb-a0fc-15740c9a4e44.json │ │ │ ├── 8bd51440-f959-4edc-baa5-cd03d32a5b0f.json │ │ │ ├── 94b1836b-3111-40ad-8d07-b8a57efe7438.json │ │ │ ├── a225f7f8-6d03-4619-b57d-7a08610030d8.json │ │ │ ├── b077299d-1acb-40f5-89f3-cc08044345bf.json │ │ │ ├── b3965b07-4683-4445-9de1-a1dedf6c73ad.json │ │ │ ├── c1b1cfeb-40e7-49a8-a3f5-b8c8ba723601.json │ │ │ ├── c85f03c9-83c4-417b-93d9-0d7b41022525.json │ │ │ ├── cf4c496b-fbbd-4701-91ea-4590fe6a66e1.json │ │ │ ├── d0811e47-d75f-40ce-b34b-e1ee3c8bed3f.json │ │ │ ├── d2d456bb-c7d1-46af-8263-78d8509fb320.json │ │ │ ├── d4e0f2b3-d0ff-4efd-856f-9f5e598cfd05.json │ │ │ ├── d7489d00-0046-4fb1-af5b-1fde7d87312c.json │ │ │ ├── d92f6c33-e0a7-4101-957d-e7dd218d2565.json │ │ │ ├── de843952-df8f-4a26-bae9-d0a32ed9a7f5.json │ │ │ ├── e20fd121-b981-42da-94de-efcd66889c11.json │ │ │ ├── e55d7a39-7b6b-4852-8711-844cebc88cb8.json │ │ │ ├── e9268070-91b7-4e8c-9976-1cf8126ba13b.json │ │ │ ├── fbe6a1b1-63bb-4d4e-8a53-ff4f7839ef61.json │ │ │ └── fc642cb6-5321-4966-afbf-fb3348bb69ee.json │ │ ├── android_subtasks.py │ │ ├── cross/ │ │ │ ├── 05a7633d-b966-471c-8848-e18e69ad265f.json │ │ │ ├── 1e92db38-501e-429b-ac31-453d1af10a25.json │ │ │ ├── 43be6e8e-034d-4277-8346-c4ae7553bf68.json │ │ │ ├── 534be964-269a-4509-b2b8-28cc3ba8dfca.json │ │ │ ├── 6f95cfa1-e7ae-4a82-912b-0180fc9622f2.json │ │ │ ├── 760ed27e-b1bd-451f-8659-bdb9845fcb7f.json │ │ │ ├── 82596760-7d4d-457d-9ca9-9551ab85ec58.json │ │ │ ├── a956a091-8de4-42ee-b152-913308dfc24b.json │ │ │ ├── c5929ef3-ac27-4288-b02f-4f261d5871f9.json │ │ │ └── da5911e3-1a99-4735-ba3e-f08c5ca81fdd.json │ │ ├── handmade_tasks.py │ │ ├── ubuntu/ │ │ │ ├── 05d0e137-7d97-4021-9477-6490a2154c81.json │ │ │ ├── 0a893c2e-eec5-47cc-a930-eb01c5f17683.json │ │ │ ├── 0d178388-8166-4b66-93c1-278861f9897c.json │ │ │ ├── 0d7c84d2-bbbd-46ab-80d1-52b3a44f3858.json │ │ │ ├── 0deafe05-8db5-445f-9031-f6e884569d03.json │ │ │ ├── 0e80fd90-0b23-454f-a629-7b6d7baa7542.json │ │ │ ├── 125f7bae-e931-4190-8737-5f1ea7227772.json │ │ │ ├── 15a150a8-899c-4753-8dc5-05248ccc3640.json │ │ │ ├── 1ebcd710-f73b-4022-832b-167c0d3f55a2.json │ │ │ ├── 22787ecc-52b2-4791-aefb-c45800f51414.json │ │ │ ├── 22f05f6f-6aef-4786-958f-14f559eaf014.json │ │ │ ├── 28963795-d694-4bb4-adaf-f7708a2c6fe5.json │ │ │ ├── 299db8f2-81eb-455f-9302-5c8cb30be691.json │ │ │ ├── 29f099b2-b3a5-463f-b10a-15363bf7e845.json │ │ │ ├── 355e9660-a355-4b95-8881-ac9da578ea43.json │ │ │ ├── 35bd7387-4735-4632-8474-e93382004c12.json │ │ │ ├── 362c5711-3824-42ff-96a0-7801b03b5f1f.json │ │ │ ├── 4718df9c-97ec-4b54-86ca-bd34e65c5a43.json │ │ │ ├── 47b75b21-99a2-461c-9d40-6dddc5c206d0.json │ │ │ ├── 4ae4e35f-d90a-48cc-8fb9-492ac7ae07ee.json │ │ │ ├── 4bbedade-4d4e-43d5-b650-2702b350ad28.json │ │ │ ├── 51a288f9-cf2c-4e8e-a98c-596a505af77c.json │ │ │ ├── 51c91051-3efb-4e92-a967-739b18520714.json │ │ │ ├── 57b7e8a7-8c17-4cc4-9bb5-4385afde3ad8.json │ │ │ ├── 58776443-ccf7-4db3-8c60-e188e4b5f90c.json │ │ │ ├── 5ba74c6a-4513-448b-8b68-ff145ece0652.json │ │ │ ├── 6428f803-62de-40d2-a345-64e6cf955c9d.json │ │ │ ├── 64a2c205-c85a-4e56-8edb-5df4f7724441.json │ │ │ ├── 696ca9bb-89ea-4cd5-b693-f2d749d964b1.json │ │ │ ├── 6be49e77-e904-4eb0-a36a-7f0fd128ede3.json │ │ │ ├── 6c3105a2-328c-4190-823d-03d759be0b57.json │ │ │ ├── 6c560516-ca14-4f97-b51d-16ad81fc29e4.json │ │ │ ├── 730172f5-894a-4d46-9102-ac7d985a479d.json │ │ │ ├── 73038efb-ca0f-4d90-a947-fcfd097dd91b.json │ │ │ ├── 73da97c9-f084-4cab-8697-1151737387ff.json │ │ │ ├── 77aa4dd3-5a68-4686-9cac-26d0ab77c7b4.json │ │ │ ├── 78502f1c-879b-4932-a5fd-d85f7f6b0f81.json │ │ │ ├── 7912f7a5-24b9-4dfe-a7b8-1effc1b7a212.json │ │ │ ├── 7d5613ec-9b67-4255-b766-d9c6e8466464.json │ │ │ ├── 7dda7e46-78be-4663-b882-6132dbbff335.json │ │ │ ├── 7e6c4927-2220-4522-9e3f-36f69adc3e71.json │ │ │ ├── 82c49e12-3b2f-432e-9069-4b67bafebbf7.json │ │ │ ├── 87910f23-ab23-4ccc-b115-d71cff6f0162.json │ │ │ ├── 8afc25eb-7a80-459f-acdc-5c79fc146c29.json │ │ │ ├── 8cb5ab6d-a56e-43b9-aa83-00a46331e20f.json │ │ │ ├── 90e09946-7b28-4102-b0ed-f683c01dbbd4.json │ │ │ ├── 925a3607-2802-48aa-b339-13ebfcef43a2.json │ │ │ ├── 9506dd30-f58d-4832-b336-8037e83e2689.json │ │ │ ├── 95e347aa-56ab-4d5d-a94c-350ddfddabf9.json │ │ │ ├── 98a360d8-0f95-44cd-bb9d-442fca2918d4.json │ │ │ ├── 9c979fc5-8d60-41f1-a494-904a1d312187.json │ │ │ ├── 9e08971c-7f83-4853-952e-4c4a4a26333b.json │ │ │ ├── 9fe4f541-61cf-48e0-a081-4371786659c7.json │ │ │ ├── a0714ef7-bbdc-4f84-bd2e-c6e611d4db9e.json │ │ │ ├── a2a34580-cded-4bf8-81d9-b36a4d4402d0.json │ │ │ ├── a6b67c2d-d448-4e77-904e-dc7c5f21a5fe.json │ │ │ ├── a70ab903-835f-48b7-8356-2321b8b869d8.json │ │ │ ├── a78177f5-6cc6-48d7-8c6f-df53399d7759.json │ │ │ ├── abb16512-27ae-49c0-b12b-7fbf0e95056b.json │ │ │ ├── b2ca21dc-dde9-49f5-bec7-321fbf769315.json │ │ │ ├── b57c96c1-071b-40f6-b33b-2a0459fc25bb.json │ │ │ ├── b73019e0-3ce8-4657-8b13-b3e0ab6cfac8.json │ │ │ ├── ba5aebcb-999d-44d4-b9bc-241f9884c6dd.json │ │ │ ├── be6468be-2218-45c1-9b75-b56efec61eb4.json │ │ │ ├── c4106f9a-9348-4a55-9892-782e6f4b3081.json │ │ │ ├── c8800e50-3ff4-4dd2-bc90-33688be99659.json │ │ │ ├── ccf31785-ec13-4981-93c5-ca6c242ac0c3.json │ │ │ ├── d3478489-70f2-4a82-b7d2-0a47b75986eb.json │ │ │ ├── d39d40b1-fc26-4169-9d6f-cdf81efe9a3e.json │ │ │ ├── d3c917ff-406f-447a-87f5-b8d835cba750.json │ │ │ ├── d6e460e4-c295-40ad-883c-11300d7832f0.json │ │ │ ├── d9e4e23c-2a2a-4b5c-b034-7deb6036572d.json │ │ │ ├── e31d4e3b-b753-4deb-b9ad-a0add5d4790e.json │ │ │ ├── f07a1f32-2f3f-40e7-b12f-8f1b128c41f6.json │ │ │ ├── f5cce3a0-ba65-4317-95f8-1fc7d9776c78.json │ │ │ ├── f67a26e4-58dd-4dc6-8859-affbf1d62f94.json │ │ │ └── f96d7c34-9543-4679-a6ea-89e0c2ef7b1c.json │ │ └── ubuntu_subtasks.py │ ├── main.py │ ├── scripts/ │ │ └── ubuntu_env_init.sh │ └── ubuntu_env.py ├── docs/ │ ├── Makefile │ ├── conf.py │ ├── crab.benchmarks.rst │ ├── crab.client.rst │ ├── crab.core.models.rst │ ├── crab.core.rst │ ├── crab.environments.rst │ ├── crab.rst │ ├── crab.server.controller.rst │ ├── crab.server.rst │ ├── crab_benchmark_v0/ │ │ ├── environment_gcp_setup.md │ │ ├── environment_local_setup.md │ │ └── get_started.md │ ├── get_started/ │ │ ├── build_your_own_benchmark.md │ │ └── quickstart.md │ ├── index.rst │ ├── make.bat │ └── modules.rst ├── examples/ │ ├── multi_env.py │ └── single_env.py ├── licenses/ │ ├── LICENSE │ ├── license_template.txt │ └── update_license.py ├── pyproject.toml └── test/ ├── actions/ │ └── test_visual_prompt_actions.py ├── agents/ │ ├── backend_models/ │ │ ├── test_camel_model.py │ │ ├── test_claude_model.py │ │ ├── test_gemini_model.py │ │ └── test_openai_model.py │ └── policies/ │ ├── test_multi_agent_by_func.py │ ├── test_mutli_agent_by_env.py │ └── test_single_agent.py ├── core/ │ ├── test_action.py │ ├── test_benchmark.py │ ├── test_evaluator.py │ └── test_utils.py └── server/ └── test_api.py