tiny fix

Former-commit-id: 1fe424323b212094856f423351dc2a15774d39c3
2024-10-11 23:51:54 +08:00
parent c71c78da50
commit c7efc7f2ed
12 changed files with 91 additions and 69 deletions
--- a/src/llamafactory/data/loader.py
+++ b/src/llamafactory/data/loader.py
@@ -53,7 +53,7 @@ def _load_single_dataset(
    """
    logger.info("Loading dataset {}...".format(dataset_attr))
    data_path, data_name, data_dir, data_files = None, None, None, None
-    if dataset_attr.load_from in ["om_hub", "hf_hub", "ms_hub"]:
+    if dataset_attr.load_from in ["hf_hub", "ms_hub", "om_hub"]:
        data_path = dataset_attr.dataset_name
        data_name = dataset_attr.subset
        data_dir = dataset_attr.folder
@@ -84,24 +84,7 @@ def _load_single_dataset(
    else:
        raise NotImplementedError("Unknown load type: {}.".format(dataset_attr.load_from))

-    if dataset_attr.load_from == "om_hub":
-        try:
-            from openmind import OmDataset
-            from openmind.utils.hub import OM_DATASETS_CACHE
-            cache_dir = model_args.cache_dir or OM_DATASETS_CACHE
-            dataset = OmDataset.load_dataset(
-                path=data_path,
-                name=data_name,
-                data_dir=data_dir,
-                data_files=data_files,
-                split=dataset_attr.split,
-                cache_dir=cache_dir,
-                token=model_args.om_hub_token,
-                streaming=(data_args.streaming and (dataset_attr.load_from != "file")),
-            )
-        except ImportError:
-            raise ImportError("Please install openmind via `pip install openmind -U`")
-    elif dataset_attr.load_from == "ms_hub":
+    if dataset_attr.load_from == "ms_hub":
        require_version("modelscope>=1.11.0", "To fix: pip install modelscope>=1.11.0")
        from modelscope import MsDataset
        from modelscope.utils.config_ds import MS_DATASETS_CACHE
@@ -119,6 +102,23 @@ def _load_single_dataset(
        )
        if isinstance(dataset, MsDataset):
            dataset = dataset.to_hf_dataset()
+
+    elif dataset_attr.load_from == "om_hub":
+        require_version("openmind>=0.8.0", "To fix: pip install openmind>=0.8.0")
+        from openmind import OmDataset
+        from openmind.utils.hub import OM_DATASETS_CACHE
+
+        cache_dir = model_args.cache_dir or OM_DATASETS_CACHE
+        dataset = OmDataset.load_dataset(
+            path=data_path,
+            name=data_name,
+            data_dir=data_dir,
+            data_files=data_files,
+            split=dataset_attr.split,
+            cache_dir=cache_dir,
+            token=model_args.om_hub_token,
+            streaming=(data_args.streaming and (dataset_attr.load_from != "file")),
+        )
    else:
        dataset = load_dataset(
            path=data_path,
--- a/src/llamafactory/data/parser.py
+++ b/src/llamafactory/data/parser.py
@@ -20,7 +20,7 @@ from typing import Any, Dict, List, Literal, Optional, Sequence
 from transformers.utils import cached_file

 from ..extras.constants import DATA_CONFIG
-from ..extras.misc import use_openmind, use_modelscope
+from ..extras.misc import use_modelscope, use_openmind


@dataclass
@@ -30,7 +30,7 @@ class DatasetAttr:
    """

    # basic configs
-    load_from: Literal["hf_hub", "ms_hub", "script", "file"]
+    load_from: Literal["hf_hub", "ms_hub", "om_hub", "script", "file"]
    dataset_name: str
    formatting: Literal["alpaca", "sharegpt"] = "alpaca"
    ranking: bool = False
@@ -97,11 +97,11 @@ def get_dataset_list(dataset_names: Optional[Sequence[str]], dataset_dir: str) -

    dataset_list: List["DatasetAttr"] = []
    for name in dataset_names:
-        if dataset_info is None: # dataset_dir is ONLINE
-            if use_openmind():
-                load_from = "om_hub"
-            elif use_modelscope():
+        if dataset_info is None:  # dataset_dir is ONLINE
+            if use_modelscope():
                load_from = "ms_hub"
+            elif use_openmind():
+                load_from = "om_hub"
            else:
                load_from = "hf_hub"
            dataset_attr = DatasetAttr(load_from, dataset_name=name)
@@ -111,15 +111,15 @@ def get_dataset_list(dataset_names: Optional[Sequence[str]], dataset_dir: str) -
        if name not in dataset_info:
            raise ValueError("Undefined dataset {} in {}.".format(name, DATA_CONFIG))

-        has_om_url = "om_hub_url" in dataset_info[name]
        has_hf_url = "hf_hub_url" in dataset_info[name]
        has_ms_url = "ms_hub_url" in dataset_info[name]
+        has_om_url = "om_hub_url" in dataset_info[name]

-        if has_om_url or has_hf_url or has_ms_url:
-            if has_om_url and (use_openmind() or not has_hf_url):
-                dataset_attr = DatasetAttr("om_hub", dataset_name=dataset_info[name]["om_hub_url"])
+        if has_hf_url or has_ms_url or has_om_url:
            if has_ms_url and (use_modelscope() or not has_hf_url):
                dataset_attr = DatasetAttr("ms_hub", dataset_name=dataset_info[name]["ms_hub_url"])
+            elif has_om_url and (use_openmind() or not has_hf_url):
+                dataset_attr = DatasetAttr("om_hub", dataset_name=dataset_info[name]["om_hub_url"])
            else:
                dataset_attr = DatasetAttr("hf_hub", dataset_name=dataset_info[name]["hf_hub_url"])
        elif "script_url" in dataset_info[name]: