暹罗模型数据注释平台
quesadiya的Python项目详细描述
Quesdadiya是一个数据注释项目管理平台,您可以在其中管理 通过Command Line Interface (CLI)投影并在上批注数据 Web GUI生成用于开发连体模型的三元组数据集。在
快速启动
安装
您可以通过运行来安装quesadiya
$ pip install quesadiya
检查安装方式
^{pr2}$源安装
- git clone此回购。在
- cd quesadiya。在
- 运行pip install .。在
- 在终端上运行quesadiya,检查安装情况。在
项目管理
Quesadiya提供命令行界面(CLI)来管理数据注释项目。在
创建项目
可以通过以下方式创建数据注释项目:
$ quesadiya create <project_name> <admin_name> <datapath> [OPTIONS]
例如
$ quesadiya create queso me data/sample_triplets.jsonl Loading input data: 5 row [00:00, 1495.40 row/s] Admin password: Repeat for confirmation: Inserting data. This may take a while... Finish creating a new project 'queso'
注意: <datapath>必须是jsonline文件,其中每行必须遵循以下格式:
{"anchor_sample_id":"string (max 100 char)","anchor_sample_text":"list of text",// each element is a paragraph "anchor_sample_title":"text (nullable)","candidate_group_id":"string (max 100 char)","candidates":["item":{"candidate_sample_id":"string (max 100 char)","candidate_sample_text":"list of text",// each element is a paragraph "candidate_sample_title":"text (nullable)"}]}
anchor是要与阳性样本和阴性样本进行比较的样本。 candidates是正样本和负样本的候选列表。样本合作者 select被记录为正样本,quesadiya从其余样本中选择一个阴性样本。在
Tips:创建项目时,可以从jsonline文件添加协作者
$ quesadiya create queso me data/triplets.jsonl -a data/sample_collaborators1.jsonl
您可以查看示例数据here。在
请注意,<collaborator_path>必须是jsonline文件,其中每行必须遵循以下格式:
{'name':"string (max 150 char)",'password':"string (max 128 char)",'contact':"string (max 254 char)"}
有关详细信息,请参见Command Line Interface Guide。在
运行项目
可以通过运行quesadiya对数据集进行注释:
$ quesadiya run [OPTION]
您可以通过选项指定运行quesadiya服务器的端口号。例如
$ quesadiya run -p 4000
Quesadiya的默认端口号是1133。在
运行项目后,打开浏览器并访问http://localhost:1133/。在
然后,选择一个项目并键入admin name和password。在
- 这将引导您进入管理页面。在管理页面中,您可以执行以下操作:
- 查看丢弃的样本
- 查看每个合作者的进度
- 编辑协作者
{str>{1$用户提示^无法添加数据。如果你是管理员并且喜欢注释 示例,为自己创建一个协作者帐户并使用该帐户登录。在
有关详细信息,请参见Admin Guide。在
数据注释
在Quesadiya中,数据注释非常简单和直观。Anchor text显示 在屏幕的左侧,候选者在右侧。合作者 如果样本因某种原因损坏,则可以select正样本或丢弃样本。 管理员可以在管理页面中查看丢弃的示例并将示例推回项目。在
导出数据
可以通过导出带注释数据集的快照
$ quesadiya export <project_name> <output_path>
输出路径必须是jsonline文件。每行的格式如下:
{"anchor_sample_id":"text","positive_sample_id":"text","negative_sample_id":"text"}
请注意,此操作需要管理员权限。在
上面的操作只生成带有samples id的三元组数据集。 如果您想为每个示例包含文本,请添加-i选项。例如
$ quesadiya export queso data.jsonl -i
这将生成一个jsonline文件,其中每一行如下:
{"anchor_sample_id":"text","positive_sample_id":"text","negative_sample_id":"text","anchor_sample_text":"list of text"// each element is a paragraph, "positive_sample_text":"list of text","negative_sample_text":"list of text"}
安全
免责声明:Quesadiya及其贡献者对保护您的数据不承担任何责任。
也就是说,我们使用argon2加密所有密码。在
如果要禁止环境中的任何其他用户访问您的数据,我们建议您更改 项目文件夹。你可以通过
$ quesadiya path
此命令显示quesadiya项目文件夹的绝对路径。 去目录,你会发现项目文件夹。在
- 项目
标签: