F.A.S.T.数据卡创建包
fast-datacard的Python项目详细描述
快速数据卡
- 免费软件:apache软件许可证2.0
- 文档:https://fast-datacard.readthedocs.io" rel="nofollow">https://fast-datacard.readthedocs.io
概述
fast datacard是在快速分析软件taskforce(fast)协作中开发的一个python包。 这个包的主要目的是创建与higgscom兼容的数据卡。来自数据帧的bine工具。 包将采用所需的分类引用数据帧,例如由alphatwirl包创建的,并创建 必要的根和数据卡输出。
用法
用法如下:
fast_datacard <yaml_config_file>
示例 yaml 配置文件可用: examples/datacards\u config.yaml 。配置文件列出了所有的输入事件类别、区域、物理过程、数据帧等。需要注意的是:
- 必须存在 一般的 , 区域 , 信号 , 背景 和 系统 块。
- 分析名称 、 版本 和 数据集 仅用于版本控制。
- 亮度 (浮动,在fb-1中)的值用于将信号和背景的 含量 和 误差 加权到预期亮度。
- 对于每个名为 x 的信号和后台进程,应该在 path\u to\u dfs 目录中有一个名为 x.csv 的文件(空格分隔的pandas数据框)。
- data-names\u df 应该等于用于数据帧中的数据的 进程 名称(示例配置文件中的 数据 ),还应该是 到dfs的路径中的 .csv 数据帧的名称。 数据名称将是输出数据直方图的名称,并且应等于 higgscombine工具施加的 数据obs 。
- 必须至少有一个信号和一个背景。
- 背景(但不是信号,请参见下文)只能存在于特定区域(请参见示例配置文件)。
- 系统学模块中列出的系统学可以有三种类型: lnn , lnu 和 shape 。前两个是标准化不确定度,应提供一个对应于1+x的值,其中x是不确定度1西格玛水平(以百分比表示)(见示例配置文件)。对于 形状 类型,不需要值,因为形状本身编码不确定度级别。没有必要o以不确定度的名称指定向上/向下,因为这将从输入数据帧中导出(见下文)。
- 系统学只能应用于给定的一组信号和/或背景,在这种情况下,应指定进程的名称(与数据帧中的进程名称相同)。如果系统应用于所有背景,则可以使用 背景 而不是列出所有背景处理(对于 信号 )也是如此。
运行的配置也部分来自输入数据帧,因此格式应该遵循一些规则:
列应命名为:
process region category systematic variable variable_low variable_high content error
其中:
- 过程 是物理过程的名称,例如 vbf , ewk 等
- region 是区域的名称,例如 信号 , 控制区域1 等。
- category 是事件类别的名称,例如 2jet , highmass 等。每个唯一的名称将被视为不同的类别。
- systemic 是应用于获取此行的 内容的系统形状变化的名称。例如,如果一个进程具有两种形式的系统不确定性,即 sys1 和 sys2 ,则数据帧应包含5种变化:对于存在该进程的每个bin,分别为 标称 , sys1_up , sys1_down , sys2_up , sys2_down 。
- variable 是定义输出直方图中x值的变量的名称。代码不使用它,但它主要用于跟踪不同类别中的拟合变量。
- variable_low 和 variable_high 在用于拟合的输出直方图中定义沿x的binning。每个唯一的一组( variable_low , variable_high )将被视为唯一的存储箱。
- 内容 是该特定( 过程 , 区域 , 类别 , 系统 , 变量 , 变量 , 变量 )bin的产量。
- error 是分配给收益率的误差(请注意,它不是误差的平方!因此,对于泊松实验,它应该是sqrt(n)。)
使用 region 或 category 是可选的,因为一个分析可能只包含一个region和一个category;在这种情况下,每一列的值需要由所有行的相同值填充。
- 信号处理应在所有类别和区域中定义,即使 内容 为0。换言之,如果您正在寻找一个名为 香蕉 的Exotics信号,则代码假设它将找到一行 香蕉 的内容 用于分析的每个箱(即代码从未假设信号不能同时存在于控制区域中)。l)< <李>
- 数据 应在所有类别和区域中定义,即使 内容 为0。如果数据未在某个地方定义,则分析中甚至不应存在类别/区域。
该软件包将产生两组输出:
- 总结物理过程、产量和有关分析的元信息的文本数据卡。
- 根数据卡,包含描述将在配合中使用的形状的历史程序。
两者都用作higgscombine工具的输入。
学分
这个包是用cookiecutter和项目模板创建的。