袖珍故事
cubestories的Python项目详细描述
立方窗
cubetories允许通过以python字典(json)的形式提供参数来查询链接的开放统计信息。
支持实施的研究论文
数据存储库的高级封装
测试报告可在以下网址获得:测试报告
安装
pipinstallcubestories
要求将随软件包一起自动安装
导入/使用
fromCubeStoriesimport*
用法
库实现了数据分析所需的3个工件
- 元数据参数-SPARQL查询所需的元数据
{"sparqlEndPointUrl":"[SPARQL ENDPOINT URL]","jsonMetaDataFile":"[directory of JSON file with metadata]"}
- 多维数据集参数-从终结点检索多维数据集的哪些属性(基于元数据参数中提供的json文件)。 突出显示为:``--``的值必须由用户指定-替换为仅值
{"cube":"---Key of Cube ---","dimensions":["---List of dimensions---"],"measures":["---List of Measures---"],"hierdimensions":{"---DimKey---":{"selected_level":"---levelkey---"}}
- 分析管道-要执行的基于json的模式分析列表。每个模式都将提供这样的模板
{"---PatternName---":{"parameter1":["---list of values---"],"parameter2":"---value---"},"---PatternName----":{"parameter1":"---pattern1 value---","parameter2":["---list of values---"]}}
json模板-元数据参数之一
{"---cube_key---":{"title":"---title of cube---","dataset_structure":"---URI for cube structure---","dimensions":{"---dimension_key---":{"dimension_title":"---Title of diemnsion---","dimension_url":"---URI for dimension---","dimension_prefix":"---URI for dimension's values---"},"---dimension_key---":{"dimension_title":"---Title of diemnsion---","dimension_url":"---URI for dimension---","dimension_prefix":"---URI for dimension's values---"}},"hierarchical_dimensions":{"---dimension_key---":{"dimension_title":"---Title of diemnsion---","dimension_url":"---URI for dimension---","dimension_prefix":"---URI for dimension's values---","dimension_levels":{"---level_key---":{"description":"---description of granularity level---","granularity":"---integer level of granularity---"},"---level_key---":{"description":"---description of granularity level---","granularity":"---integer level of granularity---"}}}},"measures":{"---measure_key---":{"measure_title":"---Title of measure---","measure_url":"---URI for measure---"}}}}
模式描述
后面的注释仅用于描述目的。指定管道时删除它们
M计数
测量和计数 应用于整个数据集的算术运算符-有关数据的基本信息
属性
"MeasCount":{"count_type":"count value"}<表><广告>
字符串
输出
基于count_type值
<表><广告>长期有效
leaguetable-排序和提取特定数量的记录
属性
"LeagueTab":{"columns_to_order":["list of columns to order by"],"order_type":"type of order by","number_of_records":5}<表><广告>
列表[字符串]
字符串
整数
输出
基于排序类型值
<表><广告>columns_to_order中提供的列升序
columns_to_order中提供的列降序
内部比较
InternalComparison-一列中与文本值相关的数值比较
属性
"IntComp":{"dim_to_compare":"dimension to compare","meas_to_compare":"measure to compare","comp_type":"comparison type"}<表><广告>
字符串
字符串
字符串
输出
独立于所选的comp类型,输出数据将有额外的列和数字列以特定方式处理。
可用的比较类型 <表><广告>
剖面异常值
剖面异常值-检测数据中的异常值(异常)
属性
pipinstallcubestories0 <表><广告>
字符串
输出
使用python scipy库的模式分析将在一系列数据中执行异常值的快速探索。
根据显示类型,参数数据将显示有/无异常值。
可用的显示类型 <表><广告>
解剖因子
dissectfactors-根据dim_to_dissect中的值分解数据
属性
pipinstallcubestories1 <表><广告>
字符串
输出
作为输出,数据将以字典的形式分解,其中每个子集的值仅与特定值相关。
子数据集的字典将被构造为一系列的paiers,其中每个susbet的键的值从dim_到
这个键值将是数据,其中yhis键值是发生的。
高光对比度
HighlightContrast-与一个文本列相关的值之间的部分差异
< H3>属性pipinstallcubestories2 <表><广告>
字符串
字符串
字符串
输出
与所选的对比度类型无关,输出数据将有额外的列,其中数字列以特定方式处理。
可用的比较类型 <表><广告>
开始向下搜索
StartBigDrilldown-从多个层次检索数据。
此模式只能应用于尚未存储在数据框中的数据
属性
pipinstallcubestories3 <表><广告>
dict{hierdim:list[str]}
输出
作为输出,数据将以字典的形式检索,其中每个数据集将从不同的层次结构级别检索。列表将在hierdim_drill_down
中提供。参数中提供的层次结构级别将根据提供的元数据自动按从最一般级别到最详细级别的顺序排序。
启动mallzoomout
startsmallzoomout-从多层次检索数据。
此模式只能应用于尚未存储在数据框中的数据
属性
pipinstallcubestories4 <表><广告>
dict{hierdim:list[str]}
输出
作为输出,数据将以字典的形式检索,其中每个数据集将从不同的层次结构级别检索。列表将在hierdim_zoom_out
中提供。参数中提供的层次结构级别将根据提供的元数据自动按从最详细到最一般的级别进行排序。
按类别分析
AnalysisByCategory—根据Dim_for_类别中的值对数据进行组合,并对每个susbet执行分析
属性
pipinstallcubestories5 <表><广告>
字符串
字符串
字符串
输出
作为输出,数据将以字典的形式分解,其中每个子集的值仅与特定值相关。该子集将根据analysis_type
参数进行分析
可用的分析类型 <表><广告>
explore接口
属性
pipinstallcubestories6 <表><广告>
字符串
输出
模式将返回一系列数据集,其中每个数据集将表示在一个立方体中出现的从"dim"到"explore"的 表示数据的两个数值性质之间的差异 独立于所选的"Narr"类型,输出数据将有额外的列,列中的数值以特定方式处理。 可用的分析类型
<表><广告>叙述更改超时
属性
pipinstallcubestories
7
<表><广告> < /广告><正文>参数
键入 说明
测量到叙述 字符串
一组2个度量值,将叙述这些更改
narr\u类型 字符串
要执行的叙述类型
输出
< /广告><正文>Narr_类型 说明
百分比变化 第一个和第二个属性之间的百分比变化 差异 第一和第二属性之间的量化变化 推荐PyPI第三方库