网络论据语料库(iac)第二版是一个收集的语料库,用于研究网络论坛上的政治辩论。

InternetArgumentCorpus的Python项目详细描述


Internet Argument Corpus(IAC)版本2是一个用于在Internet论坛上进行政治辩论研究的语料库集合。数据在mysql数据库(download)中提供。还有用于访问/创建数据库(here)的python代码。

依赖关系

数据:
  • MySQL(或MariaDB) (用于托管的服务器,用于访问的客户端)
代码:
  • Python 3
  • python库(pip3 install<;whatever>;):
    • 炼金术
    • 屈折
    • mysqlclient(或其他接口,如oursql)

安装(代码)

克隆git存储库:

git clone git@bitbucket.org:nlds_iac/internet-argument-corpus-2.git

或通过PIP安装:

pip3 install InternetArgumentCorpus

安装(数据)

从SQL转储还原:

mysql --user=root -p createdebate < createdebate_20xx_xx_xx.sql

请注意,您可能需要先创建数据库:

drop database createdebate;
SET GLOBAL innodb_file_format=Barracuda;  # in case it isn't already
CREATE SCHEMA createdebate DEFAULT CHARACTER SET utf8mb4 DEFAULT COLLATE utf8mb4_bin;

备份:

mysqldump createdebate -r createdebate_$(date +%Y_%m_%d).sql

或者可能更快但更复杂(如何做到这一点):

dir=$(date "+%Y-%m-%d_%Hh%Mm");
mkdir -m 777 -p /tmp/$dir
date
for db in convinceme fourforums createdebate createdebate_released; do
    echo $db;
    mkdir -m 777 /tmp/$dir/$db;
    mysqldump --tab=/tmp/$dir/$db $db;
    rm /tmp/$dir/$db/*.sql;
    mysqldump --no-data $db -r /tmp/$dir/$db/$db.sql;
    echo "compressing";
    tar -czf /tmp/$dir/"$db"_$(date +%Y_%m_%d).tgz -C /tmp/$dir/ $db;
    rm -rf /tmp/$dir/$db;
done; mv /tmp/$dir .; date;

cd $dir
date
for db in convinceme fourforums createdebate createdebate_released; do
    echo $db;
    mysql -u root -p -e "drop database $db; CREATE SCHEMA $db DEFAULT CHARACTER SET utf8mb4 DEFAULT COLLATE utf8mb4_bin; SET GLOBAL foreign_key_checks=0";
    mysql -u root -p $db < $db/$db.sql;
    mysqlimport -u root -p --use-threads=4 --local $db $db/*.txt;
    mysql -u root -p -e "SET GLOBAL foreign_key_checks=1";
done;date;

使用

python代码:

fromiacorpusimportload_datasetdataset=load_dataset('fourforums')print(dataset.dataset_metadata)fordiscussionindataset:print(discussion)forpostindiscussion:print(post)exit()

贡献

我欢迎建议,拉请求,错误报告等!

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java如何在wix中为TARGETDIR和SourceDir提供路径?   java在custom starter中访问spring应用程序名称   没有构建带有ActionBarSherlock的java Android项目   java按钮边框不显示   JavaSpring:从表单数据获取文件输入流   javascript通知侦听器服务   java在Junit测试时遇到异常   java从文件中读取特定值   JavaFX:在很短的时间内隐藏窗格   如何在Docker中使用用户定义的引用类来容器化Java应用程序?   java如何更改项目的编译SDKversion?   是否有任何java/spring方法可以使用HttpServletRequest存储当前登录用户的会话信息?   Java中的双大于号(>>)?   Java阵列2x2及其工作原理   java Spring引导ddl自动生成器   java如何利用大量数据传输优化服务器客户端应用程序?   java在使用Windows的FLAG_全屏时ICS和Jelly Bean之间的不同行为   java如何获取当前在回收器视图的线性布局中不可见的视图