Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

plato如何将其它文件系统作为数据源? #133

Open
jievince opened this issue Feb 7, 2021 · 4 comments
Open

plato如何将其它文件系统作为数据源? #133

jievince opened this issue Feb 7, 2021 · 4 comments

Comments

@jievince
Copy link

jievince commented Feb 7, 2021

在文件系统层面,Plato提供了多种接口支持主流的文件系统,如HDFS、Ceph等等

看到文档中有提到plato可以从hdfs, ceph和本地csv中读取数据, 那如何判断其它的文件系统是否适合作为plato的数据源?如何从其他的文件系统中读取数据? 需要实现哪些接口?

@ustcyu
Copy link
Contributor

ustcyu commented Feb 14, 2021

可以参考从文件系统读取数据的代码:https://github.com/Tencent/plato/blob/master/plato/graph/structure.hpp
建议使用CSV格式的数据源,其他格式需要自行解析

@jievince
Copy link
Author

可以参考从文件系统读取数据的代码:https://github.com/Tencent/plato/blob/master/plato/graph/structure.hpp
建议使用CSV格式的数据源,其他格式需要自行解析

非常感谢回复🙏。 还有个问题, 如果我搭建了plato集群, 那数据源必须上传到hdfs上才能使plato拥有并行计算的能力吗?

@ustcyu
Copy link
Contributor

ustcyu commented Feb 14, 2021

并行计算和数据源没有关系,plato出于易用性考虑,支持从hdfs读取数据。读取数据后,会按照一定策略切分图数据,然后加载到内存做并行计算。

@Henryzhao-666
Copy link

[使用hdfs当做数据源时,由于我们目前用的集群是华为的安全版本,需要访问hdfs需要kerberos认证,否则不能识别hdfs文件系统,想问下有碰到类似问题的吗
WechatIMG2

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants