안녕하세요! 파이썬 라이브러리 torchtext 관련 질문입니다.

안녕하세요!

다름이 아니라, 파이썬으로 코딩 중, torchtext라이브러리의 TabularDataset을 이용하는 방법에 대해 질문이 있어서요.

한 json 파일을 python에서 분석을 위해 들여오는 방법을 사용하려고 하는데요

해당 json 파일의 경우

'_id', 'Content_Img' 'No', 'Title', 'Auth', 'View_Num', 'Content', 'Article_Url', 'Title_Morp', 'Time', 'Reply'
의 구조를 가지고 있습니다.(reply의 경우 reply 아래 rep_time,rep_auth, rep_cont의 내용을 가지고 있습니다.)

고성능 그래픽카드를 가진 서버가 없어서(지금 있는 서버의 경우 성능이 그리 좋지 않습니다.), Colab을 이용해서 하려고 하는데요, 3기가가 넘는 데이터 양이 발목을 잡습니다.

직접 업로드를 하던지, 혹은 구글 드라이브를 연동해서 분석하려고 해도 막상 로딩을 시작하면 메모리가 넘쳐서 종료되어버리네요…

각설하고, 이번에 시도해볼 방법은

torchtext의 TabularDataset으로 데이터를 받아 이용해 보려고 했습니다.

TabularDataset의 경우 사용하기 위해서는, fields 부분을 채워줄 필요가 있는데, 그 값을 어떻게 설정해야 할지 모르겠어서요…

구글링해봐도 도움이 될만한 결과가 나오지 않아서요…

혹시 이 부분에 대해서 도움을 주실 수 있는 분이 있는지 궁금합니다!

안녕하세요?

특정 프레임워크나 라이브러리 관련해서는
스택오버플로우나 그쪽 커뮤니티에 질문하시는게 빠를것같네요.

여기에 자세히 아시는분이 있을지 잘 모르겠어요.
정 안되면 개발자에게 직접 이메일을 보내보시는것도 방법이죠.

그나저나 라이브러리에 대한 공식 문서가 없나요??

메모리 부족 문제에 관해선 배치 사이즈를 줄여보시고,
fields에 관해선 다음 링크에 잘 나와있네요.

https://torchtext.readthedocs.io/en/latest/data.html#tabulardataset

https://torchtext.readthedocs.io/en/latest/data.html#fields