Skocz do zawartości

[Prywata] Publicznie dostępne źródła/bazy treści


Veal
 Udostępnij

Rekomendowane odpowiedzi

Od jakiegoś czasu zajmuję się szeroko pojętym językoznawstwem, a ostatnio jednym z praw, które zamierzam testować na dużym materiale badawczym. Chociaż istnieją specjalnie na takie okazje stworzone bazy (np. nasz Narodowy Korpus Języka Polskiego) to nie są one wystarczające dla potrzeb mojej pracy, więc chciałbym skorzystać z kreatywności forumowiczów ;)

Czego dokładnie potrzebuję?

Dokładnie tego czego SEO'wcy czyli dużo różnorodnej, naturalnej treści w różnych językach. Niemniej nie będę jej nigdzie publikował (dlatego nie obchodzi mnie kwestia praw autorskich ani Duplicate Content).

O czym już myślałem?

  • Wikipedia i projekty pochodne (jeśli ktoś jeszcze nie wie to są nawet dostępne zrzuty baz);
  • teksty aktów prawnych;
  • stenogramy z posiedzeń sejmowych, sądowych itd.;
  • treść z popularnych serwisów news (parsowana);
  • bot zbierający statusy w komunikatorach różnych użytkowników;
  • dialogi z "tasiemcowych" seriali (tutaj wymagana byłaby współpraca producenta więc to raczej fantastyka);
  • napisy do filmów (produkowane "społecznie"),
  • posty z for internetowych.

Jeśli macie jakieś pomysły to zachęcam do dzielenia się nimi w temacie lub na PW. Ważne, żeby teksty były zapisane w formacie z którego można je wyciągnąć bez OCR.

Jeśli ktoś jest w posiadaniu treści, którą chciałby mi udostępnić (mogę podpisać kwitek, że zostanie wykorzystana tylko do obliczeń i badań ;)), zwłaszcza postów z niezaspamowanych for internetowych, to uruchomiłem na te potrzeby serwer ftp://korpus.borchmann.pl (bez logowania ale jest tak skonfigurowany, że wgranych plików nikt poza mną nie będzie mógł pobrać, otworzyć ani skasować; ponadto będę na bieżąco przenosił z niego wgrane pliki). Jeśli ktoś zdecyduje się na tą opcję to proszę też wrzucić plik txt skąd pochodzi treść, żebym mógł to wymienić w pracy.

Teksty presell page i z katalogów odpadają ;)

Z góry dzięki za pomoc.

Edytowane przez Veal

Na emeryturze po SEO zajmuję się R&D.

Odnośnik do komentarza
Udostępnij na innych stronach

A możesz napisać coś więcej na temat swojego badania? Ciekaw jestem do czego chcesz dojść i jak to ma wyglądać.

Można jeszcze posiłkować się tekstami z gier komputerowych. Tutaj masz przykład tekstowej gry role-playing: gra fabularna

Mógłbym jakieś logi podesłać, za tekstami stoją wyłącznie gracze, ale kwestia tego czy logi będą czytelne z podanymi obok godzinami z gry lub wstawkami typu "przechodzisz do budynku xxx".

Szablony do PrestaShop: https://presta-shop.pl

Nowe szablony w Templatemonster: link

Tani hosting: Hekko

Odnośnik do komentarza
Udostępnij na innych stronach

Jeśli chcesz dodać odpowiedź, zaloguj się lub zarejestruj nowe konto

Jedynie zarejestrowani użytkownicy mogą komentować zawartość tej strony.

Zarejestruj nowe konto

Załóż nowe konto. To bardzo proste!

Zarejestruj się

Zaloguj się

Posiadasz już konto? Zaloguj się poniżej.

Zaloguj się
 Udostępnij

×
×
  • Dodaj nową pozycję...

Powiadomienie o plikach cookie

Umieściliśmy na Twoim urządzeniu pliki cookie, aby pomóc Ci usprawnić przeglądanie strony. Możesz dostosować ustawienia plików cookie, w przeciwnym wypadku zakładamy, że wyrażasz na to zgodę. Warunki użytkowania Polityka prywatności