Перейти до вмісту

Обговорення:Енциклопедія історії України

Вміст сторінки не підтримується іншими мовами.
Додати тему
Матеріал з Вікіджерел
Найсвіжіший коментар: Arxivist у темі «Толока» 8 років тому

Технічна інформація

[ред.]

Доступні статті

[ред.]

Доступні електронні версії статей, що починаються з наступних літер:

  • АБВ__Д__ЖЗИІЇКЛМНО_____________

Наразі (?) недоступі:

  • ___ГҐ_ЕЄ__________ПРСТУФХЦЧШЩЮЯ

Проблеми складання списку статей

[ред.]

Всього гасел під 13.5 тис, частина з них — редиректи. Проблеми:

  • Список мусить бути перед початком заливки, бо є лінки між статтями, потрібно розуміти, куди ведуть лінки
  • Електронна та друкована версія відрізняються. Напр. статистика для літери А:
    • статей всього: 466
    • пусті в електронній, відсутні в друкованій; заплановані, але не реалізовані: 13
    • є в електронній, відсутні в друкованій; заплановані та реалізовані: 3
    • немає в електронній, є в друкованій; забуті в процесі перенесення в електронну версію: 7
    • дублікати: 1 пара.
  • Напряму з PDF спарсити важко, принаймні мені це не вдалося
  • В електронній версії є мимодруки, також там ігнорується Ґ, трапляється суміш кирилиці та латинки
  • Заюзати назви один в один не вийде, доведеться щось придумувати тому що:
    • все що вище
    • лапки ламають сортування
    • друкована може собі дозволити дві статті АННА, електронна — ні, доводиться додавати щось від себе.

Рішення

[ред.]

Є електронний список статей спарсений зі сторінок електронной версії ЕІУ. Напів автоматично я його почистив від кирилично-латинських проблем й провів попередню обробку. Далі вручну він мусить буде доведений до такого, що містить максимально можливу інформацію про кожне гасло, щоб з нього можно було скриптом автоматично створити будь-які варіанти імені, для заголовку, для назви стаття, для списку гасел тощо.

Толока

[ред.]

Наразі перед нам стоїть завдання вичитати повний список статей ЕІУ. В цілому робота полягає в тому, що ми беремо список зформований парсингом електронной версії і звіряємо з друкованою там само (PDF файли доступні для завантаження).

Структура списка

[ред.]

Список має формат CSV і складається з чотирьох стовпчиків, перші два з яких обов'язкові. Стовпчики розділені табуляціями. В якості розділителя тексту використовуються не лапки чи апостроф, а знак питання (зручно, оскільки він не зустрічається в тексті на відміну від). Призначення стовпчиків:

  1. Ключ гасла, змінна частина URL до нього на сайті Інститут історії НАНУ, напр., Abaza_V для статті Абаза́ Віктор Іванович, що розташована за адресою http://history.org.ua/index.php?termin=Abaza_V. Цей стовпчик заповнений скриптом і не мусить редагуватись (це небезпечно зокрема й тому, що часто ключи містять мішанину кирилиці й латинки). Якщо гасло є в друкованій версії, але було забуто при додаванні в електронну, клітинка залишається пустою.
  2. Назва статті у вигляді вікі-розмітки, напр. '''{{uc|Абаза́}} Віктор Іванович''', що дає Абаза́ Віктор Іванович. Згенерована неідеальним скриптом з електронної версії і гарантовано має неправильний формат в більшості випадків тому мусить бути перевірена і відкоригована. Виправлення цього стовпчика і є головним завданням толоки. Подробиці про формат — нижче.
  3. Статус. Пуста в більшості випадків, якщо гасло було перевірено, відредаговане і це не викликало проблем; якщо ж викликало, то мусить мати одну чи кілька позначок (через кому з крапкою):
    • NEW — нове гасло в електронній версії, відсутнє в друкованій
    • EMPTY — нове пусте, незаповнене гасло в електронній версії, відсутнє в друкованій
    • LATER — виникли проблеми з розумінням, як правильно форматувати гасло; відкладене
    • LOST — гасло відсутнє в електронній версії, хоча було в друкованій, очевидно, загубилося при публікації
    • CHANGE — гасло змінилося від друкованої до електронної версії або його довелося змінити
  4. Примітки. Якщо потрібно пояснити обране форматування, особливо для статусу LATER та CHANGE, або просто якщо зміни були нетривіяльними

Як форматувати

[ред.]

В цілому формат мусить відповідати тому, як гасло було записане в друкованій версії. Якщо в електронній версії гасло змінилося (і це не хибодрук), слід зважати також і на написання в ній. Наприклад, для деяких імен, що мають кілька варіянтів, змінився головний варіянт чи було додано ще один. Скажімо, АГАПІ́Т Печерський в електронній перетворився на АГАПІЙ (АГАПІТ) ПЕЧЕРСЬКИЙ (в нас буде використано Агапі́й (Агапі́т) Печерський), а Агно́н Шмуель Йосеф на АГНОН(ЧАЧКЕС) Шмуель (в пісумку я взяв для нього Агно́н (Чачкес) Шмуель Йосеф).

Пам'ятайте, що дефолтні гасла отримані парсингом електронной версії, в якій при публікації втратилися:

  • наголоси (Абаза́ Віктор Іванович став Абаза Віктор Іванович)
  • іноді, всі літери було переведено у верхній регістр (Агно́н Шмуель Йосеф став АГНОН(ЧАЧКЕС) Шмуель)
  • всюди втратилися букви Ґ (А́длерфельд (Adlerfelt) Ґустав та його щоденник став АДЛЕРФЕЛЬД Густав)
  • всюди втратилися лапки («А́збука» →‎ АЗБУКА)
  • втратилися додаткові назви (Австра́лія (Australia), Австралійський Союз →‎ АВСТРАЛІЯ) та оригінальне написання імені (див. приклад з Ґ вище) чи його варіянти (Айвазо́вський (Ґайвазовський) Іван (Ованес) КостянтиновичАЙВАЗОВСЬКИЙ Іван Костянтинович)

Все це потрібно відновити згідно друкованій версії.

Приклади правильно відформатованих гасел:

  • Особа, що має головний ідентифікатор прізвище, а також додаткові — ім'я, по батькові:
    • '''{{uc|Адріа́нова-Пе́ретц}} Варвара Павлівна''' → Адріа́нова-Пе́ретц Варвара Павлівна
  • Особа, що має кілька варіянтів запису прізвища та/або воно дубльоване мовою оригіналу:
    • '''{{uc|Айвазо́вський}}''' (Ґайвазовський) '''Іван''' (Ованес) '''Костянтинович''' → Айвазо́вський (Ґайвазовський) Іван (Ованес) Костянтинович
    • '''{{uc|Абрага́м}}''' (Abraham) '''Владислав''' → Абрага́м (Abraham) Владислав
    • '''{{uc|Авра́мов}}''' (Абрамов) '''Іван Борисович''' → Авра́мов (Абрамов) Іван Борисович
    • '''{{uc|Аврі́ль}}''' (d'Avril) '''Адольф''' → Аврі́ль (d'Avril) Адольф
  • Особа має ім'я (прізвище) та прізвисько, що ідентифікують історичну особу і які нерозривно пов'язані:
    • '''{{uc|Адальбе́рт Магдебу́рзький}}''' → Адальбе́рт Магдебу́рзький
    • '''{{uc|Ада́м Бре́менський}}''' → Ада́м Бре́менський
    • '''{{uc|Агапі́й}}''' (Агапі́т) '''{{uc|Печерський}}''' → Агапі́й (Агапі́т) Печерський
  • Стаття присвячена не особі, а якомусь пов'язаному артефакту, чи як особі, так і артефакту. Орієнтуйтеся на друковану версію, ось пара прикладів таких гасел:
    • '''{{uc|А́длерфельд}}''' (Adlerfelt) '''Ґустав та його щоденник''' → А́длерфельд (Adlerfelt) Ґустав та його щоденник
    • '''{{uc|Авраа́мки літо́пис}}''' → Авраа́мки літо́пис
  • Держави, що мають скорочену і повну назву. Орієнтуйтеся на друковану версію, приклади:
    • '''{{uc|А́встрія}}''' (Österreich), '''Австрійська Республіка''' → А́встрія (Österreich), Австрійська Республіка
    • '''{{uc|Австра́лія}}''' (Australia), '''Австралійський Союз''' → Австра́лія (Australia), Австралійський Союз
    • '''{{uc|А́встро-Уго́рщина}}''', '''Австро-Угорська монархія''' → А́встро-Уго́рщина, Австро-Угорська монархія
  • Власні імена, що зазвичай пишуться з великої літери:
    • '''{{uc|«Абда́нк»}}''' → «Абда́нк»
  • Поняття та імена, що зазвичай пишуться з малої літери:
    • '''{{uc|а́бвер}}''' → а́бвер
    • '''{{uc|аба́т}}''' → аба́т
    • '''{{uc|ава́ри}}''' → ава́ри

У випадку, коли важко визначитись, — пишить статус LATER та йдіть далі.

У випадку, коли сумнівних випадків кілька й вони кладуться в якусь систему, — пишить статус LATER та йдіть далі, а на цій сторінці створюйте додаткове обговорення таких гасел.

Список

[ред.]

Список, що його потрібно опрацюівати розташований ТУТ і містить біля 13.5 тис. гасел. Будемо брати потроху якісь адекватні діапазони і опрацьовувати. Як працювати зі списком:

  • відкриваєте код сторінки зі списком і копіюєте собі для роботи список або його частину
  • обираєте діапазон, відмічаєте в таблиці нижче
  • працюєте
  • вставляєте результат назад в список
  • відмічаєте результат у таблиці.

Як редагувати список зручно. Я знаю два способи:

  1. Відкрити його в OpenOffice чи LibreOffice Calc або MS Excel (формат — CSV, charset — UTF-8, поля розділяються Tab, текст — символом ? (не лапками! це важливо)) і там редагувати. Зберегти в тому ж форматі.
  2. В Notepad++ виставивши для зручності (Settings|Preferences|Tab Settings) якійсь дуже великий розмір табуляції, 60, наприклад

Будь ласка, не змінюйте форматування списку, наприклад, не замінюйте таби на пробіли, не змінюйте їх кількість тощо.

Таблиця, хто з чим працює

[ред.]
Користувач Від До Статус
Artem.komisarenko (обговорення) 00:07, 31 жовтня 2016 (UTC)Відповісти Abaza_V Ajnalov_D зроблено
Artem.komisarenko (обговорення) 00:07, 31 жовтня 2016 (UTC)Відповісти Ajnzattshrupy Anarkho_syndykalizm працюю...
--Arxivist (обговорення) 09:26, 31 жовтня 2016 (UTC) Відповісти Anastas Arkhivoznavstvo Зроблено
--Arxivist (обговорення) 19:53, 1 листопада 2016 (UTC)Відповісти Arkhiiepyskop Ashkenazi роблю

Обговорення

[ред.]

Статус

[ред.]

Пропонований варіант статусів («Порожній у більшості випадків, якщо гасло було перевірено, відредаговане і це не викликало проблем; якщо ж викликало, то мусить мати одну чи кілька позначок») не відрізняє перевірені безпроблемні гасла від узагалі неперевірених (в обох випадках статус буде порожній). Мені здається, варто було б додати статус «Verified» (гасло було перевірено, відредаговане). Порожній статус залишити лише для неперевірених. --Olvin (обговорення) 07:20, 31 жовтня 2016 (UTC)Відповісти

Або зробити навпаки: для неперевірених гасел автоматично проставити статус «UnVerified», а для перевірених безпроблемних залишати порожнім. --Olvin (обговорення) 07:44, 31 жовтня 2016 (UTC)Відповісти
По таблиці будем дивитись, діапазон в цілому. Хто буде редагувати в електронній таблиці розмножити статус не буде проблемою, а ось якщо в блокноті — це вже зайвий геморой. В будь якому разі в кінці буде фінальна вичитка (мною, наприклад), яка простіша за початкову веріфікацію відповідності друкованій версії. Artem.komisarenko (обговорення) 10:22, 31 жовтня 2016 (UTC)Відповісти
То як же Ви відрізнятимете перевірені безпроблемні гасла від неперевірених? --Olvin (обговорення) 10:36, 31 жовтня 2016 (UTC)Відповісти
Згідно таблиці зверху: від Abaza_V до Ajnalov_D — зроблені, від Ajnzattshrupy до Arkhivoznavstvo — в роботі. Всі інші — ще необроблені. Коли всі будуть оброблені — я проведу фінальну вичитку. Всього обробленого масиву (вже без звірки з PDF). Artem.komisarenko (обговорення) 11:39, 31 жовтня 2016 (UTC)Відповісти

Список

[ред.]

Список слід зробити у вікірозмітці (скажімо, у вигляді таблиці). Бажано поділити на сторінки (або на розділи). Скажімо, для початку, за першою літерою. У поточному вигляді з ним важко працювати колективно: якщо його візьмуться одночасно редагувати кілька людей, то будуть постійні конфлікти редагувань, які дуже незручно щоразу вирішувати. --Olvin (обговорення) 07:36, 31 жовтня 2016 (UTC)Відповісти

З вікі-таблицею важко працювати, це дуже повільно йде. Я сподіваюсь, що люди будуть вигружати його собі і редагувати в Notepad++ чи Excel/Calc. Якщо в вас буде конфлікт — ви можете результат своєї работи залити додатковою підсторінкою, я вже якось змержу. Це я можу, ось чого не можу — веріфікувати 13.5 тис гасел самостійно. Artem.komisarenko (обговорення) 10:27, 31 жовтня 2016 (UTC)Відповісти
Вікітаблиці мають бути невеликими, тоді з ними можна прийнятно працювати. Саме для цього й слід поділити загальний список на підсторінки або розділи. --Olvin (обговорення) 10:39, 31 жовтня 2016 (UTC)Відповісти
Якщо ви візьмете участь в толоці і вам дійсно так зручніше, я ввечорі пройдусь скриптом й зроблю поруч сторінки з вікітаблицям. Як на мене простіше зовнішними інструментами редагувати сирі данні. Ну то кожному своє Artem.komisarenko (обговорення) 11:47, 31 жовтня 2016 (UTC)Відповісти

Типові помилки

[ред.]
  1. Будь ласка, додаткові назви — як в друку і до останнього болду. Якщо за болдом є ще щось — ігноруємо, воно буде в тексті статті, в назву гасла не піде:
    • НЕ правильно: Анаста́с (Дмитрієв, Черкес)
    • Правильно: Анаста́с
    • АЛЕ: Андріє́вський (Ліберець) Віктор Никанорович

Які назви вписувати

[ред.]

Питання зі скайп-чату:

Намагаюсь в'їхати у всю суть ЕІУ. Не знаю чи правильно (Але назви іноземними мовами це складно, бо наприклад, грецька мова чи щось таке) думаєш справді слід дописувати додаткові назви типу ті, які у лапках , а не є у загальній назві жирним шрифтом?

Все як в друкованій версії. Всі назви, додаткові, не додаткові — все як в друкованій версії. Додаткові — мається на увазі, якщо вони йдуть одразу за основною болдом або між двома болдами. Все що не болдом за гаслом — те ігноруємо, то буде в текстів статті. Тільки якщо електронна додала своє (нове гасло, додаткову назву абощо) — враховуємо Якщо якесь гасло викликає проблеми — став LATER та йди далі. Я потім його передивлюсь. Artem.komisarenko (обговорення) 10:30, 31 жовтня 2016 (UTC)Відповісти